Notifikationer

Markér alle som læst Log ud

elprebsi Praktikant

19. juli 2013 - 15:05 Der er 8 kommentarer og
1 løsning

Unicode udrensning af java String

Hej Eksperter.

Jeg skal lave en lille rutine, som renser en java String, så jeg kun har nedenstående Unicode klasser tilbage i den. Kan I hjælpe mig på vej til, hvordan jeg gør?

- Bogstaver (L - All Letters)
- Ikke-luftige accenter (Mn Marks - nonspacing)
- Arabertal (0-9)
- Bogstaver (P - All Punctuation)
- Symbols (S - All Symbols)

Sommerhilsner
El Prebsi

Synes godt om

arne_v Ekspert

19. juli 2013 - 15:17 #1

dinstring.replace("[^A-Za-z0-9,.]", "")

tilfoej selv alle de tegn du vil beholde

Synes godt om

elprebsi Praktikant

19. juli 2013 - 15:34 #2

Hej Arne.

Tak for svaret.

Jeg havde håbet, at jeg ikke explicit skulle sidde og udvælge eéëè osv., men kunne kalde en eller anden

if (UnicodeHelper.isCharacterUnicodeClassL(minkarater))
{
...
}

Som jeg læser mig frem til (http://en.wikipedia.org/wiki/Mapping_of_Unicode_characters#General_Category), så findes den kategorisering af Unicode karaktererne, som jeg refererer til.

Jeg havde blot håbet på at Java havde én eller anden sindrig implementering af denne kategorisering, så jeg slap for håndarbejdet.

Det ville også gøre min kode mere robust, hvis kategorierne udvikler sig over tid.

/El Prebsi

Synes godt om

arne_v Ekspert

19. juli 2013 - 15:44 #3

Du burde kunne konstrueree strengen med hjaelp af Character.UnicodeBlock's hvis du vil.

Synes godt om

arne_v Ekspert

19. juli 2013 - 16:28 #4

Ups. Det er vist general category ikke blocks du vil have. men det kan ogsaa laves. Jeg proever at bixe et eksempel.

Synes godt om

arne_v Ekspert

19. juli 2013 - 16:41 #5

Noget a la:

import java.util.regex.Pattern;

public class Strip {
private static byte[] validCategories = { Character.UPPERCASE_LETTER, Character.LOWERCASE_LETTER, Character.DECIMAL_DIGIT_NUMBER };
private static Pattern valid;
static {
StringBuilder sb = new StringBuilder();
for(int c = 0; c <= 0x0000FFFF; c++) {
for(byte cat : validCategories) {
if(Character.getType(c) == cat) {
sb.append((char)c);
}
}
}
valid = Pattern.compile("[^" + Pattern.quote(sb.toString()) + "]");
}
public static String strip(String s) {
return valid.matcher(s).replaceAll("");
}
public static void main(String[] args) {
System.out.println(Strip.strip("a b c"));
System.out.println(Strip.strip("123.456"));
System.out.println(Strip.strip("æøå"));
}
}

Synes godt om

elprebsi Praktikant

19. juli 2013 - 17:20 #6

Tak for det. Det kan jeg sagtens bytte videre på.

Kan du sige mig, om String's både kan indeholde char's og Unicode karakterer ?

Smid et svar.

Tak for hjælpen
El Prebsi

Synes godt om

arne_v Ekspert

19. juli 2013 - 17:32 #7

String indeholder altid char's. Og char's er naesten det samme som Unicode codepoints. Forskellen er at der gaar 2 chars paa codepoints > 0xFFFF.

Synes godt om

arne_v Ekspert

19. juli 2013 - 17:35 #8

og svar

Synes godt om

arne_v Ekspert

19. juli 2013 - 17:37 #9

Character og String klasserne har metoder for aegte codepoint haandtering. Men hvis du kan noejes me 0-0xFFFF, saa er det altsaa nemmere.

Synes godt om

Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Følg dette spørgsmål

Opret Preview

Programmeringssprog kurser

Kurser inden for grundlæggende programmering

Se alle Programmeringssprog kurser

Flere spørgsmål fra Java kategorien

Titel	Indlæg	Oprettet	Seneste aktivitet
Programmering: Produktmixoptimering Af OBS i Java	34	23/05/202513:55	27/05/202518:32
Seleniumspørgsmål vedr. getText() Af mergelspir i Java	11	08/05/202516:32	08/05/202522:16
eclipse Af OBS i Java	0	02/05/202512:51	-
eclipse Af OBS i Java	14	27/04/202521:14	28/04/202521:28
eclipse Af OBS i Java	2	18/04/202517:14	18/04/202519:52

Se alle spørgsmål i kategorien Opret spørgsmål

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

Alle kategorier på Eksperten

Seneste artiklerRSS