Contain/Replace Methode verbessern?

Joanna · 26. Oktober 2012, 23:20

Hallo,
ich habe ein Modul, um ein Buch nach Wörtern zu sortieren. Die Sortierung soll Sonderzeichen und Umlaute wie normaleZeichen behandeln und Groß/Kleinschreibung ignorieren. Dazu dient hilft mir immoment dieser Code:

VB.NET-Quellcode

Private Function Checkumlaute(vergleichWort As String) As String
vergleichWort = vergleichWort.ToLower
If vergleichWort.Contains("ä") Then
vergleichWort = vergleichWort.Replace("ä", "ae")
End If
If vergleichWort.Contains("ö") Then
vergleichWort = vergleichWort.Replace("ö", "oe")
End If
If vergleichWort.Contains("ü") Then
vergleichWort = vergleichWort.Replace("ü", "ue")
End If
If vergleichWort.Contains("ß") Then
vergleichWort = vergleichWort.Replace("ß", "ss")
End If
If vergleichWort.Contains("é") Then
vergleichWort = vergleichWort.Replace("é", "e")
End If
If vergleichWort.Contains("è") Then
vergleichWort = vergleichWort.Replace("è", "e")
End If
If vergleichWort.Contains("í") Then
vergleichWort = vergleichWort.Replace("í", "i")
End If
Return vergleichWort
End Function

Meine Frage ist, ob jemand einen Vorschlag zur Vereinfachung/Verbesserung hat - es kommen ggf. noch weitere Sonderzeichenzeichen hinzu, bei ca. 100.000 Wörtern pro Buch sind es recht viele Abfragen pro Wort.

Ich habe es erst mit einer select Case Methode versucht, Problem waren jedoch mehrere vorkommen von verschiedenen Umlauten in einem Wort, z.B. "Ölüberschußländer" (Das steht zwar nicht im Buch, veranschaulicht aber das Problem)

mfg J

picoflop · 26. Oktober 2012, 23:31

Joanna schrieb:

ein Buch nach Wörtern zu sortieren

Biddä? EIN Buch kann man schlechterdings wohl nicht sortieren. Oder hast du schon mal versucht, EINE Zahl zu sortieren?
Willst du ggf alle Wörter eines "Buches" extrahieren und diese Worte nach der Anzahl ihres Vorkommens sortieren?

~blaze~ · 26. Oktober 2012, 23:32

Hi
schau' dir mal StringComparer.CurrentCultureIgnoreCase an. Per Compare kannst du auf die Reihenfolge vergleichen. Eine ähnliche Funktion bietet eine Überladung von String.Compare.

Gruß
~blaze~

Samus Aran · 26. Oktober 2012, 23:34

Versteh ich das richtig, du willst eine Liste aller Wörter (lies: Ergebnisse von .Split(" ")) erstellen und wissen, wie oft jedes Wort in dem String (Buch) vorkommt?
Mach ein Dictionary(Of String, Integer), geh dann die Ergebnisse von .Split(" ") durch, füge dem Dictionary das Wort mit Integerwert 1 hinzu, falls es nicht existiert, und wenn es bereits im Dictionary ist, erhöhst du einfach den Integerwert.

picoflop · 26. Oktober 2012, 23:38

Samus Aran schrieb:

Mach ein Dictionary(Of String, Integer), geh dann die Ergebnisse von .Split(" ") durch, füge dem Dictionary das Wort mit Integerwert 1 hinzu, falls es nicht existiert, und wenn es bereits im Dictionary ist, erhöhst du einfach den Integerwert.

Ganz so einfach wäre es dann nicht, aber fast ...

for each wort in buch

if not firstdic.contains(wort) then
neuwort = konvertiere(wort)
firstdic.add(wort, neuwort)
else
neuwort=firstdic(wort)
endif

if not seconddic.contains(neuwort) then
secondic.add(neuwort,1)
else
seconddic(neuwort)+=1
endif

next wort

Auf diese Weise spart man sich einiges an "Konvertierarbeit"

Nikx · 27. Oktober 2012, 00:14

Ich denke er will sie alphabetisch sortieren, warum sollte
er sonst ä, ö und ü wie ae, oe und ue behandeln wollen?

Grüße

~blaze~ · 27. Oktober 2012, 00:21

Übrigens ist das Contains überflüssig. Wenn ein Buchstabe nicht enthalten ist, wird auch keiner ersetzt.
Wenns lediglich auf den Vergleich ankommt, wäre Equals bzw. StringComparer.Equals möglich.

Gruß
~blaze~

Krschy · 27. Oktober 2012, 00:52

Stichwort Konverting oder/und Codierung.
Das schließt dann ein paar Zeichen mehr mit ein.
Meines Wissens gibt es eine Funktion dafür, die einen String umwandelt.

Joanna · 27. Oktober 2012, 01:14

Wow, schonmal danke fürs schnelle Feedback.

Übrigens, ja, es soll nach alphabet sortiert werden.
der Text liegt "teilsortiert" schon im MS-DOS-Format (aus qbasic zeiten) vor,
ich öffne die Datei mit nem streamreader und encoding

VB.NET-Quellcode

Dim enc As System.Text.Encoding = System.Text.Encoding.GetEncoding(850)

teilsortiert bedeutet, dass ein Wort und der Rest des zugehörigen Satzes schon vorhanden ist.
Ich bin sozusagen am Beginn eines ReEngineerings.
Das vorhandene Programm bietet eine Eingabe für ein Wort und blendet während der Worteingabe Mögliche Varianten vor (--> Autocomplete) sowie den Rest des Satzes, indem es steht.
Zum Satz gehört jeweils noch eine Adresse, die noch im "alten"Programm (QBasic) verarbeitet wird- daher wird die sortierte Datei (erstmal) auch wieder so encodet(850) gespeichert.
Daher ist der "umständliche" aber funktionierende Weg: Öfnnen mit enc -> sortieren -> speichern mit enc.

den StringComparer kenne ich (noch) nicht, danke für den Hinweis - gleiches gilt für das Dictionary. War bislang nur "simple" Arrays gewöhnt und bin froh, dass objectorientierung so vieles vereinfacht.

Wie das mit der Konvertierung gemeint ist, habe ich noch nicht ganz verstanden, mache mich aber schlau, bevor ich nur dumm drumherumfrage.

Freue mich über weitere Vorschläge

und melde mich, wenn ich weiter bin.

mfg J

~blaze~ · 27. Oktober 2012, 01:47

Probier's einfach mal mit dem StringComparer, der ist gut für das geeignet, was du vorhast.
Wenn du keinen eigenen Sortieralgorithmus einbauen willst, kannst du Array.Sort oder List<String>.Sort verwenden, um eine bestehende Wortliste zu sortieren. Da StringComparer das IComparer-Interface implementiert sieht der Aufruf aus wie folgt:

VB.NET-Quellcode

Dim woerter() As String = New String() {"Hallo", "Haus", "Hafen", "Welt", "Baum", "Fisch", "VB-Paradise", "Newbie", "ein", "Ein"}
Array.Sort(woerter, StringComparer.CurrentCultureIgnoreCase)
MessageBox.Show(String.Join(vbCrLf, woerter))

Array.Sort basiert auf Quicksort.
@Krschy: Ich hab' zwar auch nicht verstanden, was du vorhast, aber das klingt eher nicht brauchbar. Der StringComparer sortiert wirklich alphabetisch.

Gruß
~blaze~

Contain/Replace Methode verbessern?

Contain/Replace Methode verbessern?

VB.NET-Quellcode

Joanna schrieb:

Samus Aran schrieb:

VB.NET-Quellcode

VB.NET-Quellcode

Tags

Ähnliche Themen

3 Benutzer haben hier geschrieben