insensitive Suche in Textstring

Peter329 · 30. Dezember 2023, 10:45

Hi

ich habe einen kleinen Texteditor als Ersatz für den Notepad geschrieben. Der funktioniert auch prima ... aber ...

Eine der Sonderfunktionen, die ich benötige, ist die "insensitive Suche" ... d.h. die Groß-Kleinschreibung wird ignoriert, aber auch Akzente, also e = é, è, ê ... und v.a.m. Mit anderen Worten, ich kann nicht einfach die Standard Methoden aus .NET zur Suche verwenden.

Ich habe eine FunktionRemoveAccents geschrieben, die einen vereinheitlichten String zurückliefert.
Meine Daten stehen in txtData. Der vereinheitlichte Suchstring steht inSearchText
Und dann lasse ich i von 0 bis TxtData.Length laufen (vorwärts oder rückwärts) und hole mir die jeweiligen Daten:

VB.NET-Quellcode

work = txtData.Text.Substring(i, SearchText.Length)

Dann teste ich

VB.NET-Quellcode

if SearchString = RemoveAccents(work) then ...

Das ist natürlich sehr "hausbacken". Bei kleinen Strings klappt das prima - aber bei großen Datenmengen dauert es Minuten, vor allem wenn der String nicht gefunden wird ! txtData.Text kann mehrere MB groß sein.

Gibt es denn performantere Methoden einer "insensitiven Suche" ? Natürlich muss ich vorwärts und rückwärts suchen können.

Vielleicht hat jemand eine schlaue Idee ...

LG
Peter

RodFromGermany · 30. Dezember 2023, 12:26

Peter329 schrieb:

ich habe einen kleinen Texteditor als Ersatz für den Notepad geschrieben.

Ich arbeite mit Notepad++. Der lässt nichts zu wünschen übrig.
====
Drehe die Suche um:
Durchsuche das Char-Array Deines Strings nach Deinen Accent-Chars.

siycah · 30. Dezember 2023, 14:27

Du könntest eine Fuzzy-Suche einbauen.
Damit erreichst du, dass auch Strings matchen, die nicht 100% übereinstimmen.

Crêpe könnte also auch mit "Crepe" gesucht werden.

github.com/JakeBayer/FuzzySharp
Das könnte dich in die richtige Richtung leiten.

Peter329 · 30. Dezember 2023, 15:54

Erst mal vielen Dank, dass ihr euch mit meinem Problem beschäftig habt.

Der Notepad++ ist ein nettes Teil. Sieht super aus und ist schnell - leider gibt es da auch keine Suche ohne Berücksichtigung der Akkzente (soweit ich das sehen kann).

Der Fuzzy-Search ist auch eine tolle Sache ... aber da werden eben nicht nur die Akkzente ausgeblendet .. und das hilft mir dann leider auch nicht.

[off topic]

Für alle die wissen wollen, warum um alles in der Welt ich hier so sehr viel Wert auf das Ausblenden der Akkzente lege:

Ich habe ein "Tagalog" Wörterbuch - Tagalog ist die (austronesische) Sprache der Filippinen (ja, da wo die sonnigen Strände und die netten Mädels sind

) und in dieser Sprache kommt es sehr auf die Betonung an:

bása = to read (verb)
basá = wet (adjective)

Zwischen beiden Varianten liegen Welten. Aber das ist nur ein Beispiel von sehr vielen ... Die Akkzente der Betonung werden alllerdings nicht geschrieben (anders als etwa Im Spanisch oder Französisch), die Bedeutung und damit die Akkzente werden nur aus dem Kontext ersichtlich. Im Text lese ich also nur "basa" ... und wenn ich das in die Suche eingebe,dann wird weder "bása" noch "basá" gefunden. Und die Akzente können á, à oder â sein ... damit wird der sog. "glottal stop" angezeigt - ohne das jetzt näher erklären zu wollen. Und das betrifft alle Vokale (a, e, i, o, u).

Jetzt sollte klar sein, warum ich soviel Wert darauf lege, dass meine Suche die Akkzente ignoriert ... damit ich alle passenden Wörter finde! Ansonsten sind die Suchergebnisse für mich ziemlich wertlos.

[off topic end]

Na ja, ich hoffe, dass ich mein Anliegen verständlich machen konnte.

Im dümmsten Fall, muss ich halt vor jeder Suche den Textstring erst mal mit meinem "RemoveAccents" in eine "insensitive Version" konvertieren ... blöde halt nur, dass diese Version dann nach jeder Text Änderung invalidiert werden muss. D.h. jede neue Suche verlangt dann erst mal einen ziemlichen Aufwand ...

Ich bin gespannt, ob jemand eine zündende Idee hat.

LG
Peter

RodFromGermany · 30. Dezember 2023, 16:24

Peter329 schrieb:

Na ja, ich hoffe, dass ich mein Anliegen verständlich machen konnte.

Wo kommen denn die Texte mit den Akzenten her?
Wäre Regex eine Alternative (langsam aber mächtig)?

siycah · 30. Dezember 2023, 16:28

Wenn ich mir die Unicode-Tabelle anschaue, dann sind die Buchstaben (auch mit Accents) sinnig angelegt.
symbl.cc/en/unicode/table/#latin-1-supplement

Vielleicht würde StringComparison.OrdinalCultureIgnoreCase deine Suche ja schon beschleunigen.

Peter329 · 30. Dezember 2023, 16:42

Danke für die Anregungen!

RodFromGermany schrieb:

Wo kommen denn die Texte mit den Akzenten her?

Na, das ist natürlich das Dictionary - da sind die Vokablen MIT Akkzenten abgespeichert (sonst wäre das ja auch sinnlos).

Mit RegEx ... da müsste man einen entsprechenden String generieren ... wäre vielleicht eine Möglichkeit ... da werde ich mal drüber nachdenken.

siycah schrieb:

Vielleicht würde StringComparison.OrdinalCultureIgnoreCase deine Suche ja schon beschleunigen.

Auch das scheint mir vielversprechend ... mal sehen, ob ich das hinbekomme.

LG
Peter

[edit]
Also von der Sache mit RegEx bin ich jetzt doch nicht mehr so überzeugt:

Nakákapagpabagábag = causing trouble

Wenn man das ohne Eingabe der Akkzente mit RegEx finden möchte, braucht es dann schon einen ziemlich langen String.

Das scheint mir dann doch nicht so ganz zielführend zu sein (auch wenn es sich bei dem o.a. String um einen "tongue twister" handelt).

[edit end]

siycah · 30. Dezember 2023, 17:23

Könntest du bitte deinen RegEx hier posten. Eigentlich sind reguläre Ausdrücke keine ganz so verkehrte Idee und können das auch sehr gut.

Die sind nur wirklich schwer zu verstehen. Seit 16 Jahren programmiere ich nun und immer wieder bin ich erstaunt, was die Profis alle für Werke zaubern

ErfinderDesRades · 30. Dezember 2023, 17:51

Ein selbstgebastelter Editor wird natürlich nicht ansatzweise die Qualität und Leistungsfähigkeit erreichen, die np++ bietet.
Etwa sowas selbstverständliches wie die UnDo-Funktionalität - das wirste schlicht nicht hinkriegen.
Daher wäre schon am besten, wenn du einfach np++ nutzen könntest.
Aber diese Spezial-Funktion: Accent-Insensitive Search - das hatter eben nicht, bzw. das kann er nur, indem man der Suche einen u.U. recht komplexen Regex eingibt.
Vielleicht kannst du dir ein tool bauen, was alle bösen Zeichen erstmal ausmerzt, bevor du den Text in np++ öffnest?

Jedenfalls, am Ende mag herauskommen, dass du in einem grossen Text viele Zeichen gleich behandeln musst wie andere viele Zeichen (É-E, é-e, È-E, è-e, ...).
Dazu mein Tipp: Vergiss String, und arbeite mit Char-Array.
Bei multiplen Austausch-Vorgängen sind lange Strings extrem resourcenfressend, weil jeder Austausch bedeutet ein komplettes Umkopieren.

Mehr kann noch nicht gesagt werden, weil du bislang keine wirkliche Spezifikation angegeben hast, welche Funktionen du brauchst (Suche? Filtern? Ersetzen? Markieren?).
Und jeweils braucht man mehrere Beispiele, mit Input-Text, Such/Ersetz-Pattern, Output-Text.

Fakiz · 31. Dezember 2023, 01:21

Wenn man das ohne Eingabe der Akkzente mit RegEx finden möchte, braucht es dann schon einen ziemlich langen String.

Da muss man etwas um die Ecke denken. In dem Wort das du mit Regex prüfen willst ersetzt du alle Akzente durch \w. Dadurch wird der Input string dann zum Pattern und umgekehrt.

Spoiler anzeigen

Peter329 · 3. Januar 2024, 09:50

Vielen Dank - wegen des Jahreswechsels komme ich erst jetzt dazu mich damit zu befassen.

1. @EDR: Das mit dem Char-Vektor verstehe ich. Aber dann müsste ich ja, jedesmal wenn der String sich ändert, diesen Vektor neu aufbauen (In einem Editor werden die Daten i.a. häufig geändert). Da die Dimension des Vektors einige MB beträgt, müsste ich den wohl nach jedem Update vor einer neuen Suche "entsorgen" und neu aufbauen. Wie mache ich das denn ...? ich meine mich zu entsinnen, dass es mit "REDIM" einige Probleme gab, wenn man das in einer Funktion ausführt ...

2. @Fakiz: Die Sache mit dem Ignorieren der Akzente im RegEx ist genial. Da werde ich ausprobieren, um zu sehen, wie performant das ist. Aber wie mache ich das denn denn, wenn der zu suchende String mehrfach auftritt ? (Das ist der Normalfall ...). Dann will ich ja die Suche mit einem "Repeat" Button ab dem letzten Treffen fortsetzen, bzw. mit "wrap-around" am Anfang bzw. Ende neu aufsetzen. Müsste ich da erst mal die Adressen aller Treffer in einem Vektor speichern und dann abarbeiten ? M.W. gibt es im RegEx keine Möglichkeit ab einer bestimmten Stelle zu suchen, bzw. rückwärts zu suchen .. oder ist mir das entgangen?

Ich hab da einfach ein paar grundlegende Probleme, wie man so eine Funktion wirklich sinnvoll gestaltet.

LG und ein Gutes Neues Jahr
Peter

ErfinderDesRades · 3. Januar 2024, 10:21

Peter329 schrieb:

Da die Dimension des Vektors einige MB beträgt...

Tja, da hast du ein Problem, ein grosses womöglich.
Mit Char-Array ists ein Problem, aber String-Operationen bzw. Regexe haben dasselbe Problem, evtl. sogar noch viel krasser.

Wirst halt probieren müssen.

Du bleibst also dabei, einen Editor bauen zu wollen? Für MB-grosse Texte?
Welches Control willst du dafür verwenden?

Peter329 schrieb:

Müsste ich da erst mal die Adressen aller Treffer in einem Vektor speichern und dann abarbeiten ? M.W. gibt es im RegEx keine Möglichkeit ab einer bestimmten Stelle zu suchen, bzw. rückwärts zu suchen .. oder ist mir das entgangen?

ja, müsstest du - ist auch kein Problem. Und rückwärts suchen, ab Position suchen - ja Regex kann sehr sehr viel.

Aber natürlich nicht alles - wie gesagt musste rumprobieren.
aber Fakiz's Code - ich hab den probiert - funzt net - kriegst du was damit hin?

Und da sehe ich ein Regex.Replace - also wenn sich das auf einen 2MB-String bezieht... - da darf man gespannt sein.
aber ob sich das auf 2MB bezieht weiss ich nicht genau, wie gesagt: ich blick da nicht durch

Peter329 · 3. Januar 2024, 11:20

ErfinderDesRades schrieb:

Du bleibst also dabei, einen Editor bauen zu wollen? Für MB-grosse Texte?
Welches Control willst du dafür verwenden?

Du hast ja Recht ... einen "richtigen" Editor schreibt man nicht selbst, sondern verwendet etwa Notepad++.

Meinen "Editor" verwende ich vorwiegend für sehr spezielle Aufgaben .... etwa als IDE für HTML, Skripte (BAT, RegEx), zum Extrahieren von Infos aus zweifelhaften Internet Files oder eMails, die ich nicht per Anwendung, also etwa in einem Mail Client oder Browser öffnen möchte, etc. etc. (die versuchen nämlich oft ihren Code nach Möglichkeit zu "verstecken").

Einen Screenshot habe ich zur Info und zur Erbauung angehängt.

Danke, für deine Einschätzung. Im dümmsten Fall muss ich eben damit leben, dass die Suche nur eingeschränkt verwendbar ist.

LG
Peter

ErfinderDesRades · 3. Januar 2024, 11:59

ich bin erbaut.

ErfinderDesRades schrieb:

Welches Control tust du dafür verwenden?

Und kommt das mit 2MB Text klar?

Peter329 · 3. Januar 2024, 15:43

Na gut ... 2 MB ist vielleicht ein bissl viel für eine TextBox ... aber hier habe ich z.B. eine Datei mit 1 MB (1.053.016 Bytes) ... die läuft flüssig und ohne Probleme ... Das ist so die Größe, mit der ich es gelegentlich zu tun habe. (s. Anhang)

Na ja, mal sehen, ob ich das mit der Suche zum Laufen kriege.

Fakiz · 8. Januar 2024, 14:08

Aber wie mache ich das denn denn, wenn der zu suchende String mehrfach auftritt ?

In dem du dir den Enumerator zwischen speicherst. Dann kannst du mit Enumerator.MoveNext() durch die Funde interrieren.

Spoiler anzeigen

Aber wenn du mit Sonderzeichen rechnen musst würde ich tatsächlich im text alle akzente ersetzen und dann alle vorkommen suchen. Hab das grad mal mit einer 4MB Datei versucht, hat bei mir 11 Sekunden mit Konsolenausgabe benötigt.

insensitive Suche in Textstring

insensitive Suche in Textstring

VB.NET-Quellcode

VB.NET-Quellcode

Peter329 schrieb:

Peter329 schrieb:

RodFromGermany schrieb:

siycah schrieb:

C#-Quellcode

Peter329 schrieb:

Peter329 schrieb:

ErfinderDesRades schrieb:

ErfinderDesRades schrieb:

C#-Quellcode

Ähnliche Themen

5 Benutzer haben hier geschrieben