Guten Tag,
Zu meinem Projekt: Ich schreibe derzeit ein Programm, dass Hausarbeiten (die als PDF gespeichert sind) ausliest und auf Formulierungen überprüft, die in wissenschaftlichen Arbeiten vermieden werden sollten. Den Text lese ich dazu aus der PDF-Datei aus und schreibe ihn in eine RichTextBox, danach werden alle Treffer, die bei einem Abgleich mit dem Inhalt meiner Datenbank mit regulären Ausdrücken gefunden, farbig hervorgehoben.
Zu meinem Problem: Nun möchte ich das Programm erweitern, so dass auch Alliterationen gefunden werden können und in einer anderen Farbe markiert werden.
Hier ein Ausschnitt meines Codes:
(In der Schleife überprüfe ich den Text auf das festgelegte Pattern für Alliterationen)
Als Alliterationspattern habe ich schon folgendes Versucht:
(Nicht-Gieriger Quantifizierer, Whitespaces zwischen den Wörtern)
(Gieriger Quantifizierer, Whitespaces zwischen den Wörtern)
(Nicht-Gieriger Quantifizierer, je eine Wortgrenze nach jedem Wort)
(Gieriger Quantifizierer, Wortgrenzen nach und vor jedem Wort)
(Nicht-Gieriger Quantifizierer, Wortgrenzen nach und vor jedem Wort)
(Gieriger Quantifizierer, Wortgrenzen nach und vor jedem Wort)
Leider finden alle Pattern nicht nur aufeinanderfolgende Wörter, sondern (selbst mit nicht-Gierigen Quantifizierern) Sätze bzw. Satzteile. So kommt Beispielsweise
bei jedem der verwendeten Pattern als Ergebnis.
Weiß von euch jemand eine mögliche Lösung?
Zu meinem Projekt: Ich schreibe derzeit ein Programm, dass Hausarbeiten (die als PDF gespeichert sind) ausliest und auf Formulierungen überprüft, die in wissenschaftlichen Arbeiten vermieden werden sollten. Den Text lese ich dazu aus der PDF-Datei aus und schreibe ihn in eine RichTextBox, danach werden alle Treffer, die bei einem Abgleich mit dem Inhalt meiner Datenbank mit regulären Ausdrücken gefunden, farbig hervorgehoben.
Zu meinem Problem: Nun möchte ich das Programm erweitern, so dass auch Alliterationen gefunden werden können und in einer anderen Farbe markiert werden.
Hier ein Ausschnitt meines Codes:
VB.NET-Quellcode
- Dim regex As Regex = New Regex(Alltierationspattern)
- Dim match As Match = regex.Match(tbPDFText.Text)
- While match.Success
- If (match.Success) Then
- tbPDFText.SelectionStart = match.Index
- tbPDFText.SelectionLength = match.Length
- tbPDFText.SelectionColor = Drawing.Color.Green
- End If
- match = match.NextMatch
- End While
(In der Schleife überprüfe ich den Text auf das festgelegte Pattern für Alliterationen)
Als Alliterationspattern habe ich schon folgendes Versucht:
(Nicht-Gieriger Quantifizierer, Whitespaces zwischen den Wörtern)
(Gieriger Quantifizierer, Whitespaces zwischen den Wörtern)
(Nicht-Gieriger Quantifizierer, je eine Wortgrenze nach jedem Wort)
(Gieriger Quantifizierer, Wortgrenzen nach und vor jedem Wort)
(Nicht-Gieriger Quantifizierer, Wortgrenzen nach und vor jedem Wort)
(Gieriger Quantifizierer, Wortgrenzen nach und vor jedem Wort)
Leider finden alle Pattern nicht nur aufeinanderfolgende Wörter, sondern (selbst mit nicht-Gierigen Quantifizierern) Sätze bzw. Satzteile. So kommt Beispielsweise
Die Trefferanzahl für den Ausdruck ([ABCDEF]) liegt bei zehn, da
bei jedem der verwendeten Pattern als Ergebnis.
Weiß von euch jemand eine mögliche Lösung?