RegEx zu langsam

Artentus · 14. Juni 2013, 16:40

Hallo mal wieder.

Vielleicht habt ihr mitbekommen, dass ich vor kurzem einen Formelparser für meine MathUtils geschrieben habe. Der Funktioniert auch sehr schön, so wie er soll. Ich habe aber gerade bemerkt, dass die Ausführungsgeschwindigkeit meines Algorithmus' etwa 5 mal langsamer ist, als beim Quadsoft Expressionparser, und 10 mal langsamer, als bei Telcromes MathPro. Ich konnte die Ursache dafür bereits lokalisieren, und zwar ist es RegEx.
Ich parse den Eingabestring mit RegEx in die einzelnen Tokens, die dann per shunting-yard-Algorithmus in Postfixnotation umgestellt werden und rechne diese dann aus. Laut meinen Messungen benötigt RegEx über die Hälfte der Ausführungszeit. Die genannte Stelle sieht so aus:

Spoiler anzeigen

C#-Quellcode

private static List<string> GetInfixTokens(string term)
{
//Leerzeichen entfernen und in Kleinbuchstaben konvertieren
term = term.Replace(" ", string.Empty).ToLowerInvariant();
var tokens = new List<string>();
//mit RegEx alle Zahlen aussortieren
var r = new Regex(@"(?<number>[0-9]+(\" + CultureInfo.CurrentCulture.NumberFormat.NumberDecimalSeparator + @"[0-9]+){0,1}(e[+\-]{0,1}[0-9]+){0,1})"); //(@"(((?<=(\(|^))(?<sign>[+\-]{0,1}))|(?<=.))(?<number>([0-9]+)(\.[0-9]+){0,1})");
var numbers = r.Matches(term);
term = r.Replace(term, "1");
//Term in Tokens teilen
var possibleTokens = new string[] { "+", "-", "*", "/", "^", "%", "sqrt", "root", "sin", "cos", "tan", "asin", "acos", "atan", "sinh", "cosh", "tanh", "ln", "log", "abs", "int", "(", ")", ";", "pi", "e" };
var numberIndex = 0;
while (term.Length > 0)
{
var validToken = false;
//Zahlen prüfen
if (term.StartsWith("1"))
{
tokens.Add(numbers[numberIndex].Groups["number"].Value);
numberIndex++;
if (term.Length > 1)
term = term.Substring(1);
else
term = string.Empty;
validToken = true;
}
//Operatoren, Klammern und Funktionen prüfen
foreach (var token in possibleTokens)
if (term.StartsWith(token))
{
if ((token == "+" || token == "-") && (tokens.Count == 0 || tokens.Last() == "(")) //Vorzeichen
{
if (token == "-")
tokens.Add("!");
}
else if (token == "pi") //PI
tokens.Add(System.Math.PI.ToString());
else if (token == "e") //e
tokens.Add(System.Math.E.ToString());
else
tokens.Add(token);
if (term.Length > token.Length)
term = term.Substring(token.Length);
else
term = string.Empty;
validToken = true;
break;
}
//Token nicht bekannt
if (!validToken)
throw new ArgumentException("Dieser Term enthält einen ungültigen Token.");
}
return tokens;
}

Wie ihr seht filtere ich mit RegEx alle Zahlen im Term raus und ersetze sie durch ein Zeichen, dass ich dann im Tokenizing-Schritt bequem auslesen kann.

Meine Frage ist jetzt: kann ich den RegEx-Aufruf durch irgendwas anderes ersetzen bzw. das Tokenizing komplett anders gestalten? Mir ist nichts anderes eingefallen.
Edit: mir geht es um die Zeilen 9, 10 und 11.

Rinecamo · 14. Juni 2013, 16:48

Entweder das (RegexOptions.Compile) oder per String-Funktionen parsen.

Mangafreak1995 · 14. Juni 2013, 16:49

Erstell nicht immer eine neue Instanz sondern generier und kompilier ein Pattern und check immer mit derselben Instanz. Das sollte schon einiges raushauen.

Artentus · 14. Juni 2013, 16:54

Ich probiers mal und melde mich dann wieder.
Danke schon mal im Voraus.

Edit:
Vielen Dank, das hat die Geschwindigkeit von RegEx verzehnfacht. :thumbsup:

Nur blöd, dass jetzt die erste Ausführung noch langsamer ist.

Mangafreak1995 · 14. Juni 2013, 17:21

Das kann auch an .Net liegen. Der CLI-Code muss auch einmal auf der Maschine kompiliert werden. AFAIK wird der Code erst dann kompiliert, wenn er benötigt wird. Der erste Durchgang dauert dann überall n bisschen, aber beim zweiten Mal wo ein Code genutzt wird ist er schon kompiliert.

Artentus · 14. Juni 2013, 17:25

Dessen bin ich mir bewusst, das ist es aber nicht. Vorher benötigte die erste Ausführung etwa 50.000 Ticks, jetzt braucht sie 80.000 Ticks. Dafür ist die benötigte zeit für alle anderen Aufrufe von 500 Ticks auf 300 Ticks gefallen.

nafets3646 · 14. Juni 2013, 17:43

Warum machst du dann beim Erstellen nicht einfach nen "Testdurchlauf"?

Mangafreak1995 · 14. Juni 2013, 17:43

Dann liegt es am Kompilieren vom Regex. Siehe im Link von @Rinecamo:

MSDN schrieb:

Compiled: Gibt an, dass der reguläre Ausdruck in eine Assembly kompiliert wird. Dies beschleunigt zwar die Ausführung, verlängert jedoch die Ladezeit. Dieser Wert sollte der Options-Eigenschaft nicht zugewiesen werden, wenn die CompileToAssembly-Methode aufgerufen wird.

ErfinderDesRades · 14. Juni 2013, 19:16

ich hab ma iwo gelesen, dass man regexe nie kompilieren soll, weil das viel Resource belegt, die aus ieinem Grund ühaupt nicht mehr freigegeben werden (muß eiglich ein DesignFehler sein)

Ansonsten ist doch nicht wichtig, wie schnell ein Expression-Parser parst - deswegen hängt doch keine App.

Mangafreak1995 · 14. Juni 2013, 19:29

@ErfinderDesRades: Es sollte nicht, wenn richtig genutzt

Da das aber sicherlich irgendwie verschachtelt sein wird, wenn es hier um ne Infixgenerierung geht, macht es IMO Sinn zu kompilieren. Das fehlende Freigeben ist wirklich eine Designfehler, wenn der Fehler existiert. Sagt mir nichts.

ErfinderDesRades · 15. Juni 2013, 12:18

ich würd jetzt auch nochmal nachfragen, ob Artentus auch den ersten Teil deines Vorschlags umgesetzt hat, also nicht in jedem Aufruf einen neuen Regex erstellen.

zum Designfehler: der 3. google-treffer von ".net regex compile" - sogar auf msdn: msdn.microsoft.com/de-de/library/8zbs0h2f.aspx

(cool! - .CompileToAssembly! da kannich auch noch was boosten, ich hab nämlich auch Regex-Performance-Probleme) :thumbsup:

Artentus · 15. Juni 2013, 14:03

@ErfinderDesRades
Ja, es wird jetzt nur noch eine Instanz erstellt.
Und CompileToAssembly ist ja nur bedingt von Vorteil, da man dann für jeden Ausdruck eine eigene DLL mitliefern muss, oder? Oder gibts da ne Möglichkeit, den kompilierten Code dann in die eigene Anwendung zu integrieren?

RegEx zu langsam

RegEx zu langsam

C#-Quellcode

MSDN schrieb:

Ähnliche Themen

5 Benutzer haben hier geschrieben