Einige Fragen zur RegEx Syntax

Peter329 · 20. April 2020, 11:51

Hi,

ich möchte RegEx verwenden um unformatierte HTML Files ein bissl lesbarer zu machen. Hier meine ersten Versuche:

VB.NET-Quellcode

Dim srcData As String = txtData.Text
'Remove all TABs
srcData = Regex.Replace(srcData, "\t", NewLine & "")
'Remove all NEWLINEs
srcData = Regex.Replace(srcData, NewLine, "")
'Insert NEWLINE before all start tags (but not at the beginning of data) (DOES NOT WORK!)
srcData = srcData.Substring(0, 1) & Regex.Replace(srcData.Substring(1), "<[^/]", NewLine & "<.")
txtData.Text = srcData

Die ersten beiden Anweisungen funktionieren problemlos.

Jetzt möchte ich aber gern vor das Starttag, z.B. <html> eine NEWLINE anfügen .... nicht aber vor das Endtag </html>

Wenn ich da im Replace String einen Punkt angebe (für das zweite Byte des Suchstrings), wird der als Punkt eingefügt ... auch wenn ich den Punkt mit mit einem "Escape" versehe (also \.) klappt das nicht !

Wie also übernehme ich denn das zweite Zeichen aus dem gefundenen String ?

Ich hoffe, ich habe mein Anliegen verständlich machen können. Für alte RegEx "Hasen" dürfte das ein Klacks sein (hoffe ich jedenfalls)

Vielleicht noch eine Zusatzfrage: wie würde ich an das EndTag eine NEWLINE anfügen ? Da muss ich eine variable lange Zeichenkette aus dem gefundenen String übernehmen ....

LG
Peter

ErfinderDesRades · 20. April 2020, 18:36

Quellcode

srcData = srcData.Substring(0, 1) & Regex.Replace(srcData.Substring(1), "<([^/])", NewLine & "<($1)")

glaubich.
Aber was nütztes dir? Ist doch kaum zu verstehen, und alles alles zu Regex erklären bin ich nicht imstande.

Kanst dir Regextester - OpenSource downloaden - da ist die MS-Doku als WordDoc integriert.
Ohne einen Regextester kriegt man eh keinen Regex zusammen.

Peter329 · 21. April 2020, 07:56

Nee, so klappt das leider nicht.

Aber ich bin mir ziemlich sicher, dass so etwas möglich sein muss ... vielleicht weiß ja doch jemand, wie das geht.

Ansonsten muss ich mich halt tatsächlich durch irgend ein Tuturial durchwursteln ...

Na, in Zeiten des Corona Virus ist das ja vielleicht auch eine ganz nette Bechäftigung ...

LG
Peter

ErfinderDesRades · 21. April 2020, 10:21

Regextester habich dir ja verlinkt, inkl. Dokumentation.
Son Ding braucht man, um im Tutorial gelerntes auszuprobieren.

VaporiZed · 21. April 2020, 10:35

Die Threads (RegEx-Tutorial, Reverse RegEx) von @Link hast Du wahrscheinlich schon gefunden.
Online gibt's auch den ein oder anderen Debugger, z.B. debuggex

ErfinderDesRades · 21. April 2020, 11:22

ansonsten ist "klappt nicht" auch nicht wirklich eine Fehlermeldung, die es ermöglicht, Hilfe zu leisten.

Peter329 · 21. April 2020, 12:26

@VaporiZed ... jau ... habe ich bereits gefunden.

@EDR ... na ja, es gibt ja auch keine Fehlermeldung. Der fügt den Quatsch einfach so ein wie er da steht. Und das ist halt nicht ganz das, was ich will.

Ich habe jetzt versucht mich schlau zu machen. Das Ganze funktioniert wohl durch die Rückbezugnahme über Gruppendefinitionen. Für alle, die vor ähnlichen Problemen stehen, könnte das folgende (funktionierende) Coding von Hilfe sein:

VB.NET-Quellcode

Dim srcData As String = txtData.Text
'Remove all TABs
srcData = Regex.Replace(srcData, "\t", "")
'Remove all all NEWLINEs
srcData = Regex.Replace(srcData, NewLine, "")
'Remove all intermediate blanks
srcData = Regex.Replace(srcData, "> +?<", "><")
'Insert NEWLINE before all tags (but not at the beginning of data)
srcData = srcData.Substring(0, 1) & Regex.Replace(srcData.Substring(1), "<", NewLine & "<")
'Insert NEWLINE after all end tags
srcData = Regex.Replace(srcData, "(?<ETag></.*?>)", "${ETag}" & NewLine)
'Insert NEWLILNE after major tags
srcData = Regex.Replace(srcData, "(?<MAJOR>\<(html|head|body).*\>)", "${MAJOR}" & NewLine)
txtData.Text = srcData

Damit kann man die HTML Datei schon sehr viel besser lesen. Allerding werden noch "zu viele" NEWLINEs generiert. Etwa das Coding

VB.NET-Quellcode

<script> .... </script> sollte so belassen werden wie es ist, wenn es kurz ist.

@RFG

Dein Vorschlag aus dem anderen Thread RegEx zu verwenden ist schon gut. Allerdings nur bis zu einem gewissen Grad. Die RegEx Syntax ist m.E. doch entschieden zu hakelig, um damit erfolgreich ein HTML Dokument zu formatieren. Und außerdem sind wohl Dinge wie "Indentation" damit nicht zu realisieren.

Ich werde mich also wohl doch wieder darauf besinnen müssen, das HTML Dokument per "Schleife" zu bearbeiten ... allerdings über srcData.Substring(....) geht das dann doch quälend langsam vor sich, wenn das Dokument mehr z.B. als 1 MB umfasst! Vielleicht muss man die Eingabe in ein ByteArray umwandeln ... dann kann VB die Ausdrücke über Pointer addressieren ...

Mich würde eure Meinung dazu interessieren, wie man so ein Problem am besten angeht ... wenn ihr Lust und Zeit dazu haben solltet...

LG
Peter

Link · 24. April 2020, 10:04

Hi,

keine Ahnung ob man es in VB anders oder besser lösen kann, du könntest aber irgendwo ein PHP-Skript ablegen das das erledigt und dann einfach von VB aus den unformatierten Code hin schicken und den formatierten Code zurück bekommen.

Code könnte so ausschauen:

PHP-Quellcode

<?php
$html = '<html lang="en"><head><title>Hello</title></head><body><div><p>Hello World!</p></div></body></html>';
$dom = new DOMDocument("", "utf-8");
$dom->preserveWhiteSpace = false;
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED);
$dom->formatOutput = true;
echo $dom->saveXML($dom->documentElement);

Du kannst hier mal ausprobieren: xmgr.de/public/php/snippets/beautify-html

Wenn du also ne Quasi-API bastelst, würdest du im PHP-Code das reinkommende HTML entsprechend aus einem POST Formular holen ($_POST["html_code"]) oder halt den raw request body (file_get_contents("php://input")) verwenden.

Link :thumbup:

EaranMaleasi · 24. April 2020, 11:16

An diesem Punkt ist es wohl ein Meme unter Programmierern aber:
Mit RegEx kann HTML nicht geparst werden

VaporiZed · 24. April 2020, 11:19

Ich las einmal »Chuck Norris kann HTML mit Regular Expressions parsen.« (Weniger schlecht programmieren, S. 269)
Oder auch CodingHorror: Parsing Html The Cthulhu Way - ah, das ist ja sogar der gleiche Text wie von @EaranMaleasi

ErfinderDesRades · 24. April 2020, 14:51

Peter329 schrieb:

Der fügt den Quatsch einfach so ein wie er da steht. Und das ist halt nicht ganz das, was ich will.

Nachwievor nichts, was ich in meim Regextester irgendwie nachstellen könnte.
Fragen sinnvoll stellen

Peter329 · 26. April 2020, 17:44

VaporiZed schrieb:

Ich las einmal »Chuck Norris kann HTML mit Regular Expressions parsen.« (Weniger schlecht programmieren, S. 269)
Oder auch CodingHorror: Parsing Html The Cthulhu Way - ah, das ist ja sogar der gleiche Text wie von @EaranMaleasi

Ok, ich habe verstanden.

Also, dann nehme ich RegEx, um den Source ein "bissl" besser als nur eine Byte-Wurst zu formatieren ... aber damit hat man längst keine performante IDE für HTML. Zumal ja elementerare Dinge, wie Syntax-Check oder Coloring in jedem Fall fehlen würden. Da muss man dann schon vernünftige Software einsetzen.

Danke für eure zahlreichen Kommentare ... das hat mir dann doch gehofen, eine Sackgasse zu vermeiden.

Der RegExTester von EDR ist sehr hübsch (auch wenn der Compile ein wenig meckert und ich offengestanden noch nicht alle Features so richtig verstehe). Danke 1

LG
Peter

Einige Fragen zur RegEx Syntax

Einige Fragen zur RegEx Syntax

VB.NET-Quellcode

Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

PHP-Quellcode

Peter329 schrieb:

VaporiZed schrieb:

Ähnliche Themen

5 Benutzer haben hier geschrieben