"Einfaches" 'Parsen' von HTML

knurbl · 17. Mai 2011, 00:17

Hallo,

mich interessiert zur Zeit das Parsen von HTML. Dazu habe ich mir ueberlegt, dass ich das ganze mit RegEx anfangen sollte. Das ganze soll "nur" ein kleiner Parser werden (heisst, keine Styles & .co) und sollte nur <b>, <i>, <h1> & .co (also HTML1)-Tags auslesen koennen. Die Auswertung habe ich mir so vorgestellt, schoen gelistet fuer die spaetere Bearbeitung:

>h1:Das ist ein Titel

>b:Dieser Text ist fett

... usw. Doch wie kann ich das anstellen?

Mfg
knurbl

GambaJo · 17. Mai 2011, 08:19

Wenn der HTML-Code sauber wäre, ginge das mit XML-Objekten ganz gut. Leider kann man sich gerade bei HTML nicht darauf verlassen.
Was spricht denn gegen reguläre Ausdrücke?

Dodo · 17. Mai 2011, 08:23

Er meint doch mit RegEx O.o

Also RegEx Tuts gibts hier nun ja zu genüge, da fast jeden Tag hierzu eine Frage kommt.
Du nutzt einfach RegEx.MatchCollection um eben alle Elemente die du Parsen willst heraus zu suchen. Ntürlich musste dich erstmal ein wenig in RegEx einlesen und viel rumprobieren, bis ein akzeptables Ergebnis bekommst.

knurbl · 17. Mai 2011, 22:42

Oder ich wandle das HTML in eine XML-Datei um und liese dann das aus ... aber wie wurde das gehen?

ErfinderDesRades · 17. Mai 2011, 22:54

html muß man nicht in xml umwandeln. sauberes xhtml2 (oder wie der standard heißt) ist Xml, und du kannst es in ein XDocument laden. Informationen zum XDocument findeste im ObjectBrowser oder bei Google die MSDN-Treffer zb.

knurbl · 17. Mai 2011, 23:03

Ich wuerde aber auch gerne das Standard-HTMl einlesen koennen.

ErfinderDesRades · 18. Mai 2011, 09:19

ja, kannst du doch. Aber eben nicht in ein XDocument oder XmlDocument (die Vorläuferklasse des erstgenannten).

My.computer.filesystem.readalltext liest dir eine Datei in einen String, da kannst du dann mit Regex drauf losgehen, wenn dir das mehr zusagt.
Die Regexe kannste zB. mittm RegexTester entwickeln

knurbl · 19. Mai 2011, 00:31

Ja, das mit dem Filesystem weiss ich ja ... so habe ich ja auch begonnen und rumproviert ;). Ich schau mir mal den RegexTester an.

LucaWelker · 19. Mai 2011, 08:35

Ggf. kannst du auch einen Parsergenerator like ~~yagg~~ bison oder ähnliches verwenden

hiermit könntest du auch einen sehr Performanten Parser für eine eigene Sprache erstellen. Ist jetzt für deinen Fall vllt. etwas überzogen

aber anschaun würd ich es mir mal ist echt Interessant

lg.

"Einfaches" 'Parsen' von HTML

"Einfaches" 'Parsen' von HTML

Ähnliche Themen

3 Benutzer haben hier geschrieben