Denkanstoss gesucht: Quelltext auslesen und parsen

  • VB.NET

Es gibt 2 Antworten in diesem Thema. Der letzte Beitrag () ist von raist10.

    Denkanstoss gesucht: Quelltext auslesen und parsen

    Hallo Leute, ich schreib gerade an einem kleinen Programm, dass mir bestimmte Angaben einer Website ausliest. Hierzu gehe ich wie folgt vor:

    Ich downloade den Quelltext der Website und Schreib ihn einen String.
    Diesen String wird an eine Richtextbox übergeben.
    Mit Hilfe RT-Box durchlaufe ich die einzelnen Zeilen und überprüfe, ob die Zeile n mit dem Tag <x> beginnt und die zwei drauf folgenden Zeilen mit den Tags <a>, <b>, <c>. Ist diese Bedingung wahr, kopiere ich die Zeilen, die mit dem besagten Tag beginnen und zerlege den QT. Der QT der besagten Website ist statisch, ändert sich also nicht. Das Schema, wie die Informationen dargestellt werden, bleibt gleich.

    So, nun finde ich es verhältnismäßig unsauber, dies mit Hilfe einer RT-Box zu machen. Ich würde das ganze gern in einer Klasse packen, ohne eine RT-B. Leider steht ich insoweit auf einem Schlauch.

    Über weitere konstruktive Lösungsansätze wär ich dankbar.
    Das mit den einzelnen Zeilen verstehe ich nicht.
    HTML könnte man doch alles in eine Zeile schreiben.

    Du kannst aber wie du sagst mit diesen Zeilen arbeiten,
    wenn die Seite konsitent bleibt.
    Du hast die Daten doch schon im String, dann musst du halt im String
    nach den Zeilen und den Tags suchen. Wenn du weißt welcher
    Zeilenendecode verwendet wird (ASCII 13), dann kannst du deinen
    String mit diesem Zeichen splitten und hast dann in einem Array
    die einzelnen Zeilen stehen.
    Falls die Kombination <x> ; <a> <b> <c> allerdings immer gleich
    bleibt, kannst du ja auch direkt danach suchen.