Body aus html ODER text aus txt file auslesen

  • VB.NET

Es gibt 2 Antworten in diesem Thema. Der letzte Beitrag () ist von HMNiLK.

    Body aus html ODER text aus txt file auslesen

    Hallo Leute!
    Ich arbeite gerade an einem Projekt, bei dem ich mithilfe eines WebClients (oder WebBrowser, aber WebClient ist einfacher) den Body aus einem HTML-Dokument auslesen möchte. Alternativ würde es ausreichen, den Text aus einer Textdatei auszulesen. Der Webhoster ist "000Webhost".
    Ich habe bereits folgende Dinge ausprobiert, jedoch ohne Erfolg:

    VB.NET-Quellcode

    1. Dim webc As Net.WebClient = New Net.WebClient()
    2. label1.text = webc.DownloadString("http://meinewebsite.iwas.com/text.html")
    3. me.refresh()


    Dabei wird in label1 der HTML-Quellcode wiedergegeben, ich möchte jedoch lediglich den Text im Body wiedergegeben haben.
    2. Variante:

    VB.NET-Quellcode

    1. Dim webc As Net.WebClient = New Net.WebClient()
    2. label1.text = webc.DownloadString("http://meinewebsite.iwas.com/text.txt")
    3. me.refresh()


    Dabei wird in label1 GAR NICHTS wiedergegeben, obwohl in text.txt ein text drin steht.
    (Auch wenn ich "http://meinewebsite.iwas.com/text.txt" mit meinem Webbrowser (FF) aufrufe, wird mir kein Text angezeigt)
    Dies ist komisch - nicht?

    Naja kann mir einer sagen, wie ich es hinbekomme, das in label1 entweder nur der text im body, oder der text aus der txt-file wiedergegeben wird.


    //EDIT: Ich habe es bereits mit einem WebBrowser probiert, wenn ich jedoch zu der Website navigiere, komme ich leider nur auf die 000Webhost-Mainpage. Mit verändertem User-Agent ist es dasselbe.
    nach meinen Html-Kenntnissen müssteste vorn und hinten einfach was abschneiden.
    die Positionen müsstensich mit String.IndexOf()/.LastIndexOf() auffinden lassen, und SchnippSchnapp mit String.Substring()

    zur Syntax-Info such diese Methoden mal im ObjectBrowser auf - sie sind in der System.String-Klasse dokumentiert.
    Danke für den Beitrag! Klappt super!

    Nochmal für die Leute, die dasselbe problem haben:
    HTML-Quellcode:

    HTML-Quellcode

    1. <html>
    2. <head></head>
    3. <body>
    4. mein text
    5. </body></html>
    6. <!-- Hosting24 Analytics Code -->
    7. <script type="text/javascript" src="http://stats.hosting24.com/count.php"></script>
    8. <!-- End Of Analytics Code -->


    Die Anzahl aller Zeichen, die NICHT zu "mein text" gehöre, beträgt: 196 (nachgezählt)
    Das erste Zeichen, welches zu "mein text" gehört, kommt an stelle 27 (nachgezählt)
    Damit label1.text zu "mein text" wird, benutzen wir folgenden code:

    VB.NET-Quellcode

    1. Dim webc As Net.WebClient = New Net.WebClient()
    2. Dim dltext As String = webc.DownloadString("http://meinewebsite.iwas.com/text.html")
    3. label1.Text = dltext.Substring(27, Len(dltext) - 196)


    Mit Len(dltext) ermitteln wir die Gesamtlänge des HTML-Quellcodes.
    Und mit "- 196" ziehen wir die Anzahl des "Codes" (<html>, <body> usw.) ab, denn diese beträgt bei diesem Beispiel auch mit verändertem text immer 196. Es könnten unterschiede bestehen, wenn ihr einen anderen html-code verwendet oder bei einem anderen hoster seid.

    Der string, der übrig bleibt (der "Substring" von dltext ("webc.downloadstring("http://meinewebsite.iwas.com/text.html")") mit den obrigen argumenten), heißt dann:

    Quellcode

    1. mein text

    Dieser Beitrag wurde bereits 3 mal editiert, zuletzt von „HMNiLK“ ()