Hey,
ich habe vor, aus einer Seite eine Beschreibung (Grüner Strich - Blauer Strich) auszulesen. Das ganze habe ich mit Regex gemacht. Es funktioniert aber nur bei Beschreibungen, die nicht iwie formatiert wurden (Fettschrift, SpanClass ...). Bei formatierten Texten wird einfach nix ausgelesen. So sieht mein VB-Code aus:
Wenn die Beschreibung aus reinem Text besteht, gehts:
Sobald PHP-/Html-Code in der Beschreibung ist, gehts nicht:
Kann mir jmd. sagen was ich falsch gemacht habe, dass der nur reine Texte ausliest?
ich habe vor, aus einer Seite eine Beschreibung (Grüner Strich - Blauer Strich) auszulesen. Das ganze habe ich mit Regex gemacht. Es funktioniert aber nur bei Beschreibungen, die nicht iwie formatiert wurden (Fettschrift, SpanClass ...). Bei formatierten Texten wird einfach nix ausgelesen. So sieht mein VB-Code aus:
VB.NET-Quellcode
- 'Neuen Webclient deklarieren
- Dim w As New WebClient
- 'Quelltext downloaden => String
- Dim buffer() As Byte = w.DownloadData(TextBox_weblink.Text)
- Dim quelltext As String = System.Text.Encoding.UTF8.GetString(buffer)
- 'Wert filtern
- Dim WertTitel As New System.Text.RegularExpressions.Regex("<div id=""extinfo_title""> <h3>(?<Titel>(.*))</h3>")
- Dim WertBeschreibung As New System.Text.RegularExpressions.Regex("<div class=""article_text"" style=""margin:0;"">(?<Beschreibung>(.*))<p>Quelle:")
- Dim WertBild As New System.Text.RegularExpressions.Regex("<div id=""poster"" style=""line-height:0;""><div> <img src=""(?<Bild>(.*))"" alt=")
- 'Wert mit hilfe von Pattern im Quelltext suchen => auswerten
- Dim EndTitel As String = WertTitel.Match(quelltext).Groups("Titel").ToString()
- Dim EndBeschreibung As String = WertBeschreibung.Match(quelltext).Groups("Beschreibung").ToString()
- Dim www As String = ("http://www.xrel.to")
- Dim EndBilder As MatchCollection = WertBild.Matches(quelltext)
- Dim EndBild As String = www & EndBilder(0).Groups("Bild").ToString()
- 'Dim EndBild As String = WertBild.Match(quelltext).Groups("Bild").ToString()
- 'Dim EndBild As MatchCollection = WertBild.Matches(quelltext)
- 'Als Beispiel in richtextbox ausgeben:
- Form1.TextBox_Titel.Text = EndTitel
- Form1.TextBox_Beschreibung.Text = (Split(EndBeschreibung, " />")(0)).TrimEnd("""")
- Form1.TextBox_BildURL.Text = (Split(EndBild, """")(0))
- MsgBox("Die Daten wurden erfolgreich ausgelesen!")
- Form1.Show()
Wenn die Beschreibung aus reinem Text besteht, gehts:
Sobald PHP-/Html-Code in der Beschreibung ist, gehts nicht:
Kann mir jmd. sagen was ich falsch gemacht habe, dass der nur reine Texte ausliest?