Regex Problem

OneWorld · 11. Oktober 2012, 19:11

Guten Abend,

Ich habe zurzeit ein Problem mit Regex. Undzwar wollte ich eine belibige Wikipedia Seite auslesen. Das gestaltet sich als etwas schwierig, da in den einzelnen Textpasagen haufen von Links eingefügt wurden. Ich habe meinen Pattern jetzt mal soweit, dass er mir den Text teilweise ausgibt(warum auch immer nicht ganz), nur jetzt ist in dem ausgegebenen Text immer noch der Html Code für Links drinne. Nun zu meiner Frage wie kann ich den ganzen Text ausgeben lassen und unerwünschte Funktionen, wie die Links rausfiltern.

Hier mal das was ich schon habe :

VB.NET-Quellcode

Imports System.Text
Imports System.Text.RegularExpressions
Imports System.Net
Imports System.IO
Public Class Form1
Private Sub Button1_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles Button1.Click
Dim httpRequest As HttpWebRequest = HttpWebRequest.Create("http://de.wikipedia.org/wiki/Mathematik")
Dim httpResponse As HttpWebResponse = httpRequest.GetResponse
Dim reader As StreamReader = New StreamReader(httpResponse.GetResponseStream)
Dim httpContent As String = reader.ReadToEnd
Dim txtSourcecode As String = httpContent
Dim regex As New Regex("<p\>(?<string>(.*))\<\/p\>", RegexOptions.Compiled Or RegexOptions.IgnoreCase Or RegexOptions.Multiline)
Dim Info As String = regex.Match(httpContent).Groups("string").ToString
RichTextBox1.Text = Info
End Sub
End Class

Gruß OneWorld

Rinecamo · 11. Oktober 2012, 21:23

Guck dir lieber den Quelltext des Artikels an, damit sollte es wesentlich einfacher sein.

OneWorld · 11. Oktober 2012, 21:41

Wenn ich diese Seite auslesen möchte kommt folgender Fehler:

Rinecamo · 11. Oktober 2012, 21:50

VB.NET-Quellcode

Dim wc As New WebClient()
wc.Headers.Add("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:13.0) Gecko/20100101 Firefox/13.0.1")
wc.DownloadString("http://de.wikipedia.org/w/index.php?title=Mathematik&action=edit")

Oder deinem Webrequest per

VB.NET-Quellcode

blubeldiblub.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:13.0) Gecko/20100101 Firefox/13.0.1"

nen User-Agent geben

OneWorld · 11. Oktober 2012, 21:55

Wenn man die Seite nun mittels einem Web clint downloaded, kann man die dann dennoch mit Regex auslesen ?

Rinecamo · 11. Oktober 2012, 22:06

Ja.... In diesem Fall müsstest du dann an den Text zwischen <textarea ...></textarea> kommen...

OneWorld · 11. Oktober 2012, 22:10

Also ich hab das ganze jetzt so gemacht

VB.NET-Quellcode

Private Sub Button1_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles Button1.Click
Dim wc As New WebClient()
wc.Headers.Add("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:13.0) Gecko/20100101 Firefox/13.0.1")
Dim page As String = wc.DownloadString("http://de.wikipedia.org/w/index.php?title=Mathematik&action=edit")
Dim httpRequest As HttpWebRequest = HttpWebRequest.Create(page)
Dim httpResponse As HttpWebResponse = httpRequest.GetResponse
Dim reader As StreamReader = New StreamReader(httpResponse.GetResponseStream)
Dim httpContent As String = reader.ReadToEnd
Dim txtSourcecode As String = httpContent
Dim regex As New Regex("<\textarea\>(?<string>(.*))<\/textarea\>")
Dim Info As String = regex.Match(httpContent).Groups("string").ToString
RichTextBox1.Text = Info
End Sub

Nur da kommt dann "Ungültiger URI: Das URI-Schema ist ungültig."

Rinecamo · 11. Oktober 2012, 22:19

VB.NET-Quellcode

Dim httpRequest As HttpWebRequest = HttpWebRequest.Create(page)
Dim httpResponse As HttpWebResponse = httpRequest.GetResponse
Dim reader As StreamReader = New StreamReader(httpResponse.GetResponseStream)
Dim httpContent As String = reader.ReadToEnd
Dim txtSourcecode As String = httpContent

Den Teil einfach mal auskommentieren oder direkt löschen, die DownloadString-Methode gibt bereits den kompletten Quelltext der Seite aus.
Und mit dem Regex-Pattern wird das nichts, denn

Quellcode

<textarea readonly="" accesskey="," id="wpTextbox1" cols="80" rows="25" style="" lang="de" dir="ltr" name="wpTextbox1">

OneWorld · 11. Oktober 2012, 22:30

Ich hab das jetzt mal zu demgeändert

VB.NET-Quellcode

Private Sub Button1_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles Button1.Click
Dim wc As New WebClient()
wc.Headers.Add("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:13.0) Gecko/20100101 Firefox/13.0.1")
Dim page As String = wc.DownloadString("http://de.wikipedia.org/w/index.php?title=Mathematik&action=edit")
Dim regex As New Regex("<textarea readonly="" accesskey="","" id=""wpTextbox1"" cols=""80"" rows=""25"" style="" lang=""de"" dir=""ltr"" name=""wpTextbox1"">""(?<string>(.*))""")
Dim Info As String = regex.Match(page).Groups("string").ToString
RichTextBox1.Text = Info
End Sub

Aber irgendwie bleibt die RichTextbox leer.

diylab · 12. Oktober 2012, 00:34

OneWorld schrieb:

Aber irgendwie bleibt die RichTextbox leer.

Moin,

hier noch ein möglicher Ansatz!
Diesmal wieder die reine URL und nicht die Edit-Seite (TextArea).
Es ist eine Mischung zwischen Split und RegEx.
Den Split-Teil könnte man auch mit RegEx realisieren, wenn man denn könnte - ich kanns nicht :whistling:

..

VB.NET-Quellcode

Option Explicit On
Option Strict On
Imports System.Text.RegularExpressions
Imports System.Net
Public Class frmMain
Private Sub ButtonStart_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles ButtonStart.Click
Dim wc As New WebClient
wc.Headers.Add("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0")
wc.Encoding = System.Text.Encoding.UTF8
RichTextBox1.Text = Regex.Replace(Split(Split(wc.DownloadString(TextBoxURL.Text), "")(1), "")(0), "<(.|\n)*?>", String.Empty)
End Sub
End Class

Na jedenfalls geht es (siehe Screenshot und Dateianhang).
Es berücksichtigt den Teil im Quelltext, der zwischen den HTML-Kommentaren "" und "" steht.

LG,
Bruno

OneWorld · 12. Oktober 2012, 08:28

Ok danke für die Antwort werde es mal nachher Testen sieht aber scho sehr gut aus

Regex Problem

Regex Problem

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

Quellcode

VB.NET-Quellcode

OneWorld schrieb:

VB.NET-Quellcode

Benutzer online 1

Tags

Ähnliche Themen

3 Benutzer haben hier geschrieben