TCPClient GET Request

Kraizy · 4. Februar 2016, 13:53

Hi,

ich würde gerne GET/POST Requests über einen TCPClient an eine Webseite senden und dessen Antwort auswerten. Ich weiß, dass hierfür WebRequests bzw ein WebClient besser geeignet wäre, da es den Großteil der Arbeit abnimmt, aber in diesem Fall muss es eben über einen TCPClient laufen.

Code:

VB.NET-Quellcode

Dim tcpClient As New TcpClient("www.google.de", 80)
Dim stream As NetworkStream = tcpClient.GetStream()
If stream.CanWrite Then
Dim sGet As String = "GET / HTTP/1.1\r\nHost: google.de\r\n\r\n"
Dim data() As Byte = Encoding.UTF8.GetBytes(sGet)
stream.Write(data, 0, data.Length)
stream.Flush()
Else
'...
End If
If stream.CanRead Then
Dim data(tcpClient.ReceiveBufferSize) As Byte
stream.Read(data, 0, data.Length)
Dim sResponse As String = Encoding.UTF8.GetString(data)
Debug.Print(sResponse)
Else
'...
End If

Problem hierbei ist jedoch, dass nach "stream.Read(data...." nichts mehr passiert und ich weiß einfach nicht warum.

Radinator · 4. Februar 2016, 14:30

Hi @Kraizy

Kraizy schrieb:

aber in diesem Fall muss es eben über einen TCPClient laufen.

Kann mir beim besten Willen ned vorstellen, welcher Service das sein, soll, der keinen HTTPWebRequest wills, sondern einen Tcp-Client, der da was schickt und dafür was zurücksendet.

Kraizy schrieb:

dass nach "stream.Read(data...." nichts mehr passiert

Hast schon mal Breakpoint gestzt und dann Rechtsklick->Überwachung hinzufügen gemacht? Dann kannst dir im Einzelschritt ansehen, was in der Variable data gespeichert ist.
Bzw mach mal dein stream.Read(data, 0, data.Length) weg und schreib Dim len As Integer = stream.Read(data, 0, data.Length), dann mit Einzelschritt draufgehen und dir den Inhalt von len anschauen. Wenn der 0 ist, dann hast du nix empfangen.

Lg Radinator

Kraizy · 4. Februar 2016, 14:43

Hat nichts damit zu tun, dass der Service keine WebRequests annehmen möchte, sondern dass ich die GET/POST Anfragen gerne über einen Socks5 Proxy absenden möchte, und so viel ich weiß, ist das nicht, oder nur ziemlich umständlich, in WebRequests umzusetzen. Für den TCPClient habe ich jedoch mehrere Libraries zur Verfügung, bei denen ich einfach IP & Port übergeben kann um Anfragen über den Proxy zu senden.

Jedoch klappt nicht mal das normale Requesten ohne Proxy. Auch mit deiner Zeile "Dim len As Integer = ..." passiert einfach nichts mehr, nachdem diese aufgerufen wurde. Es sieht einfach so aus, als würde die ganze Zeit darauf gewartet werden, etwas auszulesen zu können, aber es kommt einfach nichts.

Radinator · 4. Februar 2016, 15:11

Hab noch 2 Vorschläge, die du versuchen könntest:
1.) Nach der ersten IF-Verzweigung ein stream.Close(). Musst halt VOR der zweiten IF-Verzweigung noch mal erstellen:
What is the correct way to read from NetworkStream in .NET erste Antwort nach Fragestellung:
[...]
The code in your attempt (and the answers) do
not close client or stream, which causes a resource leak with big
consequences if called repeatedly.
[...]
Bzw das erstellen des Streams einfach in einen Using-Block packen.
Denn es kann sein - jedenfalls kann ich mir das grad nur so erklären - dass durch dein vorheriges REINschreiben, der Stream denkt, er sein ein reiner Input-Stream/Schreibe-Stream.
Wenn du natürlich dann darauffolgend was raus-lesen willst, dann isser iwie zu blöd zu checken "Hey ich sollte mich evl umstellen!"

2.) Mach mal, bevor du 1.) ausprobierst, einmal VOR deinem Lesen ein If (stream.DataAvailable) Then ... End If .
Das DataAvailable prüft - wie der Name sagt - OB überhaupt Daten zu lesen da sind.

Lg Radinator

Kraizy · 4. Februar 2016, 15:28

Bzgl 2.) kommt immer False bei DataAvailable. Zumindest wenn ich es so mache:

VB.NET-Quellcode

tcpClient.Connect(...)
stream = tcpClient.GetStream()
If stream.CanWrite
...
stream.Write(...)
stream.Flush()
End If
If stream.DataAvailable
If stream.CanRead
...
End If
End If

Aber aus welchem Grund? Das ist mir nicht ganz klar.

Radinator · 4. Februar 2016, 15:41

Kraizy schrieb:

False bei DataAvailable

Dachte ich es mir fast

Kraizy schrieb:

Aber aus welchem Grund? Das ist mir nicht ganz klar

Wie bereits gesagt: Ich geh mal davon aus, dass durch dein vorheriges Schreiben in den Stream eine interne Property gesetzt wurde, die den Stream für sich selber als Schreibe-Stream definiert. Sprich: Du kannst nur schreiben.
Probier es einfach mal aus, um den Schreibe-Block ein Using NetworkStream ns = client.GetStream() und um den Lese-Block ein Using NetworkStream ns = client.GetStream() zu schreiben. Dann sollten jedesmal einzelne Stream erstellt werden, die sich nicht blokieren.

Kraizy · 4. Februar 2016, 15:46

Leider nicht...

VB.NET-Quellcode

Using ns As NetworkStream = tcpClient.GetStream()
If ns.CanWrite Then
Dim getRequest As String = "GET / HTTP/1.1\r\nHost: www.google.de\r\n\r\n"
Dim data() As Byte = Encoding.UTF8.GetBytes(getRequest)
ns.Write(data, 0, data.Length)
ns.Flush()
End If
End Using
Using ns As NetworkStream = tcpClient.GetStream()
If ns.DataAvailable Then
If ns.CanRead Then
Dim data(tcpClient.ReceiveBufferSize) As Byte
ns.Read(data, 0, data.Length)
Dim returndata As String = Encoding.UTF8.GetString(data)
Debug.Print(returndata)
End If
End If
End Using

Beim 2. Using kommt "Der Vorgang ist für nicht verbundene Sockets unzulässig."

Thunderbolt · 4. Februar 2016, 15:53

Das erste Using schmeißt deine Verbindung bereits weg. Das Aufräumen der NetworkStreams solltest du dem TcpClient überlassen, indem du Dispose() aufrufst, nachdem du mit sämtlichem Datenaustausch fertig bist.

Radinator schrieb:

Kann mir beim besten Willen ned vorstellen, welcher Service das sein, soll, der keinen HTTPWebRequest wills, sondern einen Tcp-Client, der da was schickt und dafür was zurücksendet.

Hausaufgaben, nehme ich an. @Kraizy stimmts?

Kraizy · 4. Februar 2016, 15:58

Thunderbolt schrieb:

Hausaufgaben, nehme ich an. @Kraizy stimmts?

Nein, wie bereits gesagt, würde ich die Anfragen gerne über einen Socks5 laufen lassen und das geht über HttpRequests nicht. Bzw ich wüsste nicht wie. Deswegen TCPClient, da ich hierfür diverse Libraries habe, bei denen ich einfach IP & Port vom Socks eintrage und fertig. Aber wie man sieht, klappt nicht mal das normale requesten ohne Proxy.

Radinator · 4. Februar 2016, 16:01

Kraizy schrieb:

Beim 2. Using kommt "Der Vorgang ist für nicht verbundene Sockets unzulässig."

Thunderbolt schrieb:

Das erste Using schmeißt deine Verbindung bereits weg.

Stufu!...Hätt auch selber drauf kommen können

Stimmt...das Dispose auf dem NetworkStream schließt auch den darunterliegenden Socket(MSDN - ReferenceSource) Sry.

Mach am Besten statt des einen einzigen TCPClients lieber 2 und arbeite mit den zweien oder du rufst nach den schließen ein client.Connect auf und erzeugst ein neues Stream-Objekt

Lg Radinator

Thunderbolt · 4. Februar 2016, 16:05

Ups, überlesen.

Wenn Libraries kein Problem sind, schaue dir mal das an: stackoverflow.com/a/4017154

Kraizy · 4. Februar 2016, 16:34

Hab's nun endlich...lag an meinem GET String. Aus:

VB.NET-Quellcode

Dim getRequest As String = "GET / HTTP/1.1\r\nHost: google.de\r\n\r\n"

Habe ich nun:

VB.NET-Quellcode

Dim getRequest As String = String.Format("GET / HTTP/1.1{0}Host: {1}{0}{0}", vbNewLine, "google.de")

gemacht und bekomme die erwartet Antwort vom Server. Lag also an \r\n

Kraizy · 4. Februar 2016, 17:08

Ein Problem habe ich jedoch noch, undzwar bekomme ich nicht den vollständigen Html Source geliefert:

VB.NET-Quellcode

Using writer As New StreamWriter(stream)
writer.Write(String.Format("GET / HTTP/1.1{0}Host: {1}{0}{0}", vbNewLine, url))
writer.Flush()
Dim byteList As New List(Of Byte)
Dim bufferSize As Integer = tcpClient.ReceiveBufferSize
Dim buffer(bufferSize - 1) As Byte
Do
Dim bytesRead As Integer = stream.Read(buffer, 0, bufferSize)
byteList.AddRange(buffer.Take(bytesRead))
Loop While stream.DataAvailable
Dim sResponse As String = Encoding.UTF8.GetString(byteList.ToArray())
Debug.Print(sResponse)
End Using

Habe es nun auf verschiedene Arten probiert, aber nirgends bekomme ich den kompletten Source zurück.

Edit: Habs nun ganz banal gelöst mit Loop Until sResponse.Contains("</html>")
Da gibts doch aber sicher ne schönere Lösung..?

Kraizy · 5. Februar 2016, 18:44

Keiner ne Idee? Musste nämlich feststellen, dass die Abfrage, ob der Content mit "</html>" endet, nicht immer zutrifft - z.B. wenn die Antwort vom Server nicht der eigentliche Seitenquelltext ist, sondern der Hinweis auf 301 Moved Permanently o.ä. da hört die Antwort nämlich nicht mit </html> auf.

3daycliff · 5. Februar 2016, 20:27

RFC lesen?
Im Normalfall kannst du die Größe aus den Content-Length-Header ermitteln. Der muss aber nicht dabei sein. Siehe w3.org/Protocols/rfc2616/rfc2616-sec4.html#sec4.4

Kraizy · 5. Februar 2016, 22:22

@3daycliff
Bekomme leider kein Content-Length in der Response zurück. Und wenn doch, dann nur wenn kein Quellcode vorhanden ist, sondern nur der Header - z.B. bei einem 301 Moved Permanently - wobei da dann Content-Length: 0 steht, was mir logischerweise nichts bringt.

Habs nun aber folgendermaßen hinbekommen:

VB.NET-Quellcode

Using client = New TcpClient("www.host.com", 80)
Using stream = client.GetStream()
Using writer = New StreamWriter(stream)
Using reader = New StreamReader(stream)
writer.AutoFlush = True
writer.WriteLine("GET / HTTP/1.1")
writer.WriteLine("Host: www.host.com")
writer.WriteLine("User-Agent: ...")
...
writer.WriteLine("Connection: close")
Dim response As String = reader.ReadToEnd()
End Using
End Using
End Using
End Using

Klappt nun alles wie es soll, Problem hierbei ist jedoch, dass ich Connection: close erzwinge. Somit muss ich bei jedem weiteren Request (z.B. 1. Request: per GET Hauptseite aufrufen, Cookies parsen, 2. Request: per POST Login Anfrage absenden) einen neuen TcpClient erstellen und eine erneute Verbindung mit dem Host aufbauen.

Wenn ich Connection: keep-alive benutze, bleibt mein Tool bei reader.ReadToEnd() ewig lang hängen und gibt mit Glück entweder die komplette Antwort (vollständigen HTML Quellcode) zurück, oder es kommt die Exception: "Von der Übertragungsverbindung können keine Daten gelesen werden: Eine vorhandene Verbindung wurde vom Remotehost geschlossen."

Wenn ich nun also bei jedem Request Connection: close benutze und bei jedem weiteren Request einen neuen Client erstelle + Verbindung aufbaue, hat dies dann irgendwelche negativen Auswirkungen? Kann es in diesem Fall z.B. als Spam empfunden werden? Oder wäre es sogar eher eine normale Vorgehensweise?

3daycliff · 6. Februar 2016, 01:11

Deswegen schrieb ich ja auch "im Normalfall". Wobei das heute auch nicht mehr der Normalfall ist.
Also, hier mal eine kurze Zusammenfassung wie du laut der RFC vorgehen musst, um festzustellen, wie Lang die Nachricht ist:
(siehe auch Änderungen in RFC7231)

1) Wenn der Statuscode keinen Message-Body definiert, endet die Nachricht mit einer Leerzeile nach den Headern. Das trifft mind. auf die Statuscodes 1xx, 204 und 304 zu.

2) Andernfalls schaust du, ob der Header Transfer-Encoding gesetzt und ungleich identity ist. Falls ja, ist der Body in chunks aufgeteilt. Der letzte chunk hat die Größe 0 und wenn du den gelesen hast, ist die Antwort komplett.

3) Andernfalls, wenn der Content-Length-Header gesetzt ist, gibt dieser die Anzahl an Bytes des Bodies an (also ohne Header etc.)

4) Andernfalls, wenn der Media type (im Content-Type-Header) multipart/byteranges ist, kannst du anhand des boundary-Parameter feststellen, wann du die Nachricht zuende gelesen hast.

5) Andernfalls, sollte der Server die Verbindung schließen

Kraizy · 6. Februar 2016, 22:17

Spoiler anzeigen

Hab nun folgendes versucht:

VB.NET-Quellcode

'Header lesen
Dim sbHeaders As New StringBuilder
Do
Dim line As String = reader.ReadLine()
If line = ""
Exit Do 'Header Ende
End If
sbHeaders.AppendLine(line)
Loop
'HTML Body lesen
Dim sbHtml As New StringBuilder
'Prüfen, ob Content-Length angegeben ist
If sbHeaders.ToString().Contains("Content-Length:")
Dim contentLength As Integer = 'mit Split/RegEx wie auch immer aus dem Header parsen
'Testweise Byte für Byte auslesen ... geht sicherlich auch mit .Read() + Buffer aber macht nun auch kein Unterschied
For i As Integer = 0 To contentLength - 1
sbHtml.Append(CChar(ChrW(reader.Read())))
Next
'HTML Body wird vollständig ausgegeben und es gibt auch kein Hänger
'trotz Connection: keep-alive - alles klappt wunderbar
Debug.Print(sbHtml.ToString())
Else
'Content-Length nicht vorhanden,
'HTML Body wird in mehreren Teilen gesendet
'Problem hierbei ist jedoch, es wird mehr gelesen,
'als es eigentlich sein sollte
Dim sSize As String = reader.ReadLine() 'hier wird die Größe des Body Abschnitts als Hex empfangen
Dim size As Integer = CInt("&H" & sSize)
'Hier nun wieder auf die gleiche Weise auslesen,
'wie als hätte der Server einen Content-Length ausgegeben
For i As Integer = 0 to size - 1
sbHtml.Append(CChar(ChrW(Reader.Read())))
Next
'Normalerweise müsste hier nach der For-Schleife nun wieder ein Hexwert kommen,
'welcher die Größe des 2. Body Abschnitts bestimmt
'somit könnte ich einfach wieder sSize = reader.ReadLine() benutzen.
'Das ist jedoch nicht der Fall, die Ausgabe sieht nämlich so aus:
Debug.Print(sbHtml.ToString())
End If

Debug.Print Ausgabe:

11ef0 <- 1. Hex Wert der die Größe des 1. Abschnitts bestimmt
<!DOCTYPE html>
<html dir="ltr" lang="de">
<head>
<title>VB-Paradise 2.0 — Die große Visual–Basic– und .NET–Community</title>

<base href="https://www.vb-paradise.de/" />
...
...
... der Übersicht halber mal gekürzt
...
...
<footer class="messageOptions">
<nav class="jsMo
11e48
bileNavigation buttonGroupNavigation">
<ul class="smallButtons buttonGroup">
<li><a href="https://www.vb-paradise.de/index.php/Thread/116262-01-01-16-Dim-y-As-New-Year-2016-—-VB-Paradise-wünscht-ein-erfolgreiches-Programm/?s

Wie man sieht, steht die Größe des 2. Body Abschnitts bereits im 1. ausgelesenen Abschnitt. Es wird, und ich kann mir einfach nicht erklären wieso, zu viel gelesen. Und das obwohl ja nur so viel mit der For-Schleife gelesen wird, wie der 1. Hexwert auch angibt. Wo genau liegt da der Fehler?

Edit: Hab den Fehler gefunden. Der Code von oben funktioniert anscheinend doch ohne Probleme. Egal ob der Server Content-Length sendet, oder ich den Body teilweise lesen muss. Habe es nun mit einigen anderen Seiten probiert und rausgefunden woran es lag. Nämlich, da ich kein Accept-Encoding: gzip, deflate benutzt habe, hat der Server als Content-Length irgendwas mit ~98.000 geantwortet. Mit gzip sinds nur noch um die 20.000.

Nun ist mein Problem aber ein anderes. Normalerweise benutze ich kein gzip, da nun alles auch ohne perfekt klappt. Jedoch muss ich bei dieser einen Seite gzip benutzen, da ich andernfalls einen viel zu großen Content-Length bekomme - und somit wieder zu dem Problem komme, dass zu viel gelesen wird als eigentlich sollte.

Wenn ich nun also Accept-Encoding: gzip, deflate bei meinem Request benutze, bekomme ich beim Lesen des HTML Bodys komische Zeichen:

HTTP/1.1 200 OK
Cache-Control: no-cache, no-store, must-revalidate
Content-Encoding: gzip
Content-Type: text/html
Date: Sat, 06 Feb 2016 22:25:49 GMT
Expires: 0
Pragma: no-cache
...
...
...
Strict-Transport-Security: max-age=0; includeSubDomains
Vary: Accept-Encoding
Content-Length: 20588
Connection: keep-alive

‹§±âùÓøïÌvaô‰Ù<Sæ2þö7åÃGå%¡%ô%B©q¨DòÞ÷o£x ñGo@áƒNèÏO0ªüßÿ×\&äÀ.u>©¼ò‚»ŽpW9õ½‡,üý—‡‰pÉYê5|Ré
¼@ Ì±ç*l <
¦ÌULôÇ=û7±ûòo•ç(ñ°_Ÿ+SßSŽ°šäu¼«ñIåwmþéBÏñ ´íL8Ý÷?'¿Œò–[ÜÇÇ<)óÓß—1ÇÁæ
Î{à-\‹+Gïžó1wƒ÷C:Œ¾ê$ Ž?À[š„¦¹mú'•Oÿ)ZV

Hab mir also gedacht, gut dann benutze ich eben New System.IO.Compression.GZipStream(Stream, Compression.CompressionMode.Decompress)
Beim Lesen mit dem StreamReader bekomme ich jedoch die Exception: Die "Magic Number" im GZip-Header ist nicht richtig. Stellen Sie sicher, dass Sie einen GZip-Stream übergeben.

3daycliff · 6. Februar 2016, 23:43

'Normalerweise müsste hier nach der For-Schleife nun wieder ein Hexwert kommen,

Falsch. Danach kommt zunächst ein CRLF.

Und das obwohl ja nur so viel mit der For-Schleife gelesen wird, wie der 1. Hexwert auch angibt.

Hast du das mal im Debugger genau verfolgt?

Übrigens würde ich vorsichtig mit dem StringBuilder sein, die chunks bestehen aus bytes, du behandelst sie aber wie Zeichen.

Edit: Zu langsam. Wenn es ohne gzip nicht klappt, hat du noch einen Fehler. Du hältst dich in keinster Weise an die in der RFC vorgeschriebenen Reihenfolge. Versuch das zunächst gerade zu bügeln, dann kannst du Extras wie gzip einarbeiten.

Kraizy · 6. Februar 2016, 23:47

Ja hab ich auch gemerkt und deshalb jedesmal noch ein reader.ReadLine() reingeklatscht bevor ich den Body wieder mit der For-Schleife lese.

Weiß nicht ob du mein Editierten Beitrag bereits gelesen hast, wie gesagt, das Problem habe ich nun gefunden, jedoch besteht jetzt das Problem mit der GZip MagicNumber...

3daycliff schrieb:

Edit: Zu langsam. Wenn es ohne gzip nicht klappt, hat du noch einen Fehler. Du hältst dich in keinster Weise an die in der RFC vorgeschriebenen Reihenfolge. Versuch das zunächst gerade zu bügeln, dann kannst du Extras wie gzip einarbeiten.

Naja, bei allen anderen Seiten klappt es ja. Ich kann den Header und Body auslesen. Und wieso halte ich mich in keinster Weise daran? Ich prüf doch, ob vom Server ein Content-Length gesendet wird, wenn ja, dann benutze ich diese. Andernfalls, wenn kein Content-Length gegeben ist, lese ich den Body Teil für Teil aus, da vor jedem Teil ja die Größe als Hexwert angegeben wird.

Das Problem ist jedoch, wenn ich bei der Seite kein GZip benutze, spuckt es mir über 90.000 als Content-Length aus, was meiner Meinung nach falsch ist - und mein Tool dann irgendwie durcheinander kommt mit dem "Teil für Teil des Bodys lesen". Mit GZip sinds dann nur noch um die 20.000 was auch in Chrome/FireFox angezeigt wird. Jedoch bekomme ich hierbei dann den Fehler bzgl Magic Number.

TCPClient GET Request

TCPClient GET Request

VB.NET-Quellcode

Kraizy schrieb:

Kraizy schrieb:

VB.NET-Quellcode

Kraizy schrieb:

Kraizy schrieb:

VB.NET-Quellcode

Radinator schrieb:

Thunderbolt schrieb:

Kraizy schrieb:

Thunderbolt schrieb:

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

3daycliff schrieb:

Ähnliche Themen

4 Benutzer haben hier geschrieben