.html Datei mit Japanischen Schriftzeichen einlesen

  • VB.NET

Es gibt 7 Antworten in diesem Thema. Der letzte Beitrag () ist von KillaChris.

    .html Datei mit Japanischen Schriftzeichen einlesen

    Guten Tag,
    ich habe momentan folgendes Problem.
    Ich will in meinem Programm einen String mit japanischen Schriftzeichen darstellen.
    Der String wird folgendermaßen erstellt:
    Ich habe eine .html Datei, diese lese ich per Streamreader ein, nun will ich den Stream in einen String schreiben.
    Der String wird jedoch total falsch dargestellt.
    Ich kann dem Streamreader ja ein EncodierungsFormat mitgeben, hier ist jedoch egal was ich einstelle, ob UTF8 oder Unicode, er zeigt mir den Quelltext der .html Datei nicht richtig an.

    Gibts es denn vielleicht eine andere Möglichkeit die Datei einzulesen, so dass ich den Quelltext auch in einen String packen kann und dieser richtig anzeigt wird, sprich mit HTML-Tags und Japanischen Schriftzeichen?
    Die charset-Angabe vom META-Tag weist dem Browser an, die HTML-Seite in der angegebenen Kodierung zu laden. Ohne diese Angabe nimmt der Browser eine "Standard"-Kodierung, die nicht unbedingt mit der Kodierung des HTML-Dokuments übereinstimmt (zumindest war es "früher" mal so). Um auszuschließen, dass der Hund hier begraben liegt, soll diese Angabe doch in das HTML-Dokument aufgenommen werden.
    Der TE will das Dokument aber nicht in nem Browser anzeigen, sondern nen String über nen StreamReader aus ner Datei auslesen.
    Was für ne Datei das ist, und was drinsteht (speziell im Meta-Tag), interessiert den StreamReader wenig. ;)
    Gespeichert wird die datei ber Net.Webclient mit DownloadFile!
    Zeichen koderiung ist in der Html-Datei ebenfalls angegeben. EUC-Jp steht dort!
    Ich kann die .html-Datei auf meinem Pc ja auch mit dem Browser öffnen und sie wird richtig angezeigt.

    Nur sobald ich sie mit dem Streamreader öffne wird mir leider nur unfug angezeigt. Mit UTF8 Kodierung werden Html-Tags zwar richtig angezeigt, jedoch die Japanischen zeichen als umgedrehte Fragezeichen.
    Mit Unicode Kodierung werden nur Japanische zeichen ohne Html-Tags dargestellt und die Zeichen die dargestellt werden haben mit den Zeichen, die auf der Homepage abgebildet sind gar nichts mehr zu tun.
    Hat sich erledigt!
    Man hat beim Encoding auch noch die Möglichkeit andere Codierungsmöglichkeiten anzugeben

    VB.NET-Quellcode

    1. System.Text.Encoding.GetEncoding("KODERIUNGS ART")


    Wenn man hier nun den richtigen Zeichensatz angibt, in diesem Fall "EUC-JP" funktioniert es einwandfrei.
    Trotzdem Danke für die Hilfe :)