UTF8 (?) konvertieren

squisheemixxa · 20. September 2010, 22:58

Hallo Leute,
finden zu folgendem problem keine lösung:
also ich habe einen string, wenn ich ihn anzeigen lasse werden die umlaute etc. falsch dargestellt: zb statt einem "ü" ein "Ã¼". Wenn ich richtig informiert bin, ist das dann doch UTF8?
ok, also diesen string will ich umwandeln, sodass wieder alle zeichen richtig angezeigt werden.
habe schon alles möglich probiert (system.text.encoding,...), alle variationen, aber es kommt trotzdem nie das richtige raus, im bestenfall kommt noch statt dem "Ã¼" ein "??".
kann mir bitte jemand helfen wie ich das endlich richtig konvertieren kann (unicode

)?

danke für eure hilfe

picoflop · 21. September 2010, 08:20

squisheemixxa schrieb:

also ich habe einen string

Und wo kommt der her? Aus einer Datei? Dann wäre zu klären, welches Encoding die Datei verwendet!

squisheemixxa · 21. September 2010, 08:58

Danke für die Antwort.
Ich lese Text aus dem clipboard mit getdata(dataformats.Text/rtf/html). Bei jedem Format ist der eingelesene String dann wie oben beschrieben. Wenn ich einen text normal mit Strg + v einfüge bleibn die Zeichen erhalten.

squisheemixxa · 21. September 2010, 19:39

hat denn keiner eine idee? es muss doch eine lösung geben

...

ps. zur ergänzung:
wenn ich nur einfachen text ins clipboard kopiert habe und als DataFormats.text einlese, ist der ok.
wenn ich einen rtf-text ins cp kopiert habe, ist der eingelesene DataFormats.text fehlerhaft, aber der eingelesene DataFormats.rtf fehlerfrei.
wenn ich html ins cp kopiert habe, ist DataFormats.text, DataFormats.rtf und DataFormats.html fehlerhaft.

Kangaroo · 21. September 2010, 19:50

hmm, für .NET ist der vorgeschlagene MSDN Code für die Clipboard Klasse

VB.NET-Quellcode

' Declares an IDataObject to hold the data returned from the clipboard.
' Retrieves the data from the clipboard.
Dim iData As IDataObject = Clipboard.GetDataObject()
' Determines whether the data is in a format you can use.
If iData.GetDataPresent(DataFormats.Text) Then
' Yes it is, so display it in a text box.
TextBox1.Text = CType(iData.GetData(DataFormats.Text), String)
Else
' No it is not.
TextBox1.Text = "Could not retrieve data off the clipboard."
End If

Und das funktioniert nicht ?

squisheemixxa · 21. September 2010, 20:30

danke kangaroo, aber den string zu CType'n bringt leider auch garnix .... es muss doch irgendeine möglichkeit geben, den string irgendwie umzukodieren, außer die betreffenden zeichen zu replacen ....

Kangaroo · 21. September 2010, 20:34

Tut mir leid, ich kann nur Deinen Fehler einfach nicht nachstellen, das ist alles.

Egal ob ich aus einer WebSeite, aus Wordpad (rtf) oder sonstwoher Text mit Ctrl+C kopiere, dieser Code bringt mir immer fehlerfrei den reinen Text inclusive Umlaute

squisheemixxa · 21. September 2010, 21:26

ok, vlt. hab ich mich nicht ganz klar ausgedrückt.
also: stimmt, du hast teilweise recht. kopiere ich ein html mit umlauten und lese es dann mit

VB.NET-Quellcode

TextBox1.Text = CType(Clipboard.GetData(DataFormats.Text), String)

aus, wird das umlaut richtig angezeigt. ABER:
lese ich mit

VB.NET-Quellcode

TextBox1.Text = CType(Clipboard.GetData(DataFormats.HTML), String)

aus, dann nicht! angenommen ich kopiere das wort "über" aus einer internetseite. dann wird der html-code im clipboard wohl in etwa so aussehen:

VB.NET-Quellcode

<html><body>...
über
</body></html>

aber in TextBox1 steht dann:

VB.NET-Quellcode

<html><body>...
Ã¼ber
</body></html>

probiere es zb so aus:

führe einmal mit einem plaintext, einmal mit einem rtf und einmal mit einem html im zwischenspeicher jeweils folgendes aus:

VB.NET-Quellcode

MsgBox(CType(Clipboard.GetData(DataFormats.text), String))
richtextbox.rtf = (CType(Clipboard.GetData(DataFormats.RTF), String))
MsgBox(CType(Clipboard.GetData(DataFormats.HTML), String))

hast du nur einen text "über" kopiert, kommt "über" in der ersten Msgbox (rtf ung html wird wohl ins leere laufen)
hast du einen RTF "über" kopiert (aber nicht aus word, das wird auch als html kopiert - zb aus dem vb code-editor), kommt "Ã¼ber" in der ersten Msgbox; in der Richtextbox wird richtig "über" dargestellt.
hast du ein html "über" kopiert, kommt "Ã¼ber" in der ersten Msgbox; in der Richtextbox wir auch richti "über" stehen, aber in der 3. MsgBox wird so etwas wie

VB.NET-Quellcode

<html><body>...
Ã¼ber
</body></html>

stehen.

ich brauche aber alles mir richtigen sonderzeichen. ich will zb. den html code später wieder ins clipboard einfügen und dann in word einfügen. wenn ich das "normal" mache ("über" in ie kopieren - in word einfügen) steht im word "über".

wenn ich Clipboard.GetData(DataFormats.HTML) in einen string einlesen, diesen string dem clipboard später wieder zuweise und dann in word strg-v mache, steht dort "Ã¼ber" - da ja bereits der in string eingelesene quellcode das falsche "Ã¼ber" enthält.

Kangaroo · 21. September 2010, 21:43

Ok, denke ich habs halbwegs verstanden und werd's mal in einer stillen Minute ( oder Stunde *hust*) nachstellen.

Dein zitiertes "Ã¼" ist halt wie Du schon selber bemerkt hast UTF8 Code in ASCII / ANSI dargestellt. Nur da Strings in .NET grundsätzlich selber UTF8 sind, wurde im Original als Unicode encodeter Text als ASCII gelesen und dann intern im String als UTF8 gespeichert.

Da macht es schon Sinn nachzufragen ob man das übel nicht am Besten beim Einlesen anpackt . Der einzige Weg der vielleicht Erfolg verspricht ist der Weg über Byte-Arrays ( String -> Bytearray -> encoding convertieren -> String).

Aber dazu muss man es halt erst einmal nachstellen können.

squisheemixxa · 22. September 2010, 15:04

danke für deine hilfe ...
ja sowas ähnliches hab ich mir ja auch schon gedacht, hab aber keine ahnung wie ich das ganze jetzt genau machen müsste.
habe es zb. mit diesem code aus dem internet probiert, in allen möglichen quell-/zielformat-kombinationen und hintereinander:

VB.NET-Quellcode

Shared Function Convert(ByVal sourceString As String)
' Create two different encodings.
Dim targetEncoding As Encoding = Encoding.Default
Dim sourceEncoding As Encoding = Encoding.UTF8
' Convert the string into a byte[].
Dim sourceBytes As Byte() = sourceEncoding.GetBytes(sourceString)
' Perform the conversion from one encoding to the other.
Dim targetBytes As Byte() = Encoding.Convert(sourceEncoding, targetEncoding, sourceBytes)
' Convert the new byte[] into a char[] and then into a string.
' This is a slightly different approach to converting to illustrate
' the use of GetCharCount/GetChars.
Dim targetChars(targetEncoding.GetCharCount(targetBytes, 0, targetBytes.Length)) As Char
targetEncoding.GetChars(targetBytes, 0, targetBytes.Length, targetChars, 0)
Dim targetString As New String(targetChars)
' Display the strings created before and after the conversion.
MsgBox("Original string: {0}" & sourceString)
MsgBox("Converted string: {0}" & targetString)
Return targetString
End Function

kam aber nie was dabei raus außer manchmal "??" statt "Ã¼".

hoffentlich findet sich da noch eine lösung

sonst wird mein projekt (ein clipboard-manager) ziemlich sinnlos :wacko:

jvbsl · 22. September 2010, 16:13

bei HTML solltest du für Umlaute wohl eher ä ö usw. verwenden, oder die Eingangsdatei im entsprechenden Format speichern, bei RTF muss das auch nochmal anders gehen, wie weiß ich jetzt so nicht auswendig, aber ich hatte es hier im Forum auch mal geschrieben...

hier: [VB 2008] system.io.streamwriter Selbstlaute Ä Ö Ü als komische Zeichen abgespeichert

Kangaroo · 22. September 2010, 16:19

Sry habe jetzt mal versucht Dein Problem mit Deinem Code nachzustellen, allerdings wieder ohne Erfolg. Ein mit Ctrl+c kopierter RTF-Code aus Wordpad oder dem VB-Editor bringt bei mir die Umlaute sauber rüber.

squisheemixxa · 22. September 2010, 17:29

jvbsl:
ja kann schon sein dass es besser wäre in einer html, hat aber mit meinem problem nichts zu tun und sind auch nicht meine html-dateien.
dein link mit dem zeichen-ersetzen: finde ich suboptimal und nicht guter stil, ich will ja richtig konvertiert haben, und vor allem auch alle sonderzeichen die es gibt, da ist mir dieses statische austauschen eig genau das was ich nicht will.

kangaroo:
ich bin mal so frei und hänge ein beispiel-projekt an um mein problem nachstellen zu können.
so brauch ich hier nicht alles umständlich/unverständlich erklären und man kann es mit ein paar klicks nachvollziehen.

ich danke euch allen für die hilfe
denn so langsam bin ich am verzweifeln

squisheemixxa · 23. September 2010, 18:45

keiner mehr eine idee?

irgendeine lösung muss es geben, andere programme schaffen das ja auch ....

vb-jim · 30. September 2010, 21:33

moin

Eine Lösung für diese Frage würde mir auch sehr weiterhelfen, mein Problem:

Public Function XML_String_Funktion(ByVal XML_String As String) As String

Dim test As New TeilnehmerlisteEDV

Dim NAME_XMLDATEI As String = (Application.ExecutablePath & ".config")

Dim XMLDoc As XElement

XMLDoc = XElement.Load(NAME_XMLDATEI) ' XML-Datei einlesen

Dim KnotenNamen As String = "connectionStrings" '"version"

Dim NeuerWert As String = TeilnehmerlisteEDV.TextBox1.Text

Dim KnotenListe = (From Eintragung In XMLDoc.Elements() _

Where Eintragung.Name = KnotenNamen _

Select Eintragung).First ' Den ersten gefundenen Knoten

KnotenListe.SetValue(NeuerWert) ' Wert neu setzen

XMLDoc.Save(NAME_XMLDATEI)

MsgBox("OK-XMLDoc.Save(NAME_XMLDATEI)" & NAME_XMLDATEI)

End Function

Text ausgelesen aus der Datei Application.ExecutablePath & ".config" und in TextBox1 eingetragen, Connectstring in TextBox1 manuell ändern, wieder auslesen und Änderung in Datei speichern, ganz einfach 8-)

.

Dateicoding --> <?xml version="1.0" encoding="utf-8"?>

Aus diesem Eintrag:

<connectionStrings><add name="…" /></connectionStrings>

Wird folgender:

<connectionStrings><add name="…" /></connectionStrings>

Und zwar passiert das hier bei dieser Operation:

KnotenListe.SetValue(NeuerWert)

Mir ist im Grunde völlig klar, warum das passiert, ABER wie kann ich dagegen an???

HaRoWagner · 15. Mai 2013, 18:26

Ich weiß wie alt der Thread ist. Ich schreibe hier nur weil ich eine Lösung für das identische Problem gesucht hatte.

Das Problem tritt auf, wenn ein Programm in eine Datei mit ANSI (Windows-1252) kodiert ist Zeilen im UTF8 Format geschrieben werden.
Leider muss ich auch solche "kaputten" Daten verarbeiten. Jede Datei vorher im Notepad++ umzukodieren ist mir dann aber doch zu blöd

Ich bezweifle, dass ich der Funktion den korrekten Namen gegeben habe, aber sie funktioniert.

VB.NET-Quellcode

Public Function Unicode2UTF8(ByVal strData As String) As String
'http://www.utf8-zeichentabelle.de/unicode-utf8-table.pl?number=512&names=-&utf8=char
Unicode2UTF8 = String.Empty
If strData <> String.Empty Then
Dim bytes() As Byte
bytes = Encoding.GetEncoding("Windows-1252").GetBytes(strData)
Unicode2UTF8 = Encoding.UTF8.GetString(bytes)
End If
End Function

UTF8 (?) konvertieren

UTF8 (?) konvertieren

squisheemixxa schrieb:

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

Ähnliche Themen

2 Benutzer haben hier geschrieben