String UTF-8 Encoden

Chucky109 · 19. April 2014, 16:44

Hi,
ich such schon ne Weile aber was richtig brauchbares hab ich nicht gefunden. Ich habe einen ganz normalen Text mit Umlauten usw. und muss es schaffen diesen zu Entcoden, sodass auf z.B. ü %u00FC wird. Laut Google ist das UTF-8 Unicode. Gibts dafür etwas in VB?

Artentus · 19. April 2014, 16:47

Klar gibts da was:
msdn.microsoft.com/de-de/library/system.text.encoding.aspx

Chucky109 · 19. April 2014, 16:55

Das hat ich auch bereits versucht, allerdings schein ich nen Fehler zu haben.

VB.NET-Quellcode

MessageBox.Show(System.Text.Encoding.UTF8.GetString(System.Text.Encoding.UTF8.GetBytes(Textbox.Text)))

Wenn ich da nun üäö eingebe und mir das mit der MessageBox ausgeben lass, kommt auch ganz normal üäö raus, was ja nicht sein soll.

Artentus · 19. April 2014, 16:59

Ja, klar, du machst mit dem Code nämlich einfach wieder genau rückgängig, was du vorher machst.
Du musst aus dem Text diejenigen Zeichen raussuchen, die du Escapen willst, und diese durch GetBytes jagen. Die Bytes konvertierst du dann zu Hex (.ToString("X4")) und fügst sie anstelle der Zeichen in den String ein.

Chucky109 · 19. April 2014, 17:01

Aber wenn ich das für jedes Zeichen machen muss, dann kann ich doch auch einfach Replace nehmen, mir die Cods raussuchen und es so mega unsauber lösen, das kanns doch auch nicht sein oder?

Artentus · 19. April 2014, 17:05

Könntest du, im Prinzip ist die Unicode-Zeichentabelle aber schon ein eben solches Dictionary, das einem Zeichen einen Hex-Wert zuordnet, warum also selber anlegen?

Chucky109 · 19. April 2014, 17:13

Ich glaub ich hab da nen großen Denkfehler drin. Kannst du mir vlt. nen Codeschnippsel geben, der das ganze nen bisschen verdäutlicht?

Manawyrm · 19. April 2014, 17:18

Du möchtest eher etwas, was man als URLEncode bezeichnet. Unter dem Stichwort sollte sich etwas passendes finden lassen.

Chucky109 · 19. April 2014, 17:20

Das habe ich auch bereits in den Fingern gehabt, allerdings war es nicht das erwartete Ergebnis, sondern Zeichen wurden anders encodet.

Artentus · 19. April 2014, 17:20

Das hier sollte es tun:

VB.NET-Quellcode

Public Shared Function EscapeCharacters(s As String, chars As Char()) As String
Dim sb As New StringBuilder()
For Each c In s
If chars.Contains(c) Then
Dim bytes = Encoding.Unicode.GetBytes(c)
sb.Append("%u")
For Each b In bytes
sb.Append(b.ToString("X2"))
Next
Else
sb.Append(c)
End If
Next
Return sb.ToString()
End Function

Du übergibst den zu escapenden String und die Zeichen, die escapet werden sollen (lässt sich natürlich auch hardcoden, wenn dir das reicht).

Manawyrm · 19. April 2014, 17:21

Das solltest du eher anders rum maachen. Es gibt ein fix definiertes Set von chars DIE man direkt übergeben darf.

Artentus · 19. April 2014, 17:25

So kann mans natürlich auch machen, ist ja nur ne kleine Änderung.

Spoiler anzeigen

Manawyrm · 19. April 2014, 17:27

0x30 - 0x39, 0x41 - 0x5A, 0x61 - 0x7A sind die validen Chars.

Chucky109 · 19. April 2014, 17:30

Artentus schrieb:

Das hier sollte es tun:

Du übergibst den zu escapenden String und die Zeichen, die escapet werden sollen (lässt sich natürlich auch hardcoden, wenn dir das reicht).

Funktioniert an sich schonmal, allerdings kommt bei nem ü %uFC00 statt %u00FC raus

Manawyrm · 19. April 2014, 17:31

Dann müsstest du mal Encoding.BigEndianUnicode statt Unicode probieren, das dürfte passen

Chucky109 · 19. April 2014, 17:33

Kurze Frage noch, wie geb ich die ganzen Hex Zeichen an? Kann ich die einfach als &H30 usw angeben?

Manawyrm · 19. April 2014, 17:37

du kommst wahrs. am besten dabei weg, wenn du als chars einfach alle Chars übergibst.
"abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVXYZ0123456789"

Chucky109 · 19. April 2014, 17:41

Super, vielen Dank euch zwei

Chucky109 · 19. April 2014, 20:20

Okay ich muss mich doch nochmal melden, leider kommen bei den Hoch-Zeichen (^) Chinese Zeichen später raus Weiß allerdings nicht was der Fehler ist, habs alles übernommen und die erlaubten Zeichen von Manawyrm genommen.

Edit: Hat sich erledigt, hab vergessen das normale Unicode durch BigEndianUnicode zu ersetzen

String UTF-8 Encoden

String UTF-8 Encoden

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

Artentus schrieb:

Ähnliche Themen

3 Benutzer haben hier geschrieben