Unicode dekodieren - Funktion vorhanden?

DavidVB · 24. Oktober 2016, 17:14

Hallo,

ich arbeite mit einem String der bei Sonderzeichen Unicode verwende:

Quellcode

Das\nk\u00f6nnte ein Beispiel sein\n500\u20ac = viel Spa\u00df!

bedeutet:

Quellcode

Das
könnte ein Beispiel sein
500€ = viel Spaß!

Was ich brauche ist eine Funktion, die einen String wie oben in einen String wie unten umwandelt.
Ich könnte natürlich eine Funktion bastel die diese Struktur hat:

Quellcode

Return input.Replace("\n", vbNewLine).Replace("\u00f6", "ö").Replace("\u00fc", "ü").Repl....

aber da werde ich sicherlich das ein oder andere Zeichen vergessen. Ich weiß nämlich auch nicht, welche "Sonderzeichen" in Unicode umgewandelt wurden. Das Ausrufezeichen wird ja zum Beispiel nicht kodiert, dafür aber das Euro-Zeichen.
Gibt es dafür vielleicht schon eine Funktion in der Encoding-Klasse?

Danke!

jmj · 24. Oktober 2016, 17:41

Meinst du vielleicht sowas? (Achtung C#, aber kannst ja ganz easy porten.)

C#-Quellcode

string foo = @"Das\nk\u00f6nnte ein Beispiel sein\n500\u20ac = viel Spa\u00df!";
string bar = System.Text.RegularExpressions.Regex.Unescape(foo);
Console.WriteLine(foo);
Console.WriteLine(bar);
Console.ReadLine();

Edit: Editier die Fragestellung wieder rein damit andere die Frage verstehen und dann die Antwort darauf finden können.

~blaze~ · 24. Oktober 2016, 17:50

Hi
am einfachsten wäre es vermutlich, das einfach Zeichen für Zeichen durchzugehen:

VB.NET-Quellcode

Shared Function Decode(s As String) As String
Dim sb As StringBuilder = Nothing
Dim i As Integer = 0
Dim mark As Integer = 0
Dim l As Integer = s.Length
While i < l
Dim cc As Char = s(i)
If cc = "\"c Then
If sb Is Nothing Then sb = New StringBuilder()
If i <> mark Then sb.Append(s, mark, i - mark)
i += 1
If i >= l Then Throw New ArgumentException("Unexpected end of input.", NameOf(s))
cc = s(i)
If cc = "n"c Then
sb.Append(vbLf)
ElseIf cc = "r" Then
sb.Append(vbCr)
ElseIf cc = "\"c Then
sb.Append("\"c)
ElseIf cc = "t" Then
sb.Append(vbTab)
ElseIf cc = "u"c Then
i += 1
sb.Append(DecodeChar(s, i, 4))
i += 3
'...
End If
i += 1
mark = i
Else
i += 1
End If
End While
If sb Is Nothing Then Return s
If i <> mark Then sb.Append(s, mark, i - mark)
Return sb.ToString()
End Function
Private Shared Function DecodeChar(s As String, index As Integer, length As Integer) As Char
If index + length > s.Length Then Throw New ArgumentException("Unexpected end of input.", NameOf(s))
Dim v As Integer = 0
For i As Integer = index To index + length - 1
Dim cc As Char = s(i)
If cc >= "0"c AndAlso cc <= "9"c Then
v = v * 16 + (Asc(cc) - Asc("0"c))
ElseIf cc >= "A"c AndAlso cc <= "F"c Then
v = v * 16 + (Asc(cc) - Asc("A"c) + 10)
ElseIf cc >= "a"c AndAlso cc <= "f"c Then
v = v * 16 + (Asc(cc) - Asc("a"c) + 10)
Else
Throw New ArgumentException("Unexpected hex character detected.", NameOf(s))
End If
Next
Return Chr(v)
End Function

Die Idee ist, solange alle Buchstaben durchzugehen, bis das Ende erreicht wurde und zu überprüfen, ob es sich um den Buchstaben "\" handelt. Wenn, dann wird überprüft, ob das darauffolgende Zeichen n, u, t, usw. ist und entsprechender Code ausgeführt.
@jmj
Ich hätte geschätzt, dass das nicht ganz klappt, weil Regex noch ein wenig mehr unterstützt, als nur das Escaping von solchen Buchstaben.

Viele Grüße
~blaze~

jmj · 24. Oktober 2016, 18:27

Inwiefern die RegEx Methode jetzt sicher ist, hab ich auch nicht ausgiebig getestet, daher ist die von dir entworfene Lösung wohl die sicherere Variante.

Grüße

RodFromGermany · 24. Oktober 2016, 19:02

@~blaze~ ich hab das mal mit dem String von @jmj probiert, da kommt mit dem Input \u20ac eine ArgumentException bei Return Chr(v).

Kann es sein, dass da so was wie eine CodePage (0x20) ausgelesen werden muss?

~blaze~ · 24. Oktober 2016, 19:38

@RodFromGermany
Probier's mal mit ChrW. Das ist ja in VB so idiotisch gelöst.

Viele Grüße
~blaze~

RodFromGermany · 24. Oktober 2016, 19:39

@~blaze~ Jou, so isses.
@jmj Ich gebe in jedem Falle Deiner Methode den Vorzug. :thumbup:

RodFromGermany · 25. Oktober 2016, 09:11

@~blaze~ Ich hab da eben noch mal reingesehen, die Konvertierung der einzelnen Zeichen ist doch etwas oversized, .NET kann das doch:

VB.NET-Quellcode

Private Shared Function DecodeChar(s As String, index As Integer, length As Integer) As Char
If index + length > s.Length Then Throw New ArgumentException("Unexpected end of input.", NameOf(s))
Dim ss = s.Substring(index, length)
Dim v2 = Convert.ToInt32(ss, 16)
Return ChrW(v2)
End Function

~blaze~ · 25. Oktober 2016, 11:24

Der Grund ist, dass ich rein stapelorientiert gearbeitet habe, um die String-Instanz zu vermeiden, es ginge natürlich auch ohne

Viele Grüße
~blaze~

Unicode dekodieren - Funktion vorhanden?

Unicode dekodieren - Funktion vorhanden?

Quellcode

Quellcode

Quellcode

C#-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

Ähnliche Themen

4 Benutzer haben hier geschrieben