Menschlich lesbaren String in Byte-Array finden

Gonger96 · 3. November 2013, 15:22

Guten Abend,
ich versuche grad aus Dateien (also *.exe und *.dll) Strings herauszufiltern. Die sind meistens irgendwo in der .rdata-Section drin, welche ich auch als Byte-Array zur Verfügung hab'. Bei Unicode Strings scheinen die Chars durch Spaces getrennt zu sein. Ich könnte prüfen ob bestimmte Folgen druckbar sind, aber das Byte Array dafür komplett zu nem String zu machen scheint mehr ziemlich Resourcen fressend. Wisst ihr wie ich da am Besten vorgehe ?

Grüße

timmi31061 · 3. November 2013, 15:30

Moin,

geh doch mit 'ner For Each durch, gib das an deine Prüf-Logik (z.B. Char.IsLetterOrDigit) und füg das, wenn es True ergibt an einen Text.StringBuilder an. Dann hast du alle Zeichen da drin.

PS: Die Zeichen werden übrigens durch NULL-Chars getrennt.

Agita · 3. November 2013, 15:34

du könntest dir auch auf ner ascii tabelle (einfach googlen) die byte nummern für die zeichen nachschauen und dann so in der schleife überprüfen...
zb wenn du auch lesbare sonderzeichen haben willst

Gonger96 · 3. November 2013, 15:39

@Agita
So hatte ichs auch eigentlich geplant.
Das Problem ist jetzt, ich weißt nicht wo die Strings enden. Wenn ich so prüfe und einem Stringbuilder anfüge, dann hab ich alle Strings in einem drin. Ausserdem kann ich Unicode Strings so garnicht finden

timmi31061 · 3. November 2013, 15:42

Die enden normalerweise auch auf NULL-Bytes. Guck dir das am Besten mal im Hex-Editor an.

Gonger96 · 3. November 2013, 15:44

Die enden nicht auf '\0', Unicode braucht 2 Bytes pro Zeichen, das ist bei vielen halt '\0'. Hier kann ich nicht einfach jedes Byte durchgehen und prüfen.

Agita · 3. November 2013, 16:43

es ist zwar nur php ... aber evtl hilfts dir ja weiter.. hab das eben grad auf die schnelle gemacht

PHP-Quellcode

<?php
// unwichtig... ich lade einfach nur die datei und erstelle mir auch ein array
$fp = fopen("sdfdf.txt", "r");
$bytes = array();
for($i=0; $i<10; $i++)
$bytes[] = ord(fgetc($fp));
fclose($fp);
// nun gehts los
// dim pos = 0
$pos = 0;
// dim len = bytes.length
$len = count($bytes);
// könnt evtl auch ersetzt werden durch
// while(true)
while($pos < $len)
{
// ende des strings oder der datei
// if (bytes(pos) = 0) then break
if ($bytes[$pos] == 0) break;
// binärcode
// weiß nicht wie vb function aussieht
$bin = decbin($bytes[$pos]);
// bits auffüllen sodass ein ganzes byte ensteht (8 bits)
// weiß nicht ob du das auch machen musst.
// in php wird aus "00100100" zb "100100"
// also müssen da noch zwei "0" davor
$bin = str_repeat("0", 8-strlen($bin)).$bin;
// regex
// versuche herauszufinden wieviele "1" am anfang stehen
if(preg_match("/^1+/", $bin, $matches))
$uses = strlen($matches[0]);
// regex failed ... also ists nur 1 byte
else
$uses = 1;
echo "$uses<br>";
$pos += $uses;
}

Gonger96 · 3. November 2013, 16:55

Öhmm, von PHP hab ich leider 0 Ahnung. Könntest du das zu C#, C oder C++ übersetzen ? So wie ich das sehe, machst du das Array auch zu nem String oder lieg ich da falsch ?

Agita · 3. November 2013, 17:11

*g* da sind doch kommentare =)

ich mach nix anderes als in der schleife das nächste byte zu nehmen
dann wandle ich das byte in binär um

dann prüfe ich mittels regex wieviele 1sen am anfang stehen
bei "11100101" bekomme ich zb "111"

dann ermittle ich einfach die string länge von "111"
siehe da -> 3 ... das heisst dieses und die nächsten 2 bytes bilden ein zeichen

wenn regex fehl schlägt, dann nur weil am anfang keine 1 sondern eine 0 steht
und dann ists automatisch nur ein byte

--
bin grad dabei für mich was zu basteln, daher das fehlende elan, aber werd gleich danach ma vb.net anschmeissen =)

Gonger96 · 3. November 2013, 17:59

Normale Ansi-Strings bekomm ich hin. Nur bei Unicode willst noch nicht sorecht. Ich probier im Moment aber noch ein wenig herum

Agita · 3. November 2013, 18:19

VB.NET-Quellcode

Module Module1
Sub Main()
Dim data = IO.File.ReadAllBytes("ConsoleApplication1.exe").ToList
Dim pos As Integer = 0
Dim bin As String
Dim reg As New Text.RegularExpressions.Regex("^1+")
Dim use As Integer
Dim uni As Char
Dim datacount = data.Count
While (pos < datacount)
' this byte is 0 .. skip it
If (data(pos) = 0) Then
pos += 1
Continue While
End If
' convert to 8 bits binary string
bin = Convert.ToString(data(pos), 2).PadLeft(8, "0"c)
' benutzte bytes anzahl finden
If reg.IsMatch(bin) Then
use = reg.Match(bin).Value.Length
Else
use = 1
End If
' dieses byte hat nix mit unicode zu tun...
If (use > 6) Then
pos += 1
Continue While
End If
' uni enthällt hier das zeichen des oder der bytes
uni = CChar(Text.Encoding.UTF8.GetString(data.GetRange(pos, use).ToArray))
Console.Write((uni))
' erhöhe array pointer um anzahl der benutzten bytes für dieses zeichen
pos += use
End While
Console.ReadLine()
End Sub
End Module

Gonger96 · 3. November 2013, 18:35

Danke fürs Beispiel, ich werds gleich mal ausprobieren. Ich habs etwas anders gelöst:

Spoiler anzeigen

C-Quellcode

static void Main(string[] args)
{
byte[] data = File.ReadAllBytes(@"...");
foreach (string s in GetStrings(data, 3))
Console.WriteLine(s);
}
static bool IsPrint(int c)
{
return (c >= 32 && c <= 126);
}
static string[] GetStrings(byte[] data, int length)
{
// Ansi
List<string> foundstrings = new List<string>();
StringBuilder sb = new StringBuilder();
for (int i = 0; i < data.Length; i++ )
{
if (!IsPrint(data[i])) continue;
while (IsPrint(data[i]))
{
sb.Append((char)data[i]);
i++;
}
if (sb.Length >= length) foundstrings.Add(sb.ToString());
sb.Remove(0, sb.Length);
}
// Unicode
for (int i = 0; i < data.Length; i++)
{
if (i + 1 >= data.Length) break;
int val = Encoding.Unicode.GetChars(new byte[] { data[i], data[i + 1] })[0];
if (!IsPrint(val)) continue;
while (IsPrint(val))
{
sb.Append((char)val);
i += 2;
val = Encoding.Unicode.GetChars(new byte[] { data[i], data[i + 1] })[0];
}
if(sb.Length >= length) foundstrings.Add(sb.ToString());
sb.Remove(0, sb.Length);
}
return foundstrings.ToArray();
}

Hier kommen aber immernoch so ca 20-30 falsche Ergebnisse raus. Der Rest ist korrekt. Gibt es noch eine andere möglichkeit zu sehen ob z.B. "AAgSFJGFDJJJFD" semantisch sinnvoll ist ?

nafets3646 · 3. November 2013, 18:48

Nach was suchst du denn genau? Nach "normalen" Wörtern?

Gonger96 · 3. November 2013, 18:58

Ein Beispiel verdeutlicht es glaub ich. Ich suche nach Wörtern, also solche die ein Mensch lesen kann (die irgendeinen Sinn ergeben). Mit meiner aktuellen Funktion kommt Folgendes heraus:

Spoiler anzeigen

Quellcode

!This program cannot be run in DOS mode.
.text
`.rsrc
@.reloc
pro
+K+
+o+6
*BSJB
v4.0.30319
#Strings
#US
#GUID
#Blob
<Module>
ConsoleApplication2.exe
Program
ConsoleApplication2
mscorlib
System
Object
Main
IsPrint
GetStrings
.ctor
args
data
length
System.Runtime.Versioning
TargetFrameworkAttribute
System.Reflection
AssemblyTitleAttribute
AssemblyDescriptionAttribute
AssemblyConfigurationAttribute
AssemblyCompanyAttribute
AssemblyProductAttribute
AssemblyCopyrightAttribute
AssemblyTrademarkAttribute
AssemblyCultureAttribute
System.Runtime.InteropServices
ComVisibleAttribute
GuidAttribute
AssemblyVersionAttribute
AssemblyFileVersionAttribute
System.Diagnostics
DebuggableAttribute
DebuggingModes
System.Runtime.CompilerServices
CompilationRelaxationsAttribute
RuntimeCompatibilityAttribute
System.IO
File
ReadAllBytes
String
Join
WriteAllText
System.Collections.Generic
List`1
System.Text
StringBuilder
Append
get_Length
ToString
Add
Remove
Encoding
get_Unicode
Byte
GetChars
ToArray
z\V
.NETFramework,Version=v4.5
FrameworkDisplayName
.NET Framework 4.5
ConsoleApplication2
!Copyright
$b2c223cc-5eb7-4ef0-b11b-b09f563f877a
1.0.0.0
WrapNonExceptionThrows
RSDSE[
_CorExeMain
mscoree.dll
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<assembly xmlns="urn:schemas-microsoft-com:asm.v1" manifestVersion="1.0">
<assemblyIdentity version="1.0.0.0" name="MyApplication.app"/>
<trustInfo xmlns="urn:schemas-microsoft-com:asm.v2">
<security>
<requestedPrivileges xmlns="urn:schemas-microsoft-com:asm.v3">
<requestedExecutionLevel level="asInvoker" uiAccess="false"/>
</requestedPrivileges>
</security>
</trustInfo>
</assembly>
m!!m!)m!1m!9m!Am!Im!Qm!Ym&am!im!qm!ym+
ConsoleApplication2.exe
VS_VERSION_INFO
VarFileInfo
Translation
StringFileInfo
000004b0
CompanyName
FileDescription
ConsoleApplication2
FileVersion
1.0.0.0
InternalName
ConsoleApplication2.exe
LegalCopyright
Copyright
OriginalFilename
ConsoleApplication2.exe
ProductName
ConsoleApplication2
ProductVersion
1.0.0.0
Assembly Version
1.0.0.0

Solche Strings wie in Zeile 93, 99 oder 6, 7, 8 würde ich gern herausfiltern. Ich weiß nur beim Besten Willen nicht wie.

Agita · 3. November 2013, 19:09

wird schwer... fürs programm sind das fürs erste alles normale strings...
es weiß ja nicht genau was du suchst ...
du kannst ihm aber sagen wonach du suchst mittels regex

Gonger96 · 3. November 2013, 19:13

Mit RegEx kann ich hier wenig machen. Fast alles ist ja schon rausgefiltert und nur nochn paar Ausnahmen da. Ich seh da keine Möglichkeit zu entscheiden ob der String irgendwas Sinnvolles beinhaltet oder nur Schwachsinn.

Agita · 3. November 2013, 19:16

wenn du es nicht weisst ... wie soll dann das programm es wissen ?

aber ich kenne da evtl eine andere idee... wonach suchst du denn genau? nach wirklich ALLEN lesbaren strings oder nur nach bestimmten zeilen/abschnitten?

Gonger96 · 3. November 2013, 19:22

Das Ganze wird später meinem Projektchen hinzugefügt (s. Signatur ^^). Ich denke der Nutzer wird dann einmal über die Suchlänge entscheiden können und über die Section. Also .rdata, .data usw. oder die komplette Datei. Da könnten die Ergebnisse schon zu 90% korrekt sein. Also wird im Idealfall nurn Abschnitt durchsucht, im Zweifelsfall aber alles.

Agita · 3. November 2013, 19:31

wenn du ganze abschnitte suchst wie fast ganz unten das mit den assembly sachen. dann kenn ich da noch einen anderen weg

petaod · 3. November 2013, 19:35

Wenn du deine Strings durch eine Rechtschreibprüfung jagst, kannst du die "schlechten" aussortieren.

Menschlich lesbaren String in Byte-Array finden

Menschlich lesbaren String in Byte-Array finden

PHP-Quellcode

VB.NET-Quellcode

C-Quellcode

Quellcode

Ähnliche Themen

5 Benutzer haben hier geschrieben