Vorsicht bei umfangreichen Strings

Bartosz · 13. November 2023, 15:28

Hallo zusammen, ich habe keine spezifische Frage, sondern wollte euch nur von meinem aktuellen Projekt berichten. Ich arbeite derzeit an einem Programm, das eine Datei eines bestimmten Formats einliest und die darin enthaltenen Werte auf der Benutzeroberfläche anzeigt.

Um sicherzustellen, dass das Auslesen in meinem Programm fehlerfrei ist, habe ich bereits Dateien aus verschiedenen Quellen verwendet und getestet. (Es ist erstaunlich, wie große Unterschiede auftreten können, selbst wenn der Standard derselbe ist.) Vor kurzem habe ich ein YouTube-Video heruntergeladen und festgestellt, dass mein Programm über 70 Sekunden benötigte, um die Datei zu analysieren. Das war ungewöhnlich, da ähnlich große Dateien normalerweise in ein paar Dutzend Millisekunden verarbeitet wurden.

Nach einer analytischen Untersuchung stellte sich heraus, dass die Funktion "Get_udta" besonders viel Zeit in Anspruch nimmt. Die "udta-Box", was für "user-Data" steht, enthält im Klartext Informationen wie den Autor, das Fertigungsprogramm, den Encoder-Namen und ähnliches. Dabei werden auch 639 MB Arbeitsspeicher verbraucht, obwohl die Datei selbst nur 55 MB groß ist.

Die Ursache für diese Anomalie fand ich schließlich in der Tatsache, dass die "udta-Box" leider 820441 Bytes enthält. Diese Bytes beinhalten die gesamte Videobeschreibung des YouTube-Videos sowie (salopp gesagt) einen Großteil der Weltgeschichte. Das Programm musste über 70 Sekunden lang zusammenhängenden Speicher suchen, insbesondere weil der String zusätzlich mit .TrimStart(TrimChars) bearbeitet wird.

Daher meine Bitte an euch: Seid vorsichtig mit großen Strings und programmiert eine Sicherheit ein:

Pseudocode

Verschoben. ~Thunderbolt

Haudruferzappeltnoch · 13. November 2023, 16:03

Ich kann mir unter deiner Beschreibung noch gar nichts recht vorstellen.

Aber musst du denn die 820441 alle mit einem mal laden? Kann man die nicht Happenweise laden?
Und falls ja kann man ja nach so und so viele Zeilen austeigen, anstatt das zeitlich zu begrenzen.

Bartosz · 13. November 2023, 16:06

Aber musst du denn die 820441 alle mit einem mal laden?
Sind alles einzelne "items", also ja.

Und falls ja kann man ja nach so und so viele Zeilen aussteigen
Mach ich jetzt auch, siehe Code in Post 1. Wenn das Item länger als 100 Zeichen ist, nehme ich das nicht mit.

Haudruferzappeltnoch · 13. November 2023, 16:11

Und die Items darf man nicht trennen?

Bartosz · 13. November 2023, 16:56

Ich möchte mich an den Standard halten und der sagt nichts zum trennen. Wobei ich mit TrimChars() vorangestellte Steuerzeichen aus dem String entferne, damit man ein vernünftiges Leseerlebnis hat.
Seien wir ehrlich – 820441 sind einfach zu viel. Wer will das lesen in einer kleinen Listbox.

ErfinderDesRades · 13. November 2023, 19:55

ich hab post#1 noch nicht recht verstanden: Bedeutet das, dass du in einer uTube-Video-DownLoad-Datei von 55MB 880KB klartext drin enthalten war?
Alles MetaDaten zum gezeigten Video?
Und um aus den 55MB die 880KB Klartext auszulesen benötigt dein Proggi 70s und bläht sich auf 640MB Arbeitsspeicher auf?

Jo, da erscheint sinnvoll, die Klartext-Lese-Funktion zu verbessern zu versuchen.
Ob dein PseudoCode da die beste Lösung skizziert sei dahingestellt - schoma unschön ist, dass Daten dabei einfach ignoriert werden.

Vielleicht hast du ja nur die bekannte "Todsünde" begangen, dass du denselben String in einer Schleife immer weiter verlängerst.
Sowas würde zum genannten Fehlverhalten führen, und liesse sich auch einfach beheben - entweder mit StringBuilder oder mit List(Of String).

Haudruferzappeltnoch · 13. November 2023, 21:40

Bartosz schrieb:

Ich möchte mich an den Standard halten

Gut, mir ist zu dem Standard nur nichts klar. Bisher konnte ich nach eigenem Gutdünken lesen.
Eine Zeile aufschreiben sollte nicht soviel länger dauern als eine Zeile angucken, sagen wir mal pessimistisch das 3fache. Also wenn ich durch 55 MB durchrennen kann und 820kB Probleme machen ist das, etwas das mir bös missfallen würde. Ich denke wir reden über zwei verschiedene Dinge.
Habe auch grad keine Datei zur Hand, die so groß und lesbar ist, um das zu probieren.

Bartosz · 18. November 2023, 22:31

@ErfinderDesRades
ich hab post#1 noch nicht recht verstanden: Bedeutet das, dass du in einer uTube-Video-DownLoad-Datei von 55MB 880KB klartext drin enthalten war?Alles MetaDaten zum gezeigten Video?Und um aus den 55MB die 880KB Klartext auszulesen benötigt dein Proggi 70s und bläht sich auf 640MB Arbeitsspeicher auf?
Sehr gut verstanden

Vielleicht hast du ja nur die bekannte "Todsünde" begangen, dass du denselben String in einer Schleife immer weiter verlängerst. Sowas würde zum genannten Fehlverhalten führen, und liesse sich auch einfach beheben - entweder mit StringBuilder oder mit List(Of String).
Ich nutze eine List(of String).

@all
Ich war die Tage stark krank, bitte entschuldigt meine verspätete Antwort.

Stellt euch vor, ihr habt eine Datei. Ab irgendwo darin befindet sich eine Box namens udta. Die 4 Bytes vor udta geben die Größe der Box an.
Die udta-Box enthält Unterboxen. Uns interessiert nur die Vorkommen von data. Die 4 Bytes vor data geben die Größe der Box an. Nochmal: Es kann mehrere 'data' geben.
in den data-Boxen ist jeweils ein auszulesender String enthalten. Öffnet man die Datei mit dem Notepad++, sind die klar lesbar.
Eine dieser data-Boxen enthält einen String mit 818110 Bytes. udta enthält als "mutterbox" 820441 Bytes.

Aber wie schon erwähnt: Ein String mit der Länge von 818KB ist sowieso zu viel. Wer soll das lesen. Mir geht's nur darum, zu klären, warum mein System so viel Zeit benötigte, und warum es so viel Arbeitsspeicher aufbläht. Wobei letzteres, denke ich, geklärt ist. Strings sind nicht immutable. Es muss nach jeder Operation neuer Speicher gesucht werden.

Hier ist meine Funktion:

Spoiler anzeigen

Aufruf ist so, dass i der Index vor dem u von udta ist.
_256_3 ist eine Konstante und steht für 256³, _256_2 für 256². ListOfUserData ist eine List(of String). Data ist mein Bytearray der Datei (einfach Data = IO.File.ReadAllBytes(fullPath))

Haudruferzappeltnoch · 18. November 2023, 22:57

Aha du kennst alle Positionen der relevante strings schon vorher, das macht es verständlicher.

slice · 19. November 2023, 00:15

Ohne mich jetzt im Detail mit dem Post beschäftigt zu haben (ist mir zu wirr), warum liest du die gesamte Datei auf einmal in den Arbeitsspeicher und rennst über die Daten?
Ein einfacher Stream wäre doch wesentlich effektiver, immerhin brauchst du nur wenige Daten aus der gesamten Datei.

ErfinderDesRades · 19. November 2023, 00:31

für welche Werte i wird die Methode aufgerufen? Für jedes einzelne Byte der Datei?

Ansonsten ziemlich ineffektiv ist es, da vermutlich ziemlich oft einen MemoryStream zu bilden aus dem gesamten Data.

auch scheint mir, dass boxSize0 enorm grosse Werte annimmt, und dementsprechend viele Umdrehungen die j-Schleife zu leisten hat.

Bartosz · 19. November 2023, 09:35

j wird außerdem um eine Boxgröße erhöht: j += CInt(boxSize1) - 1

Ansonsten ziemlich ineffektiv ist es, da vermutlich ziemlich oft einen MemoryStream zu bilden aus dem gesamten Data.
Dieser Stream nimmt zwar das Bytearray Data als Grundlage, liest aber nur die Größe von processedData ein, beginnend ab j+4. Deswegen verstehe ich deine Aussage nicht.

VB.NET-Quellcode

Dim processedData As Byte() = New Byte(CInt(boxSize1) - 8 - 1) {}
Using ms As New IO.MemoryStream(Me.Data)
ms.Seek(j + 4, IO.SeekOrigin.Begin)
ms.Read(processedData, 0, processedData.Length)
End Using

ErfinderDesRades · 19. November 2023, 10:55

na, im Stream-Konstruktor übergibst du doch Me.Data! - dadurch wird dieser Stream ein echt fettes Teil.

wenn ich recht hingucke kannste den MemoryStreamquatsch sehr einfach ersetzen.
Du wilslt ja einen Ausschnitt von Me.Data nach processedData kopieren.
Dafür gibts eine Array.Copy-Überladung

Haudruferzappeltnoch · 19. November 2023, 11:03

Ein Stream müsste ja reichen oder? Den muss man nicht immer wieder machen. Aber einmal braucht man den Stream ja auf jeden Fall.

Bartosz · 19. November 2023, 12:16

@EdR: Mit Array.Copy läuft es ein paar Sekunden schneller. Arbeitsspeichernutzung ist immer noch über 400 MB.

VB.NET-Quellcode

Dim processedData As Byte() = New Byte(CInt(boxSize1) - 8 - 1) {}
Array.Copy(Data, j + 4, processedData, 0, processedData.Length)

@Haudruferzappeltnoch
Ein Stream müsste ja reichen oder?
Nein, ich habe viele Funktionen, die kleine Portionen aus der Datei entnehmen. Das Ganze läuft objektorientiert und nach einer bestimmten Reihenfolge.

Bartosz · 22. November 2023, 19:09

Ok, ich denke, hier kommen wir nicht weiter. Um das Thema zu beenden: Ich werde den 820KB-String nicht in der Oberfläche anzeigen.

Viele Grüße
Bartosz

Bluespide · 22. November 2023, 21:13

Bartosz schrieb:

Ok, ich denke, hier kommen wir nicht weiter. Um das Thema zu beenden: Ich werde den 820KB-String nicht in der Oberfläche anzeigen

Ok, kein Problem. Aber es ist halt auch schwer zu helfen, wenn nicht genug relevanten Code da ist und du scheinst ja noch viel viel viel mehr im Code zu machen, dass nicht optimal läuft. Behalte nur im Hinterkopf, wenn ich jetzt als Beispiel einen 1,5MB Text in eine Textbox lade, dann steigt der Arbeitsspeicher von 6,4MB auf 16MB an. Also um ca. 10MB. Für 1,5MB Text. Wenn dein Laden in diesem speziellen Fall für diese eine Video-Datei dann noch 70 Sekunde oder was das war braucht, scheinst du ein strukturelles Problem zu haben. Das kann dir jetzt natürlich auch einfach egal sein, aber du machst vermutlich noch etwas nicht ganz richtig.

oobdoo · 23. November 2023, 16:19

Bartosz schrieb:

Ok, ich denke, hier kommen wir nicht weiter. Um das Thema zu beenden: Ich werde den 820KB-String nicht in der Oberfläche anzeigen.

Ich mache es aktuell so das ich meine Textausgaben in zwei Varianten vorliegen habe. Die lange Version geht in ein Logfile und die kurze in die Textbox. Wenn man dann noch mit StringBuilder arbeitet sollten die Zeitverluste nicht zu groß sein.

Bartosz · 24. November 2023, 10:56

Hallo, ich habe nun neue Erkenntnisse. Ich habe mir ein Testprojekt erstellt, in dem ich eine Datei schreibe, die 818126 Bytes groß ist – bestehend aus

Der Inhalt von data beträgt 818110 Zeichen, einfach random Zahlen von 32 bis 127 zu einem Char gemacht. Das Ganze sieht nun so aus:

Diese Datei ist im Anhang.

Ich habe dann ein weiteres Testprojekt erstellt, das diese Datei einliest. Ich habe dazu meine Get_UserData-Funktion aus dem Originalprojekt benutzt. Was soll ich sagen – es gibt kein Problem beim Einlesen. Der Speicherbedarf beträgt ein paar MB. Das Auslesen der Datei geht schnell.
Das Problem ist die Übertragung an die Oberfläche. Die Listbox zeigt den langen String nicht an.

Hier der Code zum Auslesen:

Spoiler anzeigen

VB.NET-Quellcode

Public Class Form1
Private Data As Byte()
Private ReadOnly Latin1 As System.Text.Encoding = System.Text.Encoding.GetEncoding("iso-8859-1")
Private ReadOnly ListOfUserData As New List(Of String)
Private Const _256_3 As UInt32 = 16777216UI
Private Const _256_2 As UInt32 = 65536UI
Private Sub Button1_Click(sender As Object, e As EventArgs) Handles Button1.Click
Dim path As String = Environment.GetFolderPath(Environment.SpecialFolder.Desktop) + "\Testdatei.txt"
If Not System.IO.File.Exists(path) Then
Return
End If
Me.Data = System.IO.File.ReadAllBytes(path)
For i As Integer = 0 To Data.Length - 4 Step 1
If $"{Convert.ToChar(Data(i))}{Convert.ToChar(Data(i + 1))}{Convert.ToChar(Data(i + 2))}{Convert.ToChar(Data(i + 3))}" = "udta" Then
Get_UserData(i)
End If
Next
ListBox1.Items.AddRange(ListOfUserData.ToArray())
End Sub
Private Sub Get_UserData(i As Integer)
Dim boxSize0 As UInt32 = Data(i - 4) * _256_3 + Data(i - 3) * _256_2 + Data(i - 2) * 256UI + Data(i - 1)
For j As Integer = i + 8 To i + CInt(boxSize0) - 8 Step 1 ' nicht 4
If Latin1.GetString({Data(j), Data(j + 1), Data(j + 2), Data(j + 3)}) = "data" Then
Dim boxSize1 As UInt32 = Data(j - 4) * _256_3 + Data(j - 3) * _256_2 + Data(j - 2) * 256UI + Data(j - 1)
If boxSize1 > 100UI Then
Me.ListOfUserData.Add("Discarded string")
Continue For
End If
Dim processedData As Byte() = New Byte(CInt(boxSize1) - 8 - 1) {}
'Array.Copy(Data, j + 4, processedData, 0, processedData.Length)
Using ms As New IO.MemoryStream(Me.Data)
ms.Seek(j + 4, IO.SeekOrigin.Begin)
ms.Read(processedData, 0, processedData.Length)
End Using
' UTF8 according to the standard
Dim obtainedString As String = System.Text.Encoding.UTF8.GetString(processedData).TrimStart({Microsoft.VisualBasic.ControlChars.NullChar, Convert.ToChar(1), Convert.ToChar(24)})
Me.ListOfUserData.Add(obtainedString)
j += CInt(boxSize1) - 1 ' Do NOT write "Exit For" because these are single items
End If
Next
End Sub
End Class

DTF · 24. November 2023, 11:03

Bartosz schrieb:

Die Listbox zeigt den langen String nicht an.

Es gibt Chars die man nicht anzeigen kann. Hast du z.B. ein 0-Byte im String, siehst du nur den Teil davor. Du verwendest TrimStart, das hat nur einfluss auf Chars am Anfang des Strings.

Vorsicht bei umfangreichen Strings

Vorsicht bei umfangreichen Strings

VB.NET-Quellcode

Bartosz schrieb:

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

Bartosz schrieb:

Bartosz schrieb:

VB.NET-Quellcode

Bartosz schrieb:

Ähnliche Themen

7 Benutzer haben hier geschrieben