Out Of Memory bei einlesen einer Datei

Humax · 12. Oktober 2016, 11:13

Hallo, ich möchte eine Datei einlesen um dann zu schauen ob ein bestimmter String darin enthalten ist.

Mit folgendem Code bekomme ich einen out of memory Fehler

VB.NET-Quellcode

Using reader As New System.IO.StreamReader(Dateiname)
Dateiinhalt = reader.ReadToEnd()
End Using

Also lese ich jetzt mit folgendem Code die Datei Zeile für Zeile ein und schaue nach dem gesuchten String.

VB.NET-Quellcode

Using reader As New System.IO.StreamReader(Dateiname)
Do Until gefunden = True Or reader.EndOfStream = True Or EInlesen_abbrechen = True
My.Application.DoEvents()
Dateiinhalt = reader.ReadLine.ToLower
If Dateiinhalt.Contains(gesuchterText) Then
gefunden = True
End If
Loop
End Using

Wenn der gesuchte Text nicht enthalten ist kann es bei einer großen Datei sehr lange dauern, deshalb die Frage ob es eine Möglichkeit gibt dies einfacher (schneller) zu lösen.

Duke · 12. Oktober 2016, 12:05

Ich denke, ein großer Zeitfresser bei dir ist der Aufruf von

Quellcode

My.Application.DoEvents()

Schmeiss den Kram raus und mach mit Async und Await einen aysnchronen Aufruf daraus.

Zum Testen, wieviel schneller das geht lass vor dem Umbau einfach mal

Quellcode

My.Application.DoEvents()

weg und vergleiche die Laufzeiten.

Auszuprobieren wäre noch, ob das auch noch schneller geht:

Quellcode

DIm gefunden As Boolean = (reader.ReadLine.IndexOf(gesuchterText, StringComparison.OrdinalIgnoreCase) >= 0)

Das ist ein Stringkopieren weniger drin

Eddy · 12. Oktober 2016, 12:57

Du sparst Zeit wenn du statt Zeilen Bloecke einliest, ich glaube so geht das in(bis zu) der haelfte der Zeit.

VB.NET-Quellcode

Sub xyz(ByVal filename As String)
Using fs As New IO.FileStream(filename, IO.FileMode.Open)
Using sr As IO.StreamReader = New IO.StreamReader(fs)
Dim toFind As String = "some stuff"
While Not sr.EndOfStream
Dim buffer() As Char = New Char(2047) {}
sr.ReadBlock(buffer, 0, buffer.Length)
Dim txt As String = New String(buffer).ToLower()
If txt.Contains(toFind) Then
End If
If Not sr.EndOfStream Then
fs.Position -= toFind.Length
End If
End While
End Using
End Using
End Sub

EaranMaleasi · 12. Oktober 2016, 13:37

~~@Eddy und was wenn sich der Gesuchte String exakt zwischen 2 Blöcken befindet?~~

Edit @Eddy whoops, vollkommen übersehen

Eddy · 12. Oktober 2016, 13:40

@EaranMaleasi siehe die Zeilen 11 - 13

Niko Ortner · 12. Oktober 2016, 17:40

Aber: Bei Eddys Code wird immer der ganze Buffer durchsucht. Das kann zu falschen Ergebnissen führen. Beispiel:
Dateiinhalt: "01234567012345670123456701234567" (also 32 Zeichen, 4 mal 0 bis 7)
Puffergröße: 10
Suchtext: "6767"
Der Suchtext kommt offensichtlich nicht in der Datei vor. Aber man beachte, was der Puffer bei jedem Schleifendurchlauf beinhaltet (ich habe das Zurücksetzen der Streamposition jetzt mal ignoriert, weil das Problem trotzdem besteht):

Quellcode

0123456701 // Nein
2345670123 // Nein
4567012345 // Nein
6767012345 // Ja!

Im letzten Durchlauf wurden nur die ersten beiden Zeichen im Puffer überschrieben. Der Rest ist noch der alte Inhalt. Deshalb wird der Suchtext gefunden, obwohl er eigentlich nicht in der Datei steht.

Die sr.ReadBlock-Funktion gibt die Anzahl an gelesenen Zeichen zurück. Die gibt man dann dem String-Konstruktor mit.

Und mir ist gerade aufgefallen, dass der Puffer bei jedem Schleifendurchlauf erneut erstellt wird. Das heißt, dieses Problem tritt nur dann auf, wenn der Suchstring 0-Zeichen am Ende beinhaltet. Aber es sollte klar sein, dass man den Buffer einmal erstellen und dann weiterverwenden sollte.

Übrigens lässt sich die Sache noch weiter optimieren: Wenn man weiß, dass der Suchstring keine Zeilenumbrüche beinhaltet, dann kann man einfach sowas verwenden:

VB.NET-Quellcode

Function FileContains(FilePath As String) As Boolean
Using Reader As New StreamReader(FilePath)
Do Until Reader.EndOfStream
If Reader.ReadLine.ToLower.Contains(Suchstring) Then Return True
Loop
End Using
Return False
End Function

Eddy · 12. Oktober 2016, 18:45

Danke fuer den Hinweis :thumbup:

So ist es nu richtig und funktioniert recht flott:

VB.NET-Quellcode

Function FileContainsString(ByVal filename As String, ByVal toFind As String) As Boolean
Using fs As New IO.FileStream(filename, IO.FileMode.Open)
Using sr As IO.StreamReader = New IO.StreamReader(fs)
Dim buffer() As Char = New Char(2047) {}
Dim readCount As Integer
Dim txt As String
While Not sr.EndOfStream
readCount = sr.ReadBlock(buffer, 0, buffer.Length)
txt = New String(buffer, 0, readCount)
If txt.Contains(toFind) Then
Return True
End If
If Not sr.EndOfStream Then
fs.Position -= toFind.Length
End If
End While
End Using
End Using
Return False
End Function

Humax · 13. Oktober 2016, 15:46

Hi, hatte erst jetzt mal kurz Zeit und habe mal nach Dukes Vorschlag die Zeit gemessen.
Meine Methode, Zeile für Zeile mit DoEvents benötigt 46 Sekunden für die Datei
Ohne DoEvents 44 Sekunden.

Ich hatte es nicht für so wichtig erachtet, und daher im 1. Post nicht erwähnt... Da die Datei bzw. nun jede eingelesene Zeile nach mehreren Strings (13) durchsucht werden muss, hatte ich

VB.NET-Quellcode

If Dateiinhalt.Contains(gesuchterText) Then

mit entsprechend vielen If Elseif behandelt. Habe den Code jetzt dann mal durch eine Select Case Abfrage ersetzt, macht es aber auch nicht viel schneller.
Mit Select Case und DoEvents 46 Sekunden
Mit Select Case ohne DoEvents 43 Sekunden.

Zum Spass mal die Datei mit dem SpeedCommander geöffnet, der braucht 8 Sekunden...

Während der DoEvents wird eigentlich eh nichts gemacht, ausser evtl den Abbrechen-Button zuzulassen.

Werde heute Abend oder morgen mal den Code von Eddy probieren und vorher noch

VB.NET-Quellcode

DIm gefunden As Boolean = (reader.ReadLine.IndexOf(gesuchterText, StringComparison.OrdinalIgnoreCase) >= 0)

testen, wie schnell das dann ist

Niko Ortner · 13. Oktober 2016, 16:11

Wie groß ist die Datei eigentlich?

Humax · 13. Oktober 2016, 17:36

Die Dateien haben im Normalfall 50 - 800MB (jetziger Stand - demnächst wahrscheinlich bis zurGröße einer DVD, also so 4,6 GB) . Normalerweise wird der gesuchte Text relativ schnell gefunden. Hab jetzt testweise mal in 4 Dateien geguckt, da war der Text innerhalb der ersten 100 Zeilen gefunden. Aber ob es nicht mal doch anders ist kann ich nicht sagen.

Niko Ortner · 13. Oktober 2016, 18:13

Nach welchem Text suchst Du? Ist es tatsächlich lesbarer Text?

Humax · 13. Oktober 2016, 18:25

Die Dateien sind (sollten) *.IMG *.ISO *.bin sein. Gesucht wird nach einem Text mit 4 Zeichen gefolgt von einem Binde oder Unterstrich. Was verstehst du unter lesbar. Also es ist (für mich) zwar lesbar aber keine "nomalen" Wörter wie Haus oder Katze...

Niko Ortner · 13. Oktober 2016, 18:51

In dem Fall würde ich eher behaupten, dass Du nach Bytes suchen solltest, nicht nach Zeichen. Dadurch sparst Du Dir das Decoding.

hal2000 · 14. Oktober 2016, 00:57

Außerdem nehme man für die Suche nach mehreren Strings den Aho-Corasick-Algorithmus: en.wikipedia.org/wiki/Aho-Corasick_algorithm

Humax · 14. Oktober 2016, 19:39

Hallo Eddy, wie muss ich deinen Code anpassen, dass ich nicht nach 1 String suchen kann sondern nach mehreren (in meinem Fall 14)?

Eddy · 14. Oktober 2016, 21:30

So auf die schnelle waere das meine erste Idee:

VB.NET-Quellcode

Function FileContainsStrings(ByVal filename As String, ByVal toFind() As String) As Boolean
Dim longestStringLength As Integer = toFind.OrderByDescending(Function(s) s.Length).First().Length
Dim stringsFound() As Boolean = New Boolean(toFind.Length - 1) {}
Dim buffer() As Char = New Char(2047) {}
Dim readCount As Integer
Dim txt As String
Using fs As New IO.FileStream(filename, IO.FileMode.Open)
Using sr As IO.StreamReader = New IO.StreamReader(fs)
While Not sr.EndOfStream
readCount = sr.ReadBlock(buffer, 0, buffer.Length)
txt = New String(buffer, 0, readCount)
For i = 0 To toFind.Length - 1
If txt.Contains(toFind(i)) Then
stringsFound(i) = True
If stringsFound.All(Function(b) b) Then
Return True
End If
End If
Next
If Not sr.EndOfStream Then
fs.Position -= longestStringLength
End If
End While
End Using
End Using
Return False
End Function

Humax · 15. Oktober 2016, 11:26

Hi Eddy, glaube du hattest mich falsch verstanden oder ich mich schlecht ausgedrückt oder ich habe deinen Code nicht so ganz verstanden... Ich wollte nicht alle "Suchtexte" finden sondern nur einen von mehreren.
Ich habe deinen Code jetzt mal so angepasst. Bringt mir das Ergebnis jetzt in 30 Sekunden , statt vorher 44.
Erstmal vielen Dank für die Hilfe.
Hier mal der angepasste Code:

VB.NET-Quellcode

Dim tofind() As String = {"SLES-", "SCES-", "SLUS-", "SCUS-", "SLPM-", "SLPS-", "SCPS-", "SLES_", "SCES_", "SLUS_", "SCUS_", "SLPM_", "SLPS_", "SCPS_"}
'Dim longestStringLength As Integer = tofind.OrderByDescending(Function(s) s.Length).First().Length
Dim buffer() As Char = New Char(2047) {}
Dim readCount As Integer
Dim ID As String = ""
Dim txt As String = String.Empty
Using fs As New IO.FileStream(Dateiname, IO.FileMode.Open)
Using sr As IO.StreamReader = New IO.StreamReader(fs)
While Not sr.EndOfStream
readCount = sr.ReadBlock(buffer, 0, buffer.Length)
txt = New String(buffer, 0, readCount)
For i = 0 To tofind.Length - 1
If txt.Contains(tofind(i)) Then
ID = txt.Substring(txt.IndexOf(tofind(i)), 11)
Exit While
End If
Next
If Not sr.EndOfStream Then
fs.Position -= tofind.Length
End If
End While
End Using
End Using

Habe aber trotzdem noch ein paar Fragen zur Verständnis...
Da mein gesuchter text immer gleich lang ist (5 Zeichen), habe ich longeststringlength weggelassen.
Könntest du noch kurz erklären was dein Code macht, also speziell diese Zeile

VB.NET-Quellcode

Dim buffer() As Char = New Char(2047) {})

Buffer als ein Array angelegt, warum 2047 - welche Auswirkungen hätte hier eine anderer Zahl? Hat das was mit dem maximal verwendeten Speicher zu tun wegen der Auslastung des RAM?

Eddy · 15. Oktober 2016, 12:57

Hi Humax,

hatte verstanden das du pruefen wolltest ob alle n Strings in der Datei zu finden sind.

Die gennante Zeile erzeugt einen Char-Array mit 2048 Indicies, mit der Default-Value, somit werden pro Durchlauf der Schleife 2KB der Datei verarbeitet. Bei kleineren Werten wird die Schleife also oefter durchlaufen als bei groesseren. Bei der Verarbeitung in der Schleife dauert es etwas laenger wenn ein groesserer Puffer zu verarbeiten ist(hier wird minimal sein). Da musst du mal schauen welche Puffer-Groesse hier die beste ist, waehle fuern den Anfang mal einen deutlich groesseren Puffer z.B. mal 1048576(1MB). Der kleine Puffer hat mit dem RAM nicht wirklich viel zu tun, selbst wenn man einen 10MB Puffer nimmt, das faellt heutzutage kaum noch ins Gewicht. Bei sehr alten Maschinen z.B. mit 256 MB Ram oder weniger, das sollte man doch kleine Puffer waehlen, da sonst viel auf der Festplatte zwischengespeichert werden muss, das kostet natuerlich Zeit.

Humax · 15. Oktober 2016, 20:42

Also danke mal für die Erklärung.
Selbst ein deutlich größerer Puffer bringt keinen merklichen Unterschied, von daher lasse ich es mal so.

Danke für die Hilfe

Out Of Memory bei einlesen einer Datei

Out Of Memory bei einlesen einer Datei

VB.NET-Quellcode

VB.NET-Quellcode

Quellcode

Quellcode

Quellcode

VB.NET-Quellcode

Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

Ähnliche Themen

6 Benutzer haben hier geschrieben