Sehr große Log-Dateien verwalten

Hitch · 20. März 2013, 11:57

Hallo zusammen,

ich versuche im Moment ein Programm zu schreiben, das Log-Dateien analysieren kann.
Ein Problem das dabei auftritt, ist die Größe der einzelnen Dateien die stark schwanken kann.
Die Dateien können quasi unendlich groß werden und da hab ich auch leider keinen Einfluss drauf.
Da es sehr sinnlos ist solch eine Datenmenge von Hand zu durchsuchen, kommt mein Tool ins Spiel.
Aber allein wenn ich die Datei laden will, kommt eine out of memory exaption.
Ich kenne einige Editoren, die solch eine Datenmenge sehr schnell anzeigen können, deswegen ist mein erstes Ziel die Datei irgendwie anzuzeigen.

Weiß da jemand Rat?

Gruß,
Hitch

AliveDevil · 20. März 2013, 12:13

Datei Zeile für Zeile auslesen und damit arbeiten. Wenn du die komplette Datei in einen String liest, ist es klar, dass der ne OOM-Exception wirft.

Hierfür solltest du dir System.IO.Stream, System.IO.FileStream und System.IO.StreamReader ansehen.
Mit dem FileStream kannst du einen Stream zu der Datei aufbauen und mit dem StreamReader Zeile für Zeile durchgehen.

RodFromGermany · 20. März 2013, 12:41

Sind diese Log-Dateien zeilenbasiert aufgebaut?
Sind diese Log-Dateien so aufgebaut, dass da das Lesen einer Zeile zur Analyse ausreicht
oder
muss eine Gruppe von Zeilen gelesen werden, um einen Log-Fall gelesen zu haben?
Wieviel dieser Information soll / muss angezeigt werden?

Hitch · 20. März 2013, 12:51

@ AliveDevil
Das mit dem System.IO.StreamReader habe ich versucht, wird auch “relative” Zeitnah Zeile für Zeile geladen jedoch dauert das mit einer jeweiligen Ausgabe jeder Zeile ewig.

@ RodFromGermany
Das ist ganz unterschiedlich, aber die meisten sind in Gruppen aufgebaut.
Zuerst möchte ich einmal alles aufgeben z.B. in einer Richtextbox (obwohl ich nicht glaube, dass das geht).

Wie oben schon erwähnt gibt es Editoren die diese Dateien in 1 – 2 sek. öffnen können.
Wie machen die das denn?

RodFromGermany · 20. März 2013, 12:55

Hitch schrieb:

Wie machen die das denn?

Ich glaube nicht, dass diese Editoren den gesamten Inhalt gelesen haben, sondern nur ein (großes) Stück der Datei.
Wenn die merken, dass mehr angefordert wird, wird halt nachgelegt.
Da steckt die Intelligenz im Einlesen und in der Speicherverwaltung.

AliveDevil · 20. März 2013, 13:43

Also mit meinem Programm, was ich mir eben geschrieben habe, kann ich ne Datei mit 134951 Einträgen bestens einlesen.
Ich nutze dafür WPF mit dem .NET 4.5 (kann allerdings auch mit dem .NET 4 durchgeführt werden) und das MVVM Light Toolkit.

MainViewModel.cs

C-Quellcode

namespace FileRead.ViewModel {
public class MainViewModel : ViewModelBase {
// um den Status anzeigen zu lassen.
private string status;
public string Status { get { return status; } set { status = value; this.RaisePropertyChanged( "Status" ); } }
// einfach nur Zufall :D
Random rnd;
// damit eine Liste existiert, die mit WPF kompatibel ist.
ObservableCollection<LogViewModel> logs = new ObservableCollection<LogViewModel>();
// wichtig für das DataGrid!
CollectionViewSource logView;
public CollectionViewSource Logs { get { return logView; } }
// ein Command, der von einem Button gestartet ist.
private RelayCommand cDummyFile;
public RelayCommand CDummyFile {
get {
// wenn cDummyFile != null ist, erzeuge ein neues Objekt
return cDummyFile ?? ( cDummyFile = new RelayCommand( () => {
// eine Dummy-Datei erstellen
FileInfo fI = new FileInfo( "dummy.file" );
if ( fI.Exists )
fI.Delete();
// und beschreiben.
using ( FileStream fS = fI.OpenWrite() ) {
using ( StreamWriter strW = new StreamWriter( fS ) ) {
strW.AutoFlush = true;
// Random * 1000 Einträge schreiben.
for ( ulong i = 0; i < (ulong) ( rnd.Next() * 1000 ); i++ ) {
// das mit einem Base64 in die Datei schreiben.
strW.WriteLine( string.Format( "{0} | {1}", i, Convert.ToBase64String( BitConverter.GetBytes( i << rnd.Next( 5 ) ) ) ) );
}
}
}
} ) );
}
}
private RelayCommand rDummyFile;
public RelayCommand RDummyFile {
get {
return rDummyFile ?? ( rDummyFile = new RelayCommand( () => {
FileInfo fI = new FileInfo( "dummy.file" );
if ( !fI.Exists )
return;
// den Log löschen.
logs.Clear();
// Zeitmessung!
Stopwatch sW = new Stopwatch();
sW.Start();
// Datei zum Lesen öffnen
using ( FileStream fS = fI.OpenRead() ) {
// den StreamReader öffnen.
using ( StreamReader strR = new StreamReader( fS ) ) {
// solange nicht das Ende erreicht wurde
while ( !strR.EndOfStream ) {
string line = strR.ReadLine();
// Tuples sollte man getrost vergessen. Korrekt wäre hier:
// LogViewModel tLine = new LogViewModel() { Time = Convert.ToUInt64( line.Slit( '|' )[0],
// line.Split( '|' )[1] };
// und damit dann logs.Add( tLine );
Tuple<int, string> lines = Tuple.Create( Convert.ToInt32( line.Split( '|' )[0] ), line.Split( '|' )[1] );
logs.Add( new LogViewModel() { Time = lines.Item1, Line = lines.Item2 } );
}
}
}
sW.Stop();
// Status ausgeben.
Status = "Time needed: " + sW.Elapsed.ToString();
} ) );
}
}
// initialisierungen.
public MainViewModel() {
logView = new CollectionViewSource();
logView.Source = logs;
rnd = new Random();
}
}
public class LogViewModel {
public long Time { get; set; }
public string Line { get; set; }
}
}

MainWindow.xaml

Ist zwar C#, allerdings sollte es nicht so schwer sein, dies auch auf VB.NET umzuschreiben. Zum WPF Teil muss ich glaube ich nichts sagen, da es mMn. relativ verständlich ist.

Einige Sachen sind nicht enthalten, da das MVVM Toolkit diese hinzufügt. Mit dem Tool bekomme ich ungefähr 1.56 Sekunden zum Lesen von, wie gesagt, knapp 135k Zeilen.

Kangaroo · 20. März 2013, 15:02

Hitch schrieb:

Wie oben schon erwähnt gibt es Editoren die diese Dateien in 1 – 2 sek. öffnen können. Wie machen die das denn?

Zunächst einmal ist der Hinweis von AliceDevil vollkommen richtig: Filestream und Streamreader solltest Du Dir definitiv ansehen.

Ein Log-File von Anfang bis Ende zu analysieren dauert nun eben seine Zeit.

Bei aufeinanderfolgenden Analysen geht es allerdings leichter , wenn Du direkt an dem Punkt (Zeile/Gruppe) aufsetzt, wo Du das letzte Mal aufgehört hast: es werden nur die 'neuen' Log-Einträge analysiert.

Dazu bietet die FileStream Klasse die Filestream.Seek Methode an.

Hitch schrieb:

Zuerst möchte ich einmal alles aufgeben z.B. in einer Richtextbox (obwohl ich nicht glaube, dass das geht).

Das geht wohl zweifellos, nur ist die RichTextbox ein grottenlahmes Control. Mag durchaus sein , daß Dein Zeitaufwand rein durch dieses verursacht wird.

Alternativen wäre die Textbox, das Datagridview oder externe Libraries wie FastColoredTextbox oder Scintilla.

Zunächst einmal solltest Du allerdings wissen wo Deine Zeitverluste überhaupt herkommen: hast Du überhaupt schon einmal mit einer Stopwatch ein Profiling Deiner Auswertzeiten gemacht ?

Wenn das feststeht, wäre der Code den Du für diesen Teil benutzt ebenfalls interessant ...

Überhaupt: über welche File Grössen/Zeilen/Zeiten reden wir hier überhaupt ?

Hitch · 20. März 2013, 15:31

@ AliveDevil
Das werde ich mir heute abend mal genauer ansehen

@ Kangaroo
Ich habe hier eine Log-Datei von 1,75 GB mit 18274098 Zeilen
Lese ich diese mit folgendem Code Zeile für Zeile, dauert das nur wenige sekunden (ca. 10 - 20).

VB.NET-Quellcode

Try
' Create an instance of StreamReader to read from a file.
Dim sr As StreamReader = New StreamReader("C:\TEST.log")
Dim line As String
Dim Zaehler
' Read and display the lines from the file until the end
' of the file is reached.
Do
Zaehler += 1
line = sr.ReadLine()
Loop Until line Is Nothing
sr.Close()
Catch E As Exception
' Error MSG
End Try

Kangaroo · 20. März 2013, 15:53

Lass das try..Catch weg, Du willst wissen wenn Fehler auftreten: MemoryExceptions sollten beim zeilenweise Auslesen eh nicht auftreten.

Vom Code und vom Zeitaufwand ist es OK, wo soll jetzt bitte noch gross optimiert werden ? Ein grobes Profiling geht wie gesagt über die Stopwatch-Klasse:

VB.NET-Quellcode

Dim line As String, count As Integer = 0
Dim watch As New Stopwatch : watch.Start()
Using sr As New StreamReader("C:\TEST.log")
While Not sr.EndOfStream
count += 1
line = sr.ReadLine
End While
End Using
watch.Stop() : Debug.Print("Reading {0:N0} lines in {0:N0}ms", count, watch.ElapsedMilliseconds)

Hitch · 20. März 2013, 15:58

Genau hier liegt mein Problem:
in der Variablen line lieg jetzt jeweils immer eine Zeile ab. Wie und am Besten Wo kann ich diese jetzt alle ausgeben?

Kangaroo · 20. März 2013, 16:12

Hitch schrieb:

in der Variablen line lieg jetzt jeweils immer eine Zeile ab. Wie und am Besten Wo kann ich diese jetzt alle ausgeben?

18 mio Zeilen möchtest Du wirklich nirgendwo anzeigen :whistling:

Erst einmal
- bekommst Du dann wirklich Deine Memory Exception
- keiner möchte die wirklich lesen
Eher wirst Du wohl bei Deiner Analyse einen Filter definieren , der Dir zum Beispiel nur die Error Zeilen anzeigt oder Zeilen mit bestimmten von Dir definierten Suchbegriffen.

Wenn ich es noch recht im Kopf habe so braucht die Richtextbox für 1.000 Zeilen ca 1 Sekunde ohne besondere Formatierung, bei den anderen genannte Alternativen sollte es eher etwas schneller gehen.

Wie oben erwähnt kannst Du den Zeitaufwand für die Analysen drastisch verringern, wenn Du nur die seit dem letzten Mal 'neu hinzugekommenen' Logeinträge analysiert.

Eierlein · 20. März 2013, 16:12

in der Variablen line lieg jetzt jeweils immer eine Zeile ab. Wie und am Besten Wo kann ich diese jetzt alle ausgeben?

Wozu ausgeben? Ich denke du willst die Datei analysieren.
Also: Zeilenweise analysieren und dann das Ergebnis der Analyse ausgeben.

Ein (kuzes) Beispiel deiner LOG-Datei und eine Beschreibung, wonach du 'analysieren' willst, wäre nicht verkehrt.

Hitch · 21. März 2013, 10:00

Also die Log-Dateien sehen wie folgt aus:

Quellcode

E: 13/01/13 21:20:35 [SRV] Error while calculating favorite "test" for user test
Process type ()
Error while calculating favorite "test" for user test
Process type ()
.
.
.

Wie gesagt die einzelnen Fehler sind in Gruppen dargestellt unter dem Beispiel "Process type ()" kann noch einiges mehr stehen.

Mein Programm soll nun einen Tag ein einer neuen Log-Datei speichern:

VB.NET-Quellcode

Dim line As String, count As Integer = 0
Dim watch As New Stopwatch : watch.Start()
Dim datum As String = "13/01/13"
Dim neuelog As String
Dim zeilebearbeiten
Using sr As New StreamReader("C:\TEST.log")
While Not sr.EndOfStream
count += 1
line = sr.ReadLine
If line.StartsWith("E:") Or line.StartsWith("I:") Or line.StartsWith("W:") Or line.StartsWith("F:") Then
zeilebearbeiten = line
zeilebearbeiten = zeilebearbeiten.ToString.Substring(3, 8)
If zeilebearbeiten <> datum Then
neuelog = neuelog & vbCrLf & line
Exit While
End If
End If
neuelog = neuelog & vbCrLf & line
End While
End Using
watch.Stop() : Debug.Print("Reading {0:N0} lines in {0:N0}ms", count, watch.ElapsedMilliseconds)

Ich vermute, dass das Speichern der Zeile in der Variablen "neuelog" der Flaschenhals ist.

FreakJNS · 21. März 2013, 14:17

Ja, das bedeutet, dass die neueLog komplett im Speicher liegen musst. Außerdem arbeitest du mit String-Methoden - bei einer solchen größenordung kann es sicher sinnvoll sein den StringBuffer zu verwenden (funktioniert afaik genauso wie String, nur schneller - zumindest hat man uns das in Java eingetrichtert, getestet habe ich es nicht).

Viel wichtiger: Du bearbeitest die Datei Zeile für Zeile - also kannst du relevante Informationen auch Zeile für Zeile in eine andere Datei schreiben. Statt StreamReader einfach einen StreamWriter benutzen um der neueLogFile eine Zeile hinzuzufügen - und erst ganz am Ende .flush aufrufen, so entsteht nur für jede n-te Zeile ein tatsächlicher Schreibvorgang und es sollte sehr schnell sein.

lg

petaod · 21. März 2013, 19:56

Wenn ich dich richtig verstehe, möchtest du eine Log-Datei überwachen.
Das was neu dazu kommt, möchtest du auswerten.
Schau dir mal die tail-Funktion hier an:
codeproject.com/Articles/7568/Tail-NET
Dann brauchst du nicht jedesmal durch die komplette Datei gehen.

Sehr große Log-Dateien verwalten

Sehr große Log-Dateien verwalten

Hitch schrieb:

C-Quellcode

XML-Quellcode

Hitch schrieb:

Hitch schrieb:

VB.NET-Quellcode

VB.NET-Quellcode

Hitch schrieb:

Quellcode

VB.NET-Quellcode

Tags

Ähnliche Themen

4 Benutzer haben hier geschrieben