DuplicateFinder | Version: 1.0

Dodo · 16. Juni 2012, 00:47

Name des Programms:
DuplicateFinder

Beschreibung:
Der DuplicateFinder durchsucht rekursiv einen vom User gewählten Ordner und filtert nach doppelten Dateien, die allerdings auch unterschiedlich heißen können. Die Dateien werden mittels einem Sha1-Hash verglichen und anschließend aufgelistet. Dort kann man manuell oder automatisch die doppelten Dateien markieren und sie anschließen löschen lassen. Mit Rechtsklick auf eine Zeile kann man die Datei öffnen.

Screenshot(s):

Verwendete Programmiersprache:
Visual Basic.NET (IDE: VB 2008)

Systemanforderungen:
.NET Framework 2.0

Download:
DuplicateFinder.rar (112 KB / 1,14MB)

Lizenz/Weitergabe:
Freeware, Closed Source

Pinki · 16. Juni 2012, 03:14

Getestet: Funktioniert einwandfrei! Bin meinem Bilder Ordner durchgegangen(~1.000 Dateien), hat super funktioniert ;).

Kleiner Tipp zur Geschwindigkeit: Wie wäre es erst mit CRC32 zu prüfen und wenn ein Duplikat gefunden wurde noch einmal mit SHA-1 Hash prüfen(Um Kollision gering zu halten).
Würde die Geschwindigkeit etwas erhöhen.

~~Eine Option um alle Unterordner mit einzubeziehen wäre auch noch ein schöner Zusatz :>~~

AliveDevil · 16. Juni 2012, 09:20

Rekursive Dateisuche = alle Unterordner
Ansonsten: nettes Programm. Blockiert mir aber die Festplatte wenn ich meinen Dateien-Ordner (>200GB, >4k Dateien) durchsuche -> kann keine Musik mehr hören

Solltest evtl. die Lesegeschwindigkeit anpassen.
Außerdem: bei einer Datei die groß genug ist (>4 GB)

Beim Klick auf "Cancel" und dem Beenden der Anwendung blieb der Prozess noch erhalten.
Nachtrag: Außerdem weiß ich, dass ich bei knapp 4k Dateien (die untersucht wurden) keine 500 Duplikate habe.

Manawyrm · 16. Juni 2012, 09:48

SHA1 Hash von jeder Datei dürfte extrem langsam sein.

Wie wärs, wenn du erstmal nur Bytegenau die Dateigröße vergleichst, und wenn diese übereinstimmt, dann ne sha1 hash errechnest

Dodo · 16. Juni 2012, 09:55

Das mit dem CRC32 könnte ich mir mal ansehen bzw. könnte ich dieses Prinzip auch einfach auf die sha1 Funktion anwenden, einfach erstmal einen festen Buffer (4096 Bytes) auslesen und nur bei einer Kollision von beiden Dateien den sha1-Hash bilden, das eigentlich eine gute Idee.

Nunja, das die Festplatte blockiert wird lässt sich glaube ich nicht vermeiden, da eben jede Datei angefasst und eben via ReadAllBytes() eingelesen wird.
Ebenso dass das Programm soviel RAM verbraucht, weil die Datei ja in eine Variable gelesen wird um sie dem Sha1ProviderService zuzuweisen. Aber mit der CRC32 bzw. festen Buffer auslesen anpassung, dürfte sich das auch erledigen denke ich.

Hast du Cancel beim Durchsuchen der Dateien oder beim suchen der Duplikate gedrückt? Sind 2 verschiedene Abläuft, erstmal werden alle Ordner nach Dateien durchsucht und danach wird die Liste der Dateien druchgegangen, der Hash erstellt und nach Duplikaten gesucht.

Wenn wirklich 500 Duplikate gefunden wurden, hast ja die Möglichkeit in der Result Liste nachzusehen ob es wirklich Duplikate sind, alle Duplikate sind immer Farblich abwechselnt Gruppiert. Als ich mein Bilderordner durchsucht habe, waren alle Duplikate wirkliche Duplikate.

@Manawyrm: das auch eine super Idee ... man war wohl gestern zu spät das ich auf so einfache Sachen nicht gekommen bin

Also mache ich erst Dateigröße, bei Kollision CRS32 der ersten 4096 Bytes, bei eine Kollision dort den SHA1.

AliveDevil · 16. Juni 2012, 10:00

nein lass das mit CRC von 4k. Bei Anwendungen ist afaik in den ersten 4k der Block von wegen "This program cannot run in dos mode" das ist in jeder Anwendung gleich!
Gilt auch für Bibliotheken.

Hast du Cancel beim Durchsuchen der Dateien oder beim suchen der Duplikate gedrückt

Duplikate.

hast ja die Möglichkeit in der Result Liste nachzusehen ob es wirklich

a) ich hab cancel, b) das Programm lief mit 4 GB Arbeitsspeicher nicht weiter
ergo keine Resultlist

Dodo · 16. Juni 2012, 10:23

Achso? hmm okay, da muss ich nochmal dran.

Aber das mit den ersten Bytes hast du schon recht, vlt. nehme ich dann einfach die ersten und letzten Bytes um sicher zu gehen, aufjedenfall nicht die ganze Datei einlesen.

BjöNi · 16. Juni 2012, 11:24

Hm... Ich hab mal dein Programm und AllDup (was ich sonst immer nehme) den gleichen Ordner durchsuchen lassen, bei AllDup hatte ich folgende Suchmethode eingestellt: "Dateiinhalt (Byte für Byte)" mit der Option "Zuerst einen Datenblock am Ende der Dateien vergleichen. Blockgröße: 100000 Bytes".
Ergebnis: AllDup: 8 Sekunden: 93 Duplikate
Dein Programm: 29 Sekunden: 53 Duplikate
Ich weiß nicht, was jetzt richtig von den beiden Ergebnissen ist...

Pinki · 19. Juni 2012, 22:17

Noch etwas kleines: Wie wäre es mit Drag&Drop für Pfad auswählen? Also einen Ordner bei "Select folder" drauf ziehen und den Pfad übernehmen :>

bla · 21. Juni 2012, 09:56

[Window Title]
DuplicateFinder

[Main Instruction]
DuplicateFinder funktioniert nicht mehr

[Content]
Das Programm wird aufgrund eines Problems nicht richtig ausgeführt. Das Programm wird geschlossen und Sie werden benachrichtigt, wenn eine Lösung verfügbar ist.

[Programm schließen]

Dodo · 21. Juni 2012, 10:40

O.o

Betriebsystem? 32 od. 64 Bit??

MarcoIT · 21. Juni 2012, 10:59

Genau das selbe auch bei mir.
32-bit system.
Einfach abgeraucht hat aber nur 9k im tskmng verbraucht

EDIT: was mir aber gefällt ist, dass er auch Netzlaufwerke durchsuchen kann

Dodo · 21. Juni 2012, 13:27

Nun wieso sollte er das nicht können? Sind doch gar normale Ordner.

Was hat das Programm denn schon gemacht? Also bei welchem Schritt hängt es? Hats dateien schon gesucht oder nach dem Pfad auswählen gar nichts?

bla · 21. Juni 2012, 15:02

es hat so bis 40% gelaufen (von ~60000 Dateien)

Win7 64bit

MarcoIT · 22. Juni 2012, 12:40

Ich hab einen Ordner ausgewählt, in dem Falle war es der Ordner C:\Testdateien den ich angelegt habe mir gerade mal 140 dateien versehn habe.

pc-freack · 23. Juni 2012, 08:40

Ich wollte mal zum test einfach meinen Benutzer Ordner überprüfen
und dann stürzte die Anwendung plötzlich ab beim Durchsuchen, glaube ich.

StarGate01 · 23. Juni 2012, 09:33

Bei einem Klick auf suchen kommt bei mir: "DublicateFinder hat ein Problem festgestellt....etc"

Ein Klick auf den Debug-Knopf liefert folgende Info:
Unbehandelte Ausnahme (System.UnauthorizedAccessException) in DublicateFinder.exe [5516]

Beim Debuggen der exe in Visual Studio 2008 kommt:
UnauthorizedAccessException wurde nicht behandelt: Der Zugriff auf den Pfad "C:\Users\*ZENSIERT*\Anwendungsdaten" wurde verweigert.

oder beim durchsuchen von ganz C:\:
Der Zugriff auf den Pfad "C:\$Recycle.Bin\S-1-5-20" wurde verweigert.

Offensichtlich wird deinem Programm der Zugang zu einigen Dateien verwehrt.
Auch ein Start als Admin löst das Problem nicht. (auch wenn er mehr Dateien duchsucht als davor bis er abstürzt)

Nun eine Gute Nachricht: In nicht geschüzten Bereichen, wie Unterverzeichnissen des Benutzerordners geht es einwandfrei!
Dort war mir das Programm echt eine große Hilfe!

Viel Erfolg noch!

Dodo · 23. Juni 2012, 10:01

Ah, da muss ich wohl erstmal die Permissions der Ordner checken, habe ich glaub vergessen, wird auf die ToDo liste gepackt

picoflop · 27. Juni 2012, 11:15

bsp:

Spoiler anzeigen

VB.NET-Quellcode

Imports AsyncCtpExtensions
Imports System.Threading
Imports System.Threading.Tasks
Imports System.Security.Cryptography
Public Class Form1
Private Sub Form1_Load(sender As System.Object, e As System.EventArgs) Handles MyBase.Load
End Sub
Private Async Function GetFiles(ByVal p As String) As Task(Of Tuple(Of List(Of IO.FileInfo), Integer, Long))
Dim path = p
Dim a = Await Task.Factory.StartNew(Of List(Of IO.FileInfo))(New Func(Of List(Of IO.FileInfo))(Function()
Return (From s In IO.Directory.GetFiles(path) Select New IO.FileInfo(s)).ToList
End Function))
Dim size As Long = (From fi In a Select fi.Length).Sum
Return New Tuple(Of List(Of IO.FileInfo), Integer, Long)(a, a.Count, size)
End Function
Private Async Function GetHashes(ByVal l As List(Of IO.FileInfo), ByVal numtasks As Integer) As Task(Of Dictionary(Of String, String))
Dim TaskList As New List(Of Task(Of Tuple(Of String, String)))
Dim q As New Queue(Of IO.FileInfo)(l)
' fill initial tasks
For i = 1 To numtasks
If q.Count = 0 Then Exit For
Dim s As String = q.Dequeue.FullName
Debug.Print(s)
Dim t As Task(Of Tuple(Of String, String)) = (New TaskFactory(Of Tuple(Of String, String))).StartNew(New Func(Of Tuple(Of String, String))(Function() As Tuple(Of String, String)
Dim sha As New SHA256Managed
Using fs As New IO.FileStream(s, IO.FileMode.Open, IO.FileAccess.Read, IO.FileShare.Read, 1 << 20)
Dim b() As Byte = sha.ComputeHash(fs)
Dim sb As New System.Text.StringBuilder
For Each bt In b
sb.Append(bt.ToString("X2"))
Next
Return New Tuple(Of String, String)(s, sb.ToString)
End Using
End Function))
TaskList.Add(t)
Next
Dim results As New Dictionary(Of String, String)
Do
Dim t As Task(Of Tuple(Of String, String)) = Await TaskEx.WhenAny(TaskList)
results.Add(t.Result.Item1, t.Result.Item2)
TaskList.Remove(t)
If q.Count > 0 Then
Dim s As String = q.Dequeue.FullName
Debug.Print(s)
TaskList.Add((New TaskFactory(Of Tuple(Of String, String))).StartNew(New Func(Of Tuple(Of String, String))(Function() As Tuple(Of String, String)
Dim sha As New SHA256Managed
Using fs As New IO.FileStream(s, IO.FileMode.Open, IO.FileAccess.Read, IO.FileShare.Read, 1 << 20)
Dim b() As Byte = sha.ComputeHash(fs)
Dim sb As New System.Text.StringBuilder
For Each bt In b
sb.Append(bt.ToString("X2"))
Next
Return New Tuple(Of String, String)(s, sb.ToString)
End Using
End Function)))
End If
Loop Until TaskList.Count = 0
Return results
End Function
Private Async Sub Button1_Click(sender As System.Object, e As System.EventArgs) Handles Button1.Click
Dim d As New FolderBrowserDialog
If d.ShowDialog() = Windows.Forms.DialogResult.OK Then
Dim tpl = Await GetFiles(d.SelectedPath)
Debug.Print("Getting Hashes ...")
Dim stp = Stopwatch.StartNew
Dim lst = Await GetHashes(tpl.Item1, CInt(NumericUpDown1.Value))
stp.Stop()
For Each k In lst
Debug.Print(k.Key & " : " & k.Value)
Next
Debug.Print(New String("-"c, 30))
Dim bps As Long = (tpl.Item3 \ (1 << 20) \ stp.ElapsedMilliseconds) * 1000
Debug.Print("Files: {0}, MB: {1}, MB/s: {2}", tpl.Item2, (tpl.Item3 >> 20), CDbl(tpl.Item3 \ (1 << 20)) / (CDbl(stp.ElapsedMilliseconds) / 1000.0#))
End If
End Sub
End Class

output (i7-2600 und je 8 Tasks):

Quellcode

Files: 187, MB: 37, MB/s: 17.5939134569662 | Bilder jpg
Files: 17, MB: 3694, MB/s: 93.5237227201377 | Video mpg
Files: 66, MB: 3438, MB/s: 79.0799309948246 | Video mpg
Files: 498, MB: 12342, MB/s: 23.8714169664616 | Downloadverzeichnis
Files: 51, MB: 45, MB/s: 25.1396648044693 | Bilder jpg

Im Download-Verzeichnis sind überwiegend kleine und ein paar sehr große Dateien. Ansonsten sieht man, wie die Geschwindigkeit bei größeren Datein besser ist.

Kannst du bei deinem Code auch rauswerfen, wie viel MB/s er verarbeitet?

Dodo · 27. Juni 2012, 11:30

O.o oh cool danke ... aber das is FW 4.0 und ich möchte ja dass das Prog schnell benutzt werden kann und nicht erstmal ein FW heruntergeladen werden muss. Speziell habe ichs ja für ne Freundin geschrieben die unkoordiniertes Backup hat und eben auf ihrer Externen jede menge Daten doppelt. Ebenso hat sie nur langsames INet und sich da das FW runterladen was ja einige MBs sind möcht ich ihr dann nicht noch zumuten.

Aber vlt. mache ich 2 Versionen, aber erstmal ein Code analysieren, LINQ und die neuen FW 4.0 Funktionen sind für mich ja noch ein Rätsel

DuplicateFinder | Version: 1.0

DuplicateFinder | Version: 1.0

VB.NET-Quellcode

Quellcode

Tags

Ähnliche Themen

10 Benutzer haben hier geschrieben