PDF auslesen und sortieren

TeeJay · 22. Juli 2016, 13:52

Hallo liebe Community,

ich möchte folgendes Projekt umsetzten:

Ich habe einen Ordner in dem jeden Tag ca. 200-300 Pdf´s gespeichtert werden. Diese haben mal 2 Seiten und mal 3 oder auch mal 4 Seiten.

Nun möchte ich mittels eines kleines Programmes diese sortieren.

Die pdf´s sollen dann in einen jeweiligen Ordner gespeichert werden. 1. Ordner = PDF mit 2 Seiten, 2. Ordner = PDF mit 3 Seiten usw

1. Frage
Ist das überhaupt umsetzbar?

2. Frage
Wenn ja, wie hoch ist der Aufwand

3. Frage
Kann ich das als absoluter Neuling umsetzen?

Vielen Dank im Voraus für die Hilfe.

LG

petaod · 22. Juli 2016, 14:15

Ob du das kannst und wie lange du brauchst, kann ich dir nicht sagen.
Aber möglich ist es.

Es sind zwei Probleme, die es getrennt zu lösen gilt.
Du musst erst mal das Verzeichnis auf PDF-Files durchsuchen.
Da kann dir DirectoryInfo weiterhelfen.

Dann musst du die PDFs analysieren:
stackoverflow.com/questions/32…er-of-pages-in-a-pdf-file

TeeJay · 22. Juli 2016, 14:38

Ersteinmal Danke für die schnelle Antwort.

Für das erste problem habe ich folgendes erstellt.

Wahrscheinlich totaler Bockmist, aber so kann ich zumindest schon einmal die Datein finden.

VB.NET-Quellcode

Private Sub search_Click(sender As Object, e As EventArgs) Handles search.Click
Dim sFile As String
Dim sPath As String
sPath = "PFAD"
If Not sPath.EndsWith("\") Then sPath += "\"
For Each sFile In My.Computer.FileSystem.GetFiles( _
sPath, FileIO.SearchOption.SearchAllSubDirectories, "*.pdf")
ListBox1.Items.Add(sFile.Substring(sPath.Length))
Next
End Sub

Beim 2. Schritt wird es wohl ein bisschen komplizierter...
Vielleicht kann man mir dort eine kleine Hilfestellung geben.

LG

TeeJay · 22. Juli 2016, 15:58

Kleines Update.

Habe aufgrund von tutorials jetzt einen code mit dem ich in einem Ordner einzelne Dateitypen (.pdf,.jpg,usw) sortieren kann und in jeweils einen neuen Ordner kopiere.

Jetzt muss ich nur anstelle von unterschiedlichen Dateitypen die unterschiedlichen pdf´s verschieben/kopieren können.

D.h. ich muss die werte einer pdf auslesen und den wert der Seitenanzahl in eine Variable schreiben, mit der ich dann sagen kann, alle mit dem und dem wert in einen ordner usw.

Nur mit itextsharp bekomme ich das überhaupt nicht hin.

PDf erstellen geht.

Wäre super, wenn mir einer anhand eines Beispiels oder mit Hilfestellung dort zur Seite stehen kann.

LG

petaod · 22. Juli 2016, 18:11

In dem Link sind doch mindestens 5 verschiedene Ansätze beschrieben.
Wo klemmt's denn?

TeeJay · 22. Juli 2016, 21:50

Ich muss einfach zugeben, dass es meine Möglichkeiten übersteigt. Bin halt aus dem Alter des Lernens heraus

Dachte ich könnte es mit meinem Minimalwissen an vb schaffen. Aber das war wohl ein Irrtum.

Wenn ich mir das angucke, verstehe ich leider nicht so viel...
Wie kann ich dem Programm denn sagen, dass er sich in einem Ordner alle pdfs angucken soll und dann ausgeben, welche dasvon wie viel Seiten haben...-.-

VB.NET-Quellcode

Imports System.IO
Imports System.Text.RegularExpressions
Private Function pageCountPDF(ByRef pdfFile As FileInfo) As Integer
pageCountPDF = 0
If pdfFile.Exists Then
Dim fs As FileStream = New FileStream(pdfFile.FullName, FileMode.Open, FileAccess.Read)
Dim sr As StreamReader = New StreamReader(fs)
Dim pdfMagicNumber() As Char = "0000".ToArray
sr.Read(pdfMagicNumber, 0, 4)
If pdfMagicNumber = "%PDF".ToArray Then
Dim pdfContents As String = sr.ReadToEnd()
Dim rx As Regex = New Regex("/Type\s/Page[^s]")
Dim match As MatchCollection = rx.Matches(pdfContents)
pageCountPDF = match.Count
Else
Throw New Exception("File does not appear to be a PDF file (magic number not found).")
End If
Else
Throw New Exception("File does not exist.")
End If
End Function

Danke trotzdem für die Hilfe.
Ich werde mich wohl geschlagen geben müssen und jemanden Fragen, ob er das für mich macht^^

LG

Fakiz · 23. Juli 2016, 00:38

Kleines Beispiel.

Spoiler anzeigen

VB.NET-Quellcode

''' <summary>
''' Sortiert PDF Dateien in einem Ordner anhand iherer Seitenanzahl
''' </summary>
''' <param name="di">DirectoryInfo -Objekt das den Ordner mit den PDF -Dateien, die sortiert werden sollen, repräsentiert</param>
Private Sub SortPDF(di As DirectoryInfo)
For Each pdf As FileInfo In di.GetFiles("*.pdf", SearchOption.AllDirectories)
MovePdf(di, pdf, PdfHelper.GetPageCount(pdf))
Next
End Sub
''' <summary>
''' Verschiebt eine PDF -Datei in einen Ordner, mit dem Namen der Seitenanzahl, dieser PDF
''' </summary>
''' <param name="rootDirectory">Das Root -Verzeichniss in dem die Ordner für die Sortierung der PDF -Dateien erstellt werden sollen</param>
''' <param name="pdf">FileInfo -Objekt das die gegenwärtige PDF -Datei repräsentiert</param>
''' <param name="pageCount">Seitenanzahl der gegenwärtigen PDF</param>
''' <returns>True wenn verschieben der PDF abgeschlossen wurde</returns>
Private Function MovePdf(rootDirectory As DirectoryInfo, pdf As FileInfo, pageCount As Integer) As Boolean
' Erstellen eines DirectroyInfo -Objekts das den Speicherort für die jeweilige PDF repräsentiert
Dim savePath As New DirectoryInfo(Path.Combine(rootDirectory.FullName, pageCount.ToString()))
' Prüfen ob der Ordner für die jeweilige Seitenanzahl der PDF bereits existiert, wenn nicht wird dieser Ordner erstellt
If Not savePath.Exists Then
savePath.Create()
End If
' Verschieben der PDF in den Zielordner
pdf.MoveTo(Path.Combine(savePath.FullName, pdf.Name))
' Methode verlassen
Return True
End Function

VB.NET-Quellcode

Imports System.Text.RegularExpressions
Imports System.IO
Public NotInheritable Class PdfHelper
' RegularTextExpression
Private Shared regx As Regex
' Konstruktor
Shared Sub New()
regx = New Regex("/Type\s*/Page[^s]")
End Sub
''' <summary>
''' Ermittelt mittels RegularExpression die Seitenanzahl einer PDF
''' </summary>
''' <param name="pdf">System.IO.FileInfo -Objekt der PDF Datei</param>
''' <returns>Int32 Seitenanzahl</returns>
Public Shared Function GetPageCount(pdf As System.IO.FileInfo) As Integer
Using fs As New FileStream(pdf.FullName, FileMode.Open, FileAccess.Read, FileShare.Read)
Using sr As New StreamReader(fs)
Dim matches As MatchCollection = regx.Matches(pdf.FullName)
Return matches.Count
End Using
End Using
End Function
End Class

petaod · 23. Juli 2016, 10:10

TeeJay schrieb:

Bin halt aus dem Alter des Lernens heraus

Ich habe keine Ahnung wie alt du bist.
Aber das klingt nicht gut.
Diese Aussage darf eigentlich frühestens kommen, wenn die Demenz schneller ist als die Lernfähigkeit.
Insofern wünsche ich dir, dass du nie aus dem Alter des Lernens herauskommen wirst.

Aber @Fakiz hat dir ja eine schöne C&P-Lösung präsentiert.
Wenn du sie jetzt noch zu verstehen versuchst, hast du was gelernt.

Die Methode funktioniert übrigens nur bei unverschlüsselten bzw. ungeschützten PDFs.
Ansonsten musst du doch auf eine der Bibliotheken zugreifen.

TeeJay · 25. Juli 2016, 11:42

Vielen Dank an @Fakiz, ich bin dabei das ganze zu verstehen.

Mein Problem gerade ist, dass er die PDF findet und auch verschiebt, nur erstellt er immer nur einen Ordner mit 0 und schiebt da alle PDF´s rein. Obwohl dort auch pdfs mit mehr Seiten sind...

Weiß nicht woran es liegen könnte.

Fakiz · 25. Juli 2016, 12:43

Dann passt die Regex nicht.

TeeJay · 25. Juli 2016, 13:31

Gut, wie baue ich das ganze denn Sinnvoll ein, damit all das mit einem Klick auf einen Button passiert?

Bei der Regex wüsste ich jetzt nicht, was ich da noch ändern müsste....

Fakiz · 25. Juli 2016, 18:43

wie baue ich das ganze denn Sinnvoll ein

Hier kommt nun das Verständiss ins Spiel. Du hast in meinem Beispiel 1 Klasse und 2 Methoden (SortPDF & MovePdf). Methoden lassen sich mit dem Namen der jeweiligen Methode aufrufen (ganz einfach gesagt).
Das heisst du musst in deinem Button_Click -Event den Namen der Methode eingeben inkl. eines DirectoryInfo -Objekts des Ordners mit den PDF´s.

Bei der Regex wüsste ich jetzt nicht, was ich da noch ändern müsste

Vermutlich garnichts, ich hab mal kurz im Internet nach dem Problem gesucht. Dort habe ich gelesen das das Problem bei PDF´s >= vers. 1.6 auftritt. Du müsstest also wie @petaod schon sagte auf eine Bibliotheken zurück greifen.

TeeJay · 26. Juli 2016, 10:04

Versuche mich gerade an den Bibliotheken. Bei itextsharp gibt es halt nur Dokus und Beispiele im Bereich c#. Habe dort sogar ein fertiges rogramm gefunden, welches via Drag and drop mir PDF´s ausliest. Nur leider nicht Sortieren kann, sondern schlicht weg die Seiten ausliest.

Gibt es für itextsharp eine Lösung für vb.net?

Hier der Link zu dem Prog.:
codeproject.com/Articles/832675/PDF-Page-Counter

petaod · 26. Juli 2016, 10:36

TeeJay schrieb:

eine Lösung für vb.net

lässt sich ganz einfach selbst erstellen.
C# und VB.net sind fast vollständig konvertierbar.
converter.telerik.com/

PDF auslesen und sortieren

PDF auslesen und sortieren

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

VB.NET-Quellcode

TeeJay schrieb:

TeeJay schrieb:

Ähnliche Themen

3 Benutzer haben hier geschrieben