Suche String in mehreren PDF

Dr_Gre · 5. Mai 2018, 09:17

Hallo,

ich suche nach einer einfachen Methode um in VB eine Reihe von PDFs nach einem string zu durchsuchen.
Am Ende brauche ich eigentlich nur einen Bool mit der Antwort - Ja, diese PDF enthält den gesuchten String.
Ich will die PDF nicht via Visual Basic anzeigen und brauche auch nicht unbedingt den genauen Ort des Strings in der PDF

VB.NET-Quellcode

Dim suchtext as String = "Test"
For Each foundFile As String In My.Computer.FileSystem.GetFiles(".\Ordner_in_dem_alle_PDF_sind")
'hier muss in PDF selbst gesucht werden
Next

Gibt es so eine Möglichkeit?
Vielen Dank!!

*Topic verschoben*

Cheffboss · 5. Mai 2018, 12:11

VB.NET-Quellcode

Private Sub Button1_Click(sender As Object, e As EventArgs) Handles Button1.Click
Dim suchtext As String = "Sender"
For Each foundFile As String In IO.Directory.GetFiles("G:\Downloads\Ebooks", "*.pdf", IO.SearchOption.AllDirectories)
Dim file As New System.IO.FileInfo(foundFile)
If file.Name.Contains(suchtext) Then
MsgBox(file.FullName) ' Hier!
End If
Next
End Sub

Hilft dir das weiter?

petaod · 5. Mai 2018, 13:27

1) Warum postest du im VBA-Forum?
2)

Dr_Gre schrieb:

'hier muss in PDF selbst gesucht werden

Meinst du damit, dass die Dateinamen den Text enthalten sollen oder willst du den Inhalt der PDF-Dateien durchsuchen?

Dr_Gre · 5. Mai 2018, 13:39

Hallo,

danke für die Antwort! Das Skript durchsucht ja nur die Filenamen, oder?
Ich meinte eigentlich dass ich alle PDF durchsuche (den Inhalt der PDF) ob der String vorkommt.
Ist das irgendwie möglich?

Cheffboss · 5. Mai 2018, 14:58

@Dr_Gre
Der Code durchsucht nur die Dateinamen.
Die PDF-File Als ganzes zu durchsuchen, ist auch irgendwie möglich!
Dies ist aber sehr kompliziert, da kann ich dir leider nicht weiterhelfen.

petaod · 6. Mai 2018, 11:13

Trivial ist es nicht, aber machbar.

Ich habe hier mal den Ansatz für einen PDF-Parser mit Hilfe von iTextSharp veröffentlicht.
Schau dir mal den Code im Spoiler an.

7081 · 6. Mai 2018, 11:14

Moin,

ich hole mir für sowas den OCR-Text der PDF mit iTextSharp (sourceforge.net/projects/itextsharp/) und der Funktion:

VB.NET-Quellcode

Public Shared Function GetOCRText(P_File As String) As String
Dim sb_Text As New StringBuilder
If File.Exists(P_File) Then
Using v_PDFReader As New PdfReader(P_File)
For v_page As Integer = 1 To v_PDFReader.NumberOfPages
Dim v_Strategy As ITextExtractionStrategy = New SimpleTextExtractionStrategy
Dim v_currentText As String = PdfTextExtractor.GetTextFromPage(v_PDFReader, v_page, v_Strategy)
v_currentText =
Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default],
Encoding.UTF8, Encoding.[Default].GetBytes(v_currentText)))
sb_Text.Append(v_currentText)
Next
v_PDFReader.Close()
End Using
End If
Return sb_Text.ToString
End Function

(Auch hier iwo gefunden)
Einfach für jede Datei laufen lassen, den Ergebnisstring durchsuchen und auf Treffer reagieren.

Gruß
7081

petaod · 6. Mai 2018, 11:25

7081 schrieb:

SimpleTextExtractionStrategy

Ja.
Für einfache Texte geht das ganz gut.
Ggf. hilft auch LocationTextExtractionStrategy.
Nur manchmal sind die PDFs auch ziemlich tricky.
Da hilft dann unter Umständen nur, die PDF-Tags detailliert zu parsen (s.o.).

Und wenn es sich um Scans handelt, die nur Bilder beinhalten, hilft in der Regel nur, erst eine OCR-Erkennung drüber laufen zu lassen.

Dr_Gre · 6. Mai 2018, 11:50

Hallo,

danke für die Antworten!
Es handelt sich bei den PDFs um wissenschaftliche Paper - sind also nahezu nie / vernachlässigbare Anzahl an Scans.
Die meisten PDFs bestehen nur aus viel Text mit ein paar Bildern/Diagrammen.

Meine derzeitige Umgehungsstrategie ist:
1. Jedes neu hinzugefügte PDF automatisch einmalig im VisualBasic Webbrowser öffnen
2. Manuell den gesamten Text markieren + kopieren und automatisch in separate .txt File (für jede PDF eine File) speichern
3. Beim Filtern nach den Schlagworten werden simpel die .txt Files durchsucht und die gesuchten PDF in eine ListBox ausgegeben

Das funktioniert bisher einwandfrei, und geht für eine PDF-Anzahl im zwei- bis niedrig dreistelligen Bereich super.
Wenn ich das ganze professioneller lösen will (ohne manuelles markieren und kopieren) komme ich vermutlich um iTextSharp nicht herum, oder?

Danke!!!

7081 · 6. Mai 2018, 12:04

Dr_Gre schrieb:

2. Manuell den gesamten Text markieren + kopieren

Wenn das Kopieren und Einfügen zuverlässig klappt, sollte die Funktion, die ich gepostet habe, den Text ohne Probleme zurückgeben können.

Suche String in mehreren PDF

Suche String in mehreren PDF

VB.NET-Quellcode

VB.NET-Quellcode

Dr_Gre schrieb:

VB.NET-Quellcode

7081 schrieb:

Dr_Gre schrieb:

Tags

Ähnliche Themen

4 Benutzer haben hier geschrieben