PDF per OCR scannen und Formatierung beibehalten

HPC · 15. März 2015, 20:29

Hallo Community,

ich habe ein kleines Tool zur Bilanzanalyse von börsennötierten Unternehmen geschrieben und veröffentlicht.
Die größte Hürde für die User ist die Datenerfassung (wie ich mir vorher schon gedacht habe).
Ich hatte die Idee per OCR Tool bestimmte Teile der Geschäftsberichte einzlesen um die Datenerfassung zu erleichtern.
Problem ist aber, dass die Formatierung des PDF's komplett flöten geht und man nach auf jeden Fall noch mal Hand anlegen muss.
Ich habe schon Recherche betrieben, habe aber noch kein Freeware OCR Programm gefunden, welches die Formatierung beibehält.

Habt ihr eventuell den ein oder anderen Tipp für mich?

Gruß
HPC

INOPIAE · 15. März 2015, 21:00

Die erste Frage ist, wie kommst Du denn an die Daten dran bzw. kannst Du EDV lesbare Quellen auftuen?
suWenn es keine eingescante PDF-Datei sondern aus einem Programm heraus erzeugte PDF-Dateien sind könnte man versuchen die mit iTextSharp oder anderen Werkzeugen aus dem NuGet- Bereich an die Daten zu kommen.

HPC · 16. März 2015, 17:55

Die Daten werden von den Unternehmen als PDF veröffentlicht. Die können aber auch verschlüsselt sein. Um das zu umgehen, erstelle ich aus dem PDF ein neues PDF mit den Seitenzahlen, die ich für den Import benötige. Dann lese ich das PDF entsprechend per OCR Tool aus. Hier verschwindet aber wie gesagt die Formatierung.

Gruß
HPC

INOPIAE · 17. März 2015, 09:20

Was verstehst Du unter verschlüsselt?
Wenn ich mir die Schutzmechanismen von PDF-Dateien anschaue, gibt es da 2 Varianten:
1. Zugangsschutz, hier kommt man ohne Kennwort/Schlüssel nicht an die Daten ran
2. Bearbeitungsschutz, hier kommt man an die Daten mit Werkzeugen wie iText dran. Die Daten sind zwar auf Informationslevel verschlüsslet, aber man kommt da dran oder wie glaubst Du kann der Adobe Reader und andere PDF-Viewer diese darstellen.

Vergiss mal Deinen OCR-Ansatz und schaue Dir die PDF-Daten über Schnittstellen mal genauer an.
Davon ausgehend, dass die meisten Dateien nicht als Scan vorliegen, solltest Du Dir einen Parser für die PDF-Dateien schreiben.

PDF per OCR scannen und Formatierung beibehalten

PDF per OCR scannen und Formatierung beibehalten

Tags

Ähnliche Themen

2 Benutzer haben hier geschrieben