PDF per OCR scannen und Formatierung beibehalten

Es gibt 3 Antworten in diesem Thema. Der letzte Beitrag () ist von INOPIAE.

    PDF per OCR scannen und Formatierung beibehalten

    Hallo Community,

    ich habe ein kleines Tool zur Bilanzanalyse von börsennötierten Unternehmen geschrieben und veröffentlicht.
    Die größte Hürde für die User ist die Datenerfassung (wie ich mir vorher schon gedacht habe).
    Ich hatte die Idee per OCR Tool bestimmte Teile der Geschäftsberichte einzlesen um die Datenerfassung zu erleichtern.
    Problem ist aber, dass die Formatierung des PDF's komplett flöten geht und man nach auf jeden Fall noch mal Hand anlegen muss.
    Ich habe schon Recherche betrieben, habe aber noch kein Freeware OCR Programm gefunden, welches die Formatierung beibehält.

    Habt ihr eventuell den ein oder anderen Tipp für mich?

    Gruß
    HPC
    Die erste Frage ist, wie kommst Du denn an die Daten dran bzw. kannst Du EDV lesbare Quellen auftuen?
    suWenn es keine eingescante PDF-Datei sondern aus einem Programm heraus erzeugte PDF-Dateien sind könnte man versuchen die mit iTextSharp oder anderen Werkzeugen aus dem NuGet- Bereich an die Daten zu kommen.
    NB. Es ist doch schön, wenn man lesbare Namen vergibt. Siehe auch [VB.NET] Beispiele für guten und schlechten Code (Stil).
    Die Daten werden von den Unternehmen als PDF veröffentlicht. Die können aber auch verschlüsselt sein. Um das zu umgehen, erstelle ich aus dem PDF ein neues PDF mit den Seitenzahlen, die ich für den Import benötige. Dann lese ich das PDF entsprechend per OCR Tool aus. Hier verschwindet aber wie gesagt die Formatierung.

    Gruß
    HPC
    Was verstehst Du unter verschlüsselt?
    Wenn ich mir die Schutzmechanismen von PDF-Dateien anschaue, gibt es da 2 Varianten:
    1. Zugangsschutz, hier kommt man ohne Kennwort/Schlüssel nicht an die Daten ran
    2. Bearbeitungsschutz, hier kommt man an die Daten mit Werkzeugen wie iText dran. Die Daten sind zwar auf Informationslevel verschlüsslet, aber man kommt da dran oder wie glaubst Du kann der Adobe Reader und andere PDF-Viewer diese darstellen.

    Vergiss mal Deinen OCR-Ansatz und schaue Dir die PDF-Daten über Schnittstellen mal genauer an.
    Davon ausgehend, dass die meisten Dateien nicht als Scan vorliegen, solltest Du Dir einen Parser für die PDF-Dateien schreiben.
    NB. Es ist doch schön, wenn man lesbare Namen vergibt. Siehe auch [VB.NET] Beispiele für guten und schlechten Code (Stil).