PDF Text extrahieren (iTextSharp)

  • VB.NET

    PDF Text extrahieren (iTextSharp)

    Liebe VB Community,

    ich versuche momentan in meinem VB Programm von einigen wenigen PDF automatisiert den Text zu extrahieren.
    Dabei bin ich auf iTextSharp gestoßen, was auch super funktioniert wenn man es als NuGet einbindet:

    Quellcode

    1. Dim reader As New iTextSharp.text.pdf.PdfReader("FileXYZ".pdf")
    2. Dim result As String = ""
    3. For i As Integer = 1 To reader.NumberOfPages
    4. result = result + iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, i) + " "
    5. Next
    6. TextBoxContent.Text = result


    Das Problem ist jetzt, dass iTextSharp unter dieser seltsamen AGPL License mit Copyleft steht.
    Ich will mein Progamm jetzt nicht verkaufen oder so, lediglich gratis im Internet anbieten und will dann nicht in Bedrängnis kommen.
    Als möglichen Lösungsweg habe ich gefunden, dass man die DLL nicht direkt mit anbietet beim Programmdownload, sondern nur darauf hinweist dass man diese optional zusätzlich laden kann (was das Programm natürlich effizienter macht).

    Jetzt meine Frage:
    Gibt es eine gute Alternative (open License oder dergleichen) zu iTextSharp?
    Oder gibt es überhaupt eine simple Möglichkeit lediglich Text aus einer PDF zu extrahieren ohne ein externes Tool / DLL (egal welche Programmiersprache)?

    Vielen Dank für jegliche Hilfe!!!

    Lg