Problem mit korrekter Zahlenerkennung Emgu Tesseract OCR

dreama69 · 8. Juni 2015, 10:54

Hallo zusammen,

ich habe folgendes Problem und zwar versuche von meinem Screen Zahlen auszulesen und mit diesen dann weiterzuarbeiten. Tesseract erkennt zwar richtig, wie viele Stellen die Zahl hat und den Tausenderpunkt, jedoch zeigt es mir nur 0 (Nuller) an also zb. bei 7.000 -> 0.000 bei 10.000 -> 00.000.

Code:

Dim OCRz as Tesseract = New Tesseract()
....
OCRz.SetVariable("tessedit_char_whitelist", ".1234567890"
OCRz.Init("tessdata", "eng", false)
OCRz.Recognize(New Image(Of Bgr, Byte)(image)

Das "original Image" (Anhang: Test) ist allerdings ziemlich klein, deswegen habe ich versucht das Image durch:

Dim newsize As New Size(x,y)
Dim resimage As Image = New Bitmap(bmp, newsize)

zu vergrößern (wie auf den angehängten Bildern zu sehen ist). Hab aber leider immer noch das gleiche Problem, dass nur 0 (Nullen) erkannt werden

Muss oder kann ich Tesseract irgendwie trainieren oder anlernen, um diese Zahlen erkennen zu können oder was mache ich falsch? Wäre sehr dankbar wenn mir jemand helfen könnte, langsam bin ich am verzweifeln

Vielen Dank im Voraus schonmal

dreama69 · 8. Juni 2015, 13:55

Das Problem liegt darin, dass Tesseract diese Schriftart nicht erkennt. Wie kann ich die Software anlernen diese Schrift von einem Image zu lesen ?

RodFromGermany · 8. Juni 2015, 13:56

dreama69 schrieb:

diese Schrift

Oder anders herum:
Verwende eine OCR-freundliche Schriftart.

dreama69 · 8. Juni 2015, 14:15

Ich kann aber die Schriftart nicht ändern, da ich versuch die Zahlen aus einem Image auszulesen und nicht aus einem Textdokument !?

RodFromGermany · 8. Juni 2015, 14:16

dreama69 schrieb:

und nicht

Wo kommt denn das Image her?

dreama69 · 8. Juni 2015, 14:23

Aus Emails aber das spielt doch eigentlich keine Rolle, für die Behebung des Problems oder ? Also woher das Image kommt !?
Es muss doch eine Möglichkeit geben das Programm "anzulernen" um die Zahlen von 0 bis 9 aus diesen Bildern herauslesen zu können ? Wie kann es sein dass jede Zahl als 0 angesehen wird ?

Es geht mir auch darum einfach was zu lernen

RodFromGermany · 8. Juni 2015, 14:32

dreama69 schrieb:

das spielt doch eigentlich keine Rolle

Es gibt OCR-freundliche Schriftarten
und
es gibt OCR-unfreundliche Schriftarten.
Wenn diese OCR für Deine Schriftart nicht getuned wurde, hast Du schlechte Karten und steigst besser auf eine OCR-freundliche Schriftart um.

dreama69 · 8. Juni 2015, 14:37

Aber ich kann doch nicht die Schriftart aus einem bestehenden Image ändern ??
Also ist die einzige Möglichkeit die OCR zu tunen oder versteh ich da was falsch ?

Ich hab teilweise auch gelesen bzw. Videos gesehen wo die OCR verbessert wurde um Handschrift zu erkennen zum Beispiel... die Frage ist nur wie das funktioniert ?

Schamash · 8. Juni 2015, 14:40

Mir ist nicht bekannt das du dem neue Schriftarten einfach mal so beibringen kannst.
Also bleibt dir nur die möglichkeit die Quelle der Bilder zu ändern so das eine vernünftige Schriftart beim erstellen der Bilder verwendet wird.

dreama69 · 8. Juni 2015, 14:46

Naja es muss ja nicht unbedingt einfach sein

Und der Aufwand ist ja eh deutlich reduziert, da ich nur Zahlen erkennen muss und nicht das ganze Alphabet + Sonderzeichen ... Hmm die Quelle der Bilder kann ich aber nicht ändern. Die sind wie sie sind ...

RodFromGermany · 8. Juni 2015, 14:50

dreama69 schrieb:

die OCR zu tunen

ist des Anbieters Bier, nicht Deins.
Es sei denn, Du erfindest die OCR für diese Schriftart neu.

dreama69 · 8. Juni 2015, 14:57

code.google.com/p/tesseract-ocr/wiki/TrainingTesseract2

Es muss gehen. Ich versteh das nur nicht so ganz ....aber ich mein Tesseract funktioniert doch so, dass er das Image anhand von einem Sprachpaket / Zeichenpaket oder Vorlage und Mustern oder wie auch immer man das nennen soll vergleicht ? Dann muss es doch auch Möglichkeiten geben selbst so eine "Vorlage" zu erstellen

So ähnlich wie hier :

RodFromGermany · 8. Juni 2015, 15:07

dreama69 schrieb:

Es muss gehen.

Es geht auch.
Die Frage ist, wer macht die Arbeit und wer sorgt dafür, dass das Richtige getan wird.
Hier im Forum wohl niemand.

dreama69 · 8. Juni 2015, 15:16

Ich bräuchte nur Tipps wie ich anfangen soll bzw. wie und wo man das am besten lernen kann...
Wie meinen Sie, dass das Richtige getan wird ?

RodFromGermany · 8. Juni 2015, 15:19

dreama69 schrieb:

das Richtige

reden wir uns hier mit Du an.
müsstest Du eine vorhandene Open-Source-OCR verwenden, und da bräuchte derjenige, der das machen soll, eine Einweisung, wo man ihm sagt, was zu tun ist und wo angefasst werden sollte.

dreama69 · 8. Juni 2015, 15:25

RodFromGermany schrieb:

reden wir uns hier mit Du an.

Okay sry

zu 2. also eine Open-Source-OCR verwend ich ja bereits. Hmm und wo finde ich jemanden, der mir das "beibringen" kann? Es ist ja nicht so, dass ich nicht bereit wäre, dass in irgendeiner Form zu entlohnen

Und ich wollte mal Danke sagen für deine zahlreichen Antworten

RodFromGermany · 8. Juni 2015, 15:29

dreama69 schrieb:

eine Open-Source-OCR verwend ich ja bereits.

Diese Information bereits in Post #16. :rolleyes:

Debugge diese Software, gib ihr Muster vor, sieh Dir den Unterschied an zwischen erkannten und nicht erkannten Zeichen.

dreama69 · 8. Juni 2015, 15:35

?? Die Information ist doch eigentlich schon in Post #1 ??
Hört sich ja leicht an

aber magst du mir nicht noch ein paar weitere Infos oder Tipps geben ? Ich bin noch in der Lernphase

RodFromGermany · 8. Juni 2015, 15:48

dreama69 schrieb:

eigentlich schon in Post #1

Kann ich nicht entdecken.
Da müsste so was stehen wie:

Ich verwende die (Open-Source-) OCR von XYZ.

Das sind ganz wichtige Informationen, die musst Du explizit posten!
Und dann so was:
Gibt es hier User, die damit Erfahrungen haben?
Usw.

dreama69 · 8. Juni 2015, 15:56

Ich verwende EmguCV oder würdest du mir eine andere empfehlen ?
Gibt es hier User, die damit Erfahrungen haben und helfen können ?

Du hast bestimmt Erfahrung darin und kennst dich aus

Ich weiß nur noch nicht so genau, wie ich dich überzeigen kann, mir zu helfen

Problem mit korrekter Zahlenerkennung Emgu Tesseract OCR

Problem mit korrekter Zahlenerkennung Emgu Tesseract OCR

dreama69 schrieb:

dreama69 schrieb:

dreama69 schrieb:

dreama69 schrieb:

dreama69 schrieb:

dreama69 schrieb:

RodFromGermany schrieb:

dreama69 schrieb:

dreama69 schrieb:

Tags

Ähnliche Themen

3 Benutzer haben hier geschrieben