Digitale Bildverarbeitung

hurricane · 6. November 2014, 10:38

Guten Tag!

Ich stehe vor folgender Herausforderung:

Ich möchte einen periodischen Strom von Bildern hinsichtlich bestimmter Kriterien auslesen und weiterverarbeiten. Und zwar enthält jedes Bild Bereiche, auf denen ein Text abgebildet ist.

Ein Bild besteht ja aus nichts anderem als einer 2-dimensionalen Matrix aus Pixeln mit spezifischen RGB-Werten. Also sollte das Programm in der Lage sein diejenigen Bereiche zu identifizieren innerhalb derer Text vorhanden ist. In einem zweiten Schritt habe ich mir vorgestellt, das direkte Umfeld einer begrenzten Anzahl von Pixeln zu betrachten um darüber einen Rückschluss auf die Art des Zeichens (Buchstabe, Zahl oder Sonderzeichen) zu ermöglichen.

Jetzt die Frage an euch: Klingt das plausibel? Ist das theoretisch technisch machbar?

MfG
hurricane

*Topic verschoben*

Coldfire · 6. November 2014, 10:42

gogle mal nach OCR

RodFromGermany · 6. November 2014, 10:48

@Coldfire Jou.
@hurricane Willkommen im Forum. :thumbup:

Über welche Programmierkenntnisse verfügst Du?

hurricane · 6. November 2014, 10:49

Habe mir im Selbststudium Java und Visual Basic angeeignet. Würde mich aber noch als Anfänger bezeichnen. Vielleicht ist das beschriebene Projekt ja dazu geeignet meine Kenntnisse zu vertiefen!?

RodFromGermany · 6. November 2014, 10:56

hurricane schrieb:

meine Kenntnisse zu vertiefen!?

Würde ich pauschal nicht meinen. Ist die Texterkennung ein tatsächliches Problem oder nur ein Übungsprojekt?

hurricane · 6. November 2014, 10:58

Es ist nicht ein Problem, es ist eine Herausforderung

Zumindest ist das meine Herangehensweise

RodFromGermany · 6. November 2014, 11:13

hurricane schrieb:

Herausforderung

Neu erfinden solltest Du es nicht.
Suche Dir eine DLL, die das kann und für die es eine vernünftige Beschreibung gibt.

ErfinderDesRades · 6. November 2014, 11:29

jepp - in .Net-Programmierung besteht die Herausforderung grade darin, das Rad nicht neu zu erfinden.
Sondern aus der unübersehbaren Menge an Resourcen (OnBord und im Internet) das jeweils rundeste Rad herauszufinden und richtig anzuwenden.

LaMiy · 6. November 2014, 11:57

Du musst wissen, dass das sehr aufwändig ist so etwas selber zu machen.
Möglich ist es aber alle Male.

Im ersten Schritt solltest du dich darum kümmern die Pixel des Bildes zu bekommen.
In C# kann man das über Pointer lösen.

Ich habe dazu mal eine Extension geschrieben. Hier ein Ausschnitt davon.

Spoiler anzeigen

C#-Quellcode

public static unsafe BitmapInformation LockBits(this Bitmap pBitmap)
{
var info = new BitmapInformation();
int width = pBitmap.Width;
int height = pBitmap.Height;
ImageLockMode imageLockMode = ImageLockMode.UserInputBuffer;
// Setting imageLockMode
imageLockMode = imageLockMode | ImageLockMode.ReadOnly;
imageLockMode = imageLockMode | ImageLockMode.WriteOnly;
// Save the bouunds
info.Bounds = new Rectangle(0, 0, width, height);
// Zeiger mit width * height Pixeln anlegen (hier die -1 weglassen! Ist kein VB)
uint[] someBuffer = new uint[width * height];
// someBuffer anpinnen, buffer ist eine neue Variable, auf die du zugreifen kannst
fixed (uint* buffer = someBuffer) //anpinnen
{
BitmapData temporaryData = new BitmapData();
temporaryData.Width = width;
temporaryData.Height = height;
temporaryData.PixelFormat = PixelFormat.Format32bppArgb;
temporaryData.Stride = width * 4;
// Rohdaten-Zeiger auf die Adresse des Arrays legen, damit die Daten dorthin geladen werden
temporaryData.Scan0 = (IntPtr)buffer;
// Daten anfordern, data enthält im Anschluss die Bitmapdaten als Bits
info.BitmapData = pBitmap.LockBits(info.Bounds, imageLockMode, PixelFormat.Format32bppArgb, temporaryData);
info.Buffer = someBuffer;
info.Bitmap = pBitmap;
}
//Zurückgeben
return info;
}

Im nächsten Schritt musst du irgendwie die Konturen finden.
Wenn du ein Bild mit vielen Farben hast musst du eine Segmentierung vornehmen. Dazu gibt es recht viele Algorithmen.

Anschließend musst du schauen dass du die Dimensionen der Buchstaben bekommst.
@~blaze~ Hatte da eine richtig gute Idee für einen Algorithmus.

Wenn ich genauer ins Detail gehen soll, dann kann ich das gern' machen, musst du nur sagen, dann erkläre ich die weiteren Schritte.

Andy16823 · 6. November 2014, 12:15

Das ist aber nicht für Capachas zu Knacken Oder ?

hurricane · 7. November 2014, 10:57

@LaMiy: Könnte ich das Auslesen nicht theoretisch auf der Basis von Soll- / Ist-Vergleichen machen wenn Schriftgrad, -art etc. immer gleich sind?

LaMiy · 7. November 2014, 11:26

@hurricane
Du meinst einen Abgleich mit Pixeln eines Buchstabens, die du schon kennst?
Ja das geht. In dem Sinne bieten sich de.wikipedia.org/wiki/Neuronales_Netz (Neuronale Netzte) an.
codeproject.com/Articles/11285/Neural-Network-OCR
codeproject.com/Articles/3907/…r-Recognition-OCR-applica

Bei dem Thema ist das hier ein richtig geiles Projekt.
codeproject.com/Articles/19616…or-Image-Recognition-in-C

Das beinhaltet sogar Drehung von Buchstaben etc.
Geht aber auch in die höhere Mathematik ein. (Vektoren, komplexe Zahlen)
Das Ergebnis ist aber der Wahnsinn. Extrem schnell und effektiv. (Besser als das vorherige)

Da brauchst du aber auch Einiges an Geduld.
Wenn du es anders machen will, aber trotzdem nicht alles selber kannst du dir mal OpenCV anschauen. Das beinhaltet sehr viele schnelle Methoden zur Bildsegmentierung und Analyse.

Grüße

RodFromGermany · 7. November 2014, 11:27

hurricane schrieb:

immer gleich sind?

Das mag in 90% der Fälle gut gehen, sicher ist das jedenfalls nicht.
Was machst Du, wenn dann genau so was geändert wird?

LaMiy · 7. November 2014, 11:32

RodFromGermany schrieb:

Das mag in 90% der Fälle gut gehen, sicher ist das jedenfalls nicht.

Eine Quote von 90% wäre schon extrem gut für OCR

Digitale Bildverarbeitung

Digitale Bildverarbeitung

hurricane schrieb:

hurricane schrieb:

C#-Quellcode

hurricane schrieb:

RodFromGermany schrieb:

Ähnliche Themen

6 Benutzer haben hier geschrieben