OCR – automatische Texterkennung


Wenn Papierdokumente eingescannt werden, werden sie zunächst als Bild gespeichert. Möchte man den Inhalt also den Text des Dokuments für die Weiterverarbeitung nutzen, muss dieser ausgelesen werden. Selbstverständlich kann ein Mensch die Informationen manuell abtippen, schneller geht es jedoch mit einer OCR-Software.

Was ist OCR?

OCR steht für Optical Character Recognition, also optische Zeichenerkennung. Ein OCR Programm kann aus einer Bilddatei Texte auslesen. So können zum Beispiel aus einem Belegbild Rechnungsinformationen ausgelesen werden. Die extrahierten Texte können dann einer maschinellen Weiterverarbeitung, beispielsweise zur Buchung der Rechnung, zugeführt werden. Eine OCR-Software wandelt somit bildhafte Informationen in recheninterpretierbare Zeichen um. Ein Mensch kann diese Umwandlung durch das Abtippen von Informationen am PC theoretisch auch selbst vornehmen. Die Software schafft es allerdings in deutlich kürzerer Zeit.

Wie funktioniert OCR?

Dem OCR-Programm wird ein Bild vorgelegt, von dem es im ersten Schritt eine Layout-Analyse macht. Dabei werden unter anderem Textblöcke von grafischen Elementen unterschieden. Die Textblöcke wiederum werden in Absätze, Sätze, Wörter und Zeichen, beispielsweise Buchstaben, unterteilt. Das Programm merkt sich, wo welche Textelemente stehen.

Im nächsten Schritt erfolgt die Zeichenerkennung. Mit Hilfe verschiedener Verfahren der Muster- und Merkmalserkennung versucht das Programm die gefundenen Zeichen korrekt zu identifizieren. Jedes Zeichen hat eigene Merkmale, beim E sind es zum Beispiel ein senkrechter und drei waagerechte Striche. Im Zuge der Mustererkennung gleicht die Software gefundene Zeichen mit Zeichen in einer Datenbank ab. Damit das Zeichen als erkannt gilt, muss eine hundertprozentige Übereinstimmung vorliegen. Die Verfahren werden je nach Anbieter des OCR-Programms unterschiedlich kombiniert.

Am Ende erstellt die Software aus den gefundenen Zeichen wieder Wörter und Sätze. Dabei werden integrierte Wörterbücher verwendet, mit denen der erkannte Text abgeglichen werden kann. Das Programm versucht dabei auch grammatikalische Regeln zu berücksichtigen.

Qualität der Texterkennung

Die Qualität der Texterkennung mittels OCR hängt von verschiedenen Faktoren ab. Die wichtigsten sind:

  • Qualität der Layouterkennung
  • Umfang und Qualität der Muster-Datenbank
  • Umfang und Qualität der Wörterbücher
  • Qualität der Algorithmen zur Fehlerkorrektur
  • Farbigkeit, Kontrast, Layout und Schriftart des Originaldokumentes
  • Auflösung und Qualität der Bilddatei

Einsatz von OCR

OCR-Softwares kommen heute in vielen Bereichen zum Einsatz.

  1. Geschäftsdokumente
    Geschäftsdokumente wie Rechnungen, Kontoauszüge oder Quittung können mit OCR-Programmen erfasst werden. Auch Anwälte und Steuerberater nutzen solche Software um gedruckte Gerichtsurteile maschinenlesbar zu machen und leichter durchsuchen zu können.
  2. Verkehrsüberwachung
    Bei der Erkennung von Kennzeichen in der Verkehrsüberwachung kommt ebenfalls OCR-Software zum Einsatz.
  3. Post
    Post- und Paketdienstleister nutzen die automatische Texterkennung zum Sortieren von Briefen und Paketen.
  4. Unterstützung
    Für Menschen mit geringer oder gar keiner Sehkraft können OCR-Programme eine große Hilfe sein.

OCR in der Buchhaltung - automatische Belegerkennung

OCR-Programme sind ein wichtiger Bestandteil erfolgreicher digitaler Buchhaltung. Sie ermöglichen die schnelle und saubere Erfassung von Papierbelegen, beispielsweise Eingangsrechnungen. Der Beleg wird abfotografiert oder eingescannt. Anschließend analysiert das OCR-Programm das Bild, liest die relevanten Informationen heraus und erstellt daraus Textbausteine. Handelt es sich beispielsweise um eine Eingangsrechnung, werden alle wichtigen Rechnungsinformationen herausgelesen. Die Rechnung kann anschließen weiterverarbeitet und beispielsweise direkt bezahlt werden.
Der große Vorteil der automatischen Texterkennung ist ihre Geschwindigkeit. Ein Mensch würde beim manuellen Abtippen deutlich länger brauchen und eventuell auch mehr Fehler einbauen.

Missverständnisse über OCR und elektronische Rechnungsverarbeitung

OCR-Software wird häufig im Rahmen der Rechnungsverarbeitung verwendet. Dabei gibt es ein paar gängige Missverständnisse.

  1. OCR = elektronische Rechnungsverarbeitung
    OCR ist lediglich eine Vorstufe und kann keinesfalls mit der elektronischen Rechnungsverarbeitung gleichgesetzt werden. Mit einer OCR-Software können Rechnungen erfasst und die Daten anschließend in ein System übertragen werden. Die eigentliche Verarbeitung findet erst im Anschluss statt.
  2. OCR ist immer Teil der elektronischen Rechnungsverarbeitung
    Rechnungen lassen sich auch ohne OCR-Software elektronische verarbeiten. Papierrechnungen können beispielsweise auch manuell abgetippt werden. Zudem liegen Rechnungen häufig schon von Anfang an in digitaler Form vor.
  3. OCR macht keine Fehler
    Die automatische Texterkennung ist ein komplexer Prozess und auch eine OCR-Software macht Fehler. Eine Kontrolle bzw. Nachbearbeitung ist daher sinnvoll.

Programme die OCR nutzen

Viele Programme und Buchhaltungssoftwares nutzen OCR für die Texterkennung. Einige Beispiele:

DATEV DMS
Das Dokumenten-Management-System von DATEV arbeitet mit einer integrierten OCR-Software. Die OCR-Volltexterkennung erkennt automatisch die Inhalte aller in DATEV DMS gespeicherten Dokumente und ermöglicht so eine Volltextsuche innerhalb dieser Dokumente. Die Software erkennt zudem Textbausteine in gescannten und abfotografierten Dateien und speichert diese in der Volltextdatenbank ab.

Lexoffice
Die Buchhaltungssoftware Lexoffice arbeitet ebenfalls mit automatischer Texterkennung. Informationen aus Rechnungsbelegen werden in wenigen Sekunden automatisch erfasst und abgespeichert. Die OCR Belegerfassung kann auch als App auf dem Handy oder Tablet verwendet werden.

Eigenständige OCR-Programme
Neben Softwares die OCR integriert haben, gibt es auch Programme die ausschließlich für die automatische Texterkennung konzipiert wurden. Viele sind kostenpflichtig, es gibt aber auch einige Open-Source Softwares. Bekannte OCR-Programme sind beispielsweise gImageReader, Abbyy FineReader oder auch Wondershare.