skip to Main Content

Entwicklung eines Modellrepositoriums und einer automatischen Schriftarterkennung für OCR-D

Leitung institutsintern: Dr. Nikolaus Weichselbaumer
Projektstatus: laufend
Projektdauer: 2018-2019
Arbeitsgruppe: Dr. Saskia Limbach (JGU Mainz), Prof. Dr.-Ing. habil Andreas Meier (FAU Erlangen), Dr. Vincent Christlein (FAU Erlangen), Mathias Seuret (FAU Erlangen), Prof. Dr. Gregory Ralph Crane (Universität Leipzig)
Drittmittelgeber: DFG

Abstract
Eine der größten Herausforderungen für die Texterkennung (OCR) von frühen Drucken ist die hohe Vielfalt von unterschiedlichen Schriftarten, die sich nach der Erfindung Gutenbergs herausbildeten. Ziel des Projektes ist es – in enger Zusammenarbeit von Buchwissenschaft und Mustererkennung – die hohe Anzahl von Schriftarten sinnvoll zu gruppieren und eine Online-Trainingsinfrastruktur zu entwickeln, die es ermöglicht verschiedene OCR-Software für diese Gruppen zu trainieren. Zusätzlich soll sowohl ein Tool entwickelt werden, welches automatisch Schriftarten in Bilddigitalisaten historischer Drucke erkennt, als auch ein Modellrepositorium, in dem bereits erarbeitete schriftartspezifische OCR-Modelle der Forschungsgemeinschaft zur Verfügung gestellt werden.

Vorgehen
Als Grundlage zur Gruppierung der zahlreichen Schriftenarten dient das von Konrad Haebler begründete Typenrepertorium der Wiegendrucke, welches nun durch die Staatsbibliothek zu Berlin als Datenbank zugänglich gemacht wurde. Es verzeichnet über 6.000 verschiedene Drucktypen, die im 15. Jahrhundert verwendet wurden, und die heute systematisch einer bzw. mehreren Ausgaben zugeordnet werden können. Durch Verknüpfungen zum Gesamtkatalog der Wiegendrucke (GW) kann diese große Menge an Typen insgesamt mehr als 15.000 Digitalisaten zugeordnet werden, wodurch das Typenrepertorium einen hervorragenden Ansatzpunkt für unser Projektvorhaben bietet.
Mithilfe eines tiefen Residual-Netzwerkes werden aus den Bilddateien mit automatisch erkannten Satzspiegeln lokale Formmerkmale der Schrift berechnet, die anschließend zu einem globalen Deskriptor zusammengefasst werden. Der zugrundeliegende Text spielt dabei keine Rolle. Diese Methode ist bereits erfolgreich zur Schreiberidentifikation in mittelalterlichen Urkunden und Schrifttypenklassifikation in Briefen aus der Frühen Neuzeit benutzt worden. Wir übertragen diesen Ansatz auf Druckschriften, indem wir in einem ersten Schritt die Daten des Typenrepertoriums als Ground-Truth-Daten verwenden und dann in einem zweiten Schritt dieses Verfahren auf Drucke des 16.-18. Jahrhunderts erweitern werden. Durch die Clusterbildung nach Ähnlichkeitsmerkmalen können neu zu etablierende Schriftartgruppen (z. B. für die im 16. Jh. aufkommende Fraktur) identifiziert und bestehende Gruppen angepasst und erweitert werden. Um die in diesem Rahmen erarbeiteten Schriftartgruppen für OCR nutzbar zu machen, wird ein Modellrepositorium erstellt, das Modelle mit Metadaten wie typographischem Deskriptor, automatischen erzeugten Evaluierungen der Trainingsinfrastruktur und falls möglich Verweisen zu originären Trainingsdaten beinhaltet. Die Modelle werden langfristig durch die Verwendung des offenen Forschungsdatenspeicherdienstes Zenodo der Community zur Verfügung gestellt, wobei Dritte eigenständig weitere Modelle in das Repositorium einpflegen können.

Kooperationspartner

Publikationen (Auswahl)

Developing automatic font recognition and model repository for OCR-D

Manager: Dr. Nikolaus Weichselbaumer
Status: running
Project time scale: 2018-2019
Team: Dr. Saskia Limbach (JGU Mainz), Prof. Dr.-Ing. habil Andreas Meier (FAU Erlangen), Dr. Vincent Christlein (FAU Erlangen), Mathias Seuret (FAU Erlangen), Prof. Dr. Gregory Ralph Crane (Universität Leipzig)
Funding: DFG

Abstract
The great diversity of fonts developed after Gutenberg’s invention poses one of the greatest challenges for optical character recognition (OCR) of early printed documents. This project aims to address this obstacle – in close collaboration with computer scientists – by creating groups of fonts and developing an online training environment for various open source OCR software. We will also develop a tool which automatically recognises fonts in digital copies of printed books, as well as a repository of font-specific OCR models.

Our approach

The basis for creating font groups forms Konrad Haebler’s Typenrepertorium of incunabula which was recently made available by the Berlin State Library as an online database. It comprises over 6,000 different fonts used in one or more editions printed in the 15th century. As the records are linked to the Union Catalogue of incunabula (GW), the Typenrepertorium provides us with over 15,000 digital copies and therefore offers the ideal starting point for our project.

A deep residual network will analyse these digital copies, automatically calculating outstanding features and summarising those to global descriptors. The individual texts of the books are irrelevant to this analysis. This method already proved to be successful for identifying scribes of medieval charters as well as of letters in early modern Europe. We will adapt this approach and apply it to printed documents by using the data of the Typenrepertorium as ground truth data and then extend it for publications of the 16th – 18th century. The clusters created from similar features will show us where we need to create new groups (e.g. for Fraktur which was created in the early 16th century) and where we need to adjust existing groups. In a second step we will create a model repository which will make these font groups applicable to OCR containing typographical descriptions, automatic generated evaluation of the training environment and – if available – links to the original training data. Lastly, we will make the models available for the community long term using Zenedo, an online storage service for research data, which will also enable others to create and upload new models.

Partners

Publications (selected)

Back To Top