Call For Participation - Digital Header:challenge of the German Railways

Call For Participation - Digital Header:challenge of the German Railways

gan Ute Schmid -
Number of replies: 0

Die Deutsche Bahn ruft auf zur DB Digital Header:challenge

Helft mit, tausende Dokumente automatisiert auszulesen und zu ordnen!

Die Deutsche Bahn hat eine Vielzahl von Dokumenten, technischen Zeichnungen etc., die unsere Infrastruktur, also Gebäude und technische Anlagen abbilden. Diese sollen nun digitalisiert und automatisiert in eine zentrale Datenbank überführt werden. Hierzu sucht die DB arbeitserleichternde Ansätze. Gemeinsam mit der DB mindbox, dem Digitalisierungslab der Deutschen Bahn und dem DAI-Labor der TU Berlin startet die DB Digital Header:challenge. Ziel ist es, Algorithmen zu entwickeln, die Informationen aus den verschiedenen Dokumenten auslesen und strukturiert ablegen können.

Aufgabenstellung:

Heute liegen viele Dokumente und Pläne in unterschiedlichster Form und aus unterschiedlichen Bereichen vor. Die Deutsche Bahn überführt diese Pläne in ihre zentralen Datenbanken. Dazu werden die Dokumente gescannt und als pdf abgespeichert. Um den hohen Aufwand einer händischen Übertragung der Meta-Informationen bei Überführung in die Datenbank zu vermeiden, möchte die Deutsche Bahn die Informationen automatisiert erkennen und auslesen lassen. Die Daten sollen dann direkt für den Import in die Datenbank vorbereitet werden. Die Deutsche Bahn verspricht sich hier eine wesentliche Arbeitserleichterung.

Die aktuelle Challenge hat zum Ziel, einen Algorithmus zu erstellen, der in den digitalisierten Legenden die relevanten Metadaten erkennt und richtig in eine vorgegebene Struktur bringt. Da nicht bekannt ist, wie viele unterschiedliche Dokumentenformen existieren, muss der zu entwickelnde Ansatz auch mit unbekannten Legenden zurechtkommen. Der Algorithmus soll daher einfach erweiterbar sein. Unbekannte Dokumente, Zeichnungen und Pläne sollen mittels Training des Algorithmus nachträglich gelernt werden können und somit für bisher unbekannte Dokumente nutzbar sein.

 

Die Aufgaben:

  1. Automatisierter Erkennung von verschiedenen Dokumententypen (Legenden) und das Einteilen in verschiedene Stapel – bekannt, unbekannt, nicht lesbar.
  2. Auslesen der Informationen aus den bekannten Legenden und Übertrag in eine geordnete Datenstruktur.
  3. Übertragbarkeit des Algorithmus auf andere, unbekannte Dokumententypen (Legenden).

Die abschließende Evaluation der Ergebnisse für die Preisverleihung umfasst die Erkennung der Legenden (20%), das Auslesen und Ordnen der enthaltenen Informationen (50%) sowie die Übertragung auf andere Dokumentenarten (30%). Ende April werden dann von einer Fachjury von DB Vertretern und externen Experten in der DB mindbox die Sieger verkündet und die Preise vergeben. Preisgelder umfassen insgesamt €14000.

Mehr Informationen, Registrierung und Kontakt unter

http://db-digitalhead.gmedia.de/