PROJEKTE

Informationen aus unstrukturierten Dokumenten extrahieren

Für einen Kunden aus dem medizinischen Bereich sollten wir beträchtliche Menge unstrukturierter Gesundheitsdaten in strukturierte Informationen überführen. Zu den Herausforderungen zählten dabei vor allem die variierenden Dokumentenformate (PDF, JPG etc.) und der völlig individuelle Aufbau jedes Dokuments (Tabellen, Freitext oder gar handschriftliche Notizen). Mit unserer Lösung kann der Kunde einen bisher ungenutzten Datenschatz für sich erschließen und für gänzlich neue Anwendungsmöglichkeiten einsetzen.

Das Problem

Ein Kunde aus der Versicherungsbranche trat mit einer Aufgabenstellung an uns heran, die wir durch den Einsatz von Technologien des maschinellen Lernens lösen wollten. Ein Großteil der erforderlichen Daten war jedoch in Tausenden roher, zumeist gescannter Gesundheitsberichte enthalten.

Die größte Hürde bei der Verarbeitung dieser Dokumente war deren Mangel an Struktur, da wesentliche Informationen in Tabellen, freiem Text oder gar handschriftlichen Notizen enthalten waren. Ohne die darin versteckten hätten wir unser Machine-Learning-Modell nicht trainieren können.

Der Ansatz

Wir beschäftigten uns intensiv mit dem gegebenen Problem und teilten unseren Ansatz in drei wesentliche Schritte.

1. Identifikation eines Tools zur zuverlässigen Zeichenerkennung.

Wir erstellten umfangreiche manuelle Annotation zur Bewertung der Extraktionsqualität auf den Rohdokumenten. Mit diesen Annotationen evaluierten wir eine Reihe von Tools bezüglich ihrer Zeichenerkennungsrate. Zu diesen Technologien zählten kostenlose Werkzeuge wie Tesseract oder Cloud-basierte Lösungen wie AWS Textract. Basierend auf der gemessenen Erfolgsquote der einzelnen Tools entschieden wir uns, welches das Mittel der Wahl für die Folgeschritte wäre.

2. Überführung der Rohdokumente in Textdokumente.

Basierend auf unserer Evaluierung entwickelten wir ein vollautomatisiertes System, das in angemessenem Zeitrahmens aus tausenden von Dokumenten Daten extrahieren und die Ergebnisse in einer strukturierten Datensenke sichern kann.

3. Extraktion der Trainingsdaten aus Textdokumenten.

Schließlich erstellten wir auf der Grundlage der analysierten Texte eine Extraktionsroutine, welche die Inputs für das Training unseres ML-Modells bereitstellt.

Die Lösung

Für unseren Kunden entschieden wir uns zur Verwendung von Amazon Textract, um Rohdokumente zuverlässig und in angemessenem Zeitrahmen vorzuverarbeiten. Mit Blick auf Verarbeitungskosten wählten wir ein passendes Subset an Features, um die erforderliche Datenqualität zu liefern.