PROJEKTE

Unternehmensdaten im Web crawlen

Wie kann man sich umfassend über ein Unternehmen informieren, wenn man lediglich dessen Namen und Adresse kennt – oder gar Leads sammeln, um mit diesem Unternehmen in Kontakt zu treten? Ein Kunde beauftragte uns, eine komplexe Datenbank zu entwickeln, die nicht nur typische Unternehmensmerkmale enthält, sondern zusätzlich mit Daten aus unstrukturierten Quellen im WWW ergänzt wird. Mit Hilfe von Cloud-Technologien und Web-Scraping-Frameworks entwickelten wir einen Datenkatalog, der umfassend und gleichzeitig zielgerichtet einen Überblick über zahlreiche Unternehmen generiert.

Das Problem

Unser Kunde benötigte eine umfangreiche Datensammlung über Unternehmen inklusive deren Adressen, Jahresumsatz und Leads. Ziel war, diese Daten mit Informationen aus bisher unbekannten, unstrukturierten Quellen im Internet zu kombinieren, so dass M&A-Mitarbeiter eine Liste vorgefilterter, vorvalidierter Kandidaten für einen manuellen Validierungsprozess zur Verfügung gestellt bekommen.

Zahlreiche Quellen im Internet stellen zwar Firmendatensätze zur Verfügung. Jedoch ist keine dieser Quellen vollumfassend – oft sind sie domänenspezifisch oder eingeschränkt in ihrer Informationsvielfalt. Weiterhin ist die Vorselektion relevanter Datensätze aus der großen Masse existierender Unternehmen nicht mit Menschenhand zu schaffen.

Der Ansatz

Bei SPRYFOX betrachteten wir diese Herausforderung aus dem Blickwinkel einer föderierten Suche. Da eine Live-Suche wegen der einzubindenden Quellen nicht in Frage kam, teilten wir unseren Ansatz in mehrere Phasen auf.

Zunächst einigten wir uns auf eine einheitliche Bootstrapping-Technik, indem wir die verfügbaren Eingabedaten für den föderierten Suchalgorithmus definierten. Anschließend wurden nützliche Quellen für Unternehmensdaten identifiziert und evaluiert – das Internet ist reich an Anbietern, die Unternehmensdaten in variabler Qualität und bei unterschiedlichen Preismodellen zur Verfügung stellen. Unsere Recherchen führten uns zur idealen Kombination aus grobgranularen Generalisten und kategoriefokussierten Spezialisten, die den gewünschten Drill-Down-Effekt nach einer Vorselektion unterstützen konnten.

Darauf basierend entwickelten wir eine Cloud-basierte Verarbeitungspipeline, mit deren Unterstützung Daten kontinuierlich bereinigt und angereichert werden konnten. Mithilfe von Filter- und Scoring-Algorithmen reduzierten wir die Anzahl der Unternehmen auf ein relevantes Subset und ermöglichten den M&A-Agenten damit, sich auf ihre wesentlichen Ziele zu fokussieren.

Die Lösung

Zur technischen Umsetzung entschieden wir uns für die Nutzung von Cloud-Diensten von Amazon Web Services. Lambda stellt die Basis für den kontinuierlichen Zugriff auf aktuelle Unternehmensdatendaten über die identifizierten Schnittstellen und ermöglicht gleichzeitig deren Weiterverarbeitung.

Step-Funktionen orchestrieren den Datenverarbeitungsworkflow und legen die gewonnenen Daten in DynamoDB ab. EventBridge, SNS und CloudWatch unterstützen die Verdrahtung der Dienste bei der Überwachung auftretender Probleme.

Als Endresultat stellten wir dem Kunden eine Web-Applikation zur Verfügung, die nativ mit AWS-Services erstellt wurde und gleichzeitig notwendige Schnittstelle anbietet. Unser Kunde ist nun in der Lage, eine umfassende Sammlung an Firmendaten nach zahlreichen Kriterien zu filtern und einen zielgerichteten M&A-Prozess aufzusetzen.