Lieferung von Dokumenten, Bildern und Texten

Ziel

Für eine innovative Applikation benötigt ein erfolgreiches Technologieunternehmen kontinuierlich Daten aus Webquellen.

Ausgangslage

Das Unternehmen hat zunächst damit gestartet für die Applikation eigene Crawler und Scraper zu implementieren. Die Entwicklung und Pflege der entwickelten Technologie erwies sich jedoch als sehr aufwendig und wurde eingestellt. Aus diesem Grund haben sie nach einer entsprechenden Lösung gesucht, die die Datenlieferung in der gewünschten Qualität übernimmt und flexibel um neue Datenstrukturen erweitert werden kann.

Was wir für den Kunden gemacht haben?

Wir haben dem Kunden die entsprechenden Module fürs Crawling und Scraping bereitgestellt, die feste Bestandteile von SonarBox sind und ständig weiterentwickelt werden. In einigen Fällen wurden spezielle Extraktoren entwickelt und SonarBox hinzugefügt. Dem Kunden wurden die Daten über eine performante Schnittstelle bereitgestellt, so dass die Integration in die Applikation wie gewünscht, umgesetzt werden konnte.

Kunde: Technologieunternehmen

Benötigte Daten: Dokumente, Bilder, Texte

Ausgewählte Extraktionsstrategie: PDF, Bild, Artikel

Datenbereitstellung API