Programmierung von Web-Crawlern, Suchmaschinen und Informationsextraktion

Webcrawler, Suchmaschinen und Informationsextraktion

netEstate hat jahrelange Erfahrung in der Programmierung von Crawlern und Suchmaschinen.

Liste der von netEstate betriebenen Suchmaschinen

Unser Impressums-Crawler extrahiert Daten aus dem Impressum von Websites.

Unser Jobcrawler findet Stellenanzeigen auf einer Website.

Eigene Textklassifizierer trainieren und mit anderen teilen konnte man mit unserem Angebot textclassify.com.

Der Crawler unserer Suchfunktion für die eigene Website extrahiert Metadaten wie HTTP-Statuscode, Dateityp, Sprache, Änderungszeitpunkt, Titel, Meta-Tags sowie den gesamten Textinhalt in unstrukturierter Form. Sie können diese Daten neben der Suchfunktion auch zum automatischen Generieren von Sitemaps nutzen oder im XML-Format exportieren.

Für unsere Kunden haben wir Webcrawler programmiert, die strukturierte Daten verschiedenster Art extrahieren. Die Daten können von bestimmten Websites oder dem Web allgemein gecrawlt werden.

Im letzten Fall haben die Daten kein festes Format, keine feste Position auf der Website und keine feste Position innerhalb der Seiten. Wir versuchen dann, Daten und Beiwerk durch syntaktische und semantische Merkmale zu trennen. Cookies und Formulare sind für uns kein Hindernis.

Wir möchten auf ehrliche und ethische Weise Geld verdienen. Deshalb beachten wir den Robots Exclusion Standard und lehnen Aufträge ab, die auf den Versand von Email/Fax-Spam, Cold Calls oder Urheberrechtsverletzungen abzielen.

Ihr Ansprechpartner bei netEstate:

Michael Brunnbauer

Tel: 089-32197780

E-Mail: info@netestate.de

Entwicklung

Webcrawler, Suchmaschinen und Informationsextraktion