Was ist ein Crawler?

Unter dem Begriff Crawler (auch Spider, Searchbot oder Robot) versteht man ein Computerprogramm, das selbstständig nach Dokumenten in Internet sucht. Sein Zweck ist das völlig automatisierte Durchsuchen des Web nach vorher festgelegten Parametern.

Bekannte Crawler

Der bekannteste Crawler ist der Google Crawler (auch Googlebot genannt), der automatisch das Internet nach neuen oder aktualisierten Websites durchsucht, um den Google Index aktuell zu halten. In diesem Fall spricht man auch von einem Webcrawler. Doch es existieren auch Crawler für andere Aufgabenbereiche, wie zum Beispiel dem Sammeln von E-Mail-Adressen.

Wie funktioniert ein Crawler?

Ein Crawler ist ein bisschen wie die NSA. Er durchsucht alle Dokumente im Web, die er finden kann. Diese werden dann bestimmten Kategorien zugeordnet und im Anschluss katalogisiert. Die gefundenen Informationen werden in einem Index gespeichert, damit sie jederzeit aufrufbar sind.

Genau wie die NSA sollte das Programm nicht selbstständig handeln, sondern genaue Instruktionen für seine Suche bekommen. Bei den meisten Webcrawlern mag dies so zutreffen, beim Googlebot stimmt es nicht mehr. Google setzt für das Sammeln von Informationen auf ein Programm mit einer KI (künstlicher Intelligenz), um an die gewünschten Informationen zu kommen. Der Google Index wird also zu einem Teil bereits von einer KI namens RankBrain gefüttert, auf die selbst Google keinen 100%igen Einfluss mehr hat.

Grundlagen der Google-Suche


DSGVO: Dieses Video wird erst nach dem Klick auf die Vorschau geladen.

Weblinks

Vorheriger Beitrag
Mobile First
Nächster Beitrag
User Agent
Menü
Teilen
Teilen
Teilen