Du bist hier: Startseite » Glossar » Scraping

Scraping: was ist das?

Unter Scraping versteht man in der Regel das sogenannte Screen Scraping oder genauer gesagt das „Web Scraping“. Dabei werden Informationen von Websites entweder manuell oder mithilfe von Software extrahiert, kopiert und gespeichert, und gegebenenfalls in einem veränderten Layout auf der eigenen Website wiederverwendet.

Durch eine positive Anwendung des Webscraping kann einer Website durch Inhalte anderer Websites ein Mehrwert geboten werden. Im Gegensatz dazu verletzt Scraping Urheberrechte und wird als Spam angesehen.

Wie wird Scraping durchgeführt?

Es gibt eine große Auswahl an verschiedenen technischen Optionen für das Scraping. Dies kann automatisch oder manuell mit speziellen Tools erfolgen. Zudem ist Scraping durch HTTP-Manipulation und Data Mining möglich. Das manuelle Kopieren von Inhalten wird ebenfalls als Scraping bezeichnet.

Das Extrahieren von Mikrodaten ist ein Teil des Scrapings. Im Rahmen der Weiterentwicklung des Semantic Webs sind Mikroformate beliebte Elemente einer Website.

Warum wird Scraping durchgeführt?

Es gibt zahlreiche Gründe für das Scraping. Zum Beispiel nutzen verschiedene Analyse-Tools Daten von Websites für spezifische Zwecke. Ein SEO Tool kann die Position einer Website für ein bestimmtes Keyword bei Google überprüfen und dabei auf die SERPs zugreifen. Auch RSS-Feeds können in andere Webseiten und Tools integriert werden und stellen eine Form des Scrapings dar.

Typische Service-Funktionen, die beispielsweise Informationen zum Wetter oder Fahrpläne für den öffentlichen Verkehr anzeigen, greifen auf das Scraping zurück.

Wann Scraping Spamming ist

Die Verwendung von Scraping in den genannten Anwendungsfällen wird positiv bewertet. Jedoch gibt es auch Fälle, in denen Scraping mit Spamming gleichgesetzt werden kann, wenn unerlaubte SEO-Methoden angewendet werden. Wenn beispielsweise ein Onlineshop ein neues Produkt einführt und den Beschreibungstext von einem anderen Shop kopiert, handelt es sich um unerlaubtes Scraping.

Zudem entsteht in solchen Fällen Duplicate Content, der sich negativ auf die Platzierung in den SERPs auswirkt. Da Duplicate Content auch die Bewertung der Seite mit dem Originalinhalt beeinträchtigen kann, sollten Webmaster überwachen, ob Scraping im Zusammenhang mit ihrer Homepage stattfindet. Im schlimmsten Fall kann das Scraping von Google dem Urheber angelastet werden und zu einer Abwertung der gescrapten Domain führen.

Um Scraping zu erschweren, haben Webmaster verschiedene Optionen. Sie können beispielsweise entsprechende Bots über die robots.txt Datei blockieren, Sicherheitsabfragen implementieren und die Firewall des Servers optimieren.

Auch Google nutzt Scraping, um bestimmte Begriffe in den Suchergebnissen anzuzeigen. Die Wikipedia-Inhalte werden auf der Seite angezeigt und die Google Snippets basieren im Grunde genommen auf dem Scraping-Prinzip.

Gründer und Inhaber

Andreas ist der Gründer und Inhaber der SEO Agentur Hamburg. Er hat mehr als 13 Jahre Erfahrung mit WordPress-Entwicklung und über 11 Jahre Erfahrung mit erfolgreicher Suchmaschinenoptimierung. Er hat Hunderte Artikel über WordPress und SEO für die Online-Magazine DrWeb.de und Noupe.com geschrieben.

Vorheriger Beitrag
URL