Einmal 5 Milliarden Web-Pages plus Metadata to go, bitte!

Nico —  9.11.2011

Bis gestern hatte ich noch nie etwas von Common Crawl gehört. Heute bin ich eher begeistert, daß so ein Projekt mal eben über die letzten Jahre realisiert wurde:

Common Crawl produces and maintains a repository of web crawl data that is openly accessible to everyone. The crawl currently covers 5 billion pages and the repository includes valuable metadata. The crawl data is stored by Amazon’s S3 service, allowing it to be bulk downloaded as well as directly accessed for map-reduce processing in EC2. This makes wholesale extraction, transformation, and analysis of web data cheap and easy. Small startups or even individuals can now access high quality crawl data that was previously only available to large search engine corporations.

Es gibt also verschiedene Wege, um an die Daten zu kommen und man kann diese Daten nutzen für seine eigenen Projekte. Wie das genau funktioniert, ist unter Accessing the Data beschrieben, damit man auch sofort loslegen kann. Ich überlege mir derweil, was man mit 5 Milliarden Datensätzen alles anstellen könnte.

Trackbacks and Pingbacks:

  1. Aktuelles 10. November 2011 - 10.11.2011

    […] Einmal 5 Milliarden Web-Pages plus Metadata to go, bitte! […]