Actions

Common Crawl FR

From Algolit

Type: Ensemble de données
Technique: scraping
Développé par: The Common Crawl Foundation, California, US

Common Crawl est une organisation sans but lucratif reconnue, fondée par Gil Elbaz dans le but de démocratiser l'accès à l'information Web en produisant et en maintenant un référentiel ouvert de données d'analyse Web universellement accessible et analysable.

Common Crawl effectue quatre explorations par an. Amazon Web Services a commencé à héberger les archives de Common Crawl à travers son programme Public Data Sets en 2012. L'analyse de septembre 2017 contient 3,01 milliards de pages Web et plus de 250 TiB de contenu non compressé, soit environ 75% d'Internet.

Les robots d'exploration de l'organisation respectent les stratégies nofollow et robots.txt. Le code open source pour le traitement du jeu de données Common Crawl est disponible publiquement.

Les ensembles de données d'analyse commune sont utilisés pour créer des ensembles de données de plongement lexical pré-assemblés, comme GloVe (voir The GloVe Reader). word2vec est un autre jeu de données sur les plongées de mots pré-assemblées, très utilisé, basé sur les textes de Google News.

Le site web de Maison du Livre dans le Common Crawl Index:

{"urlkey": "be,lamaisondulivre)/", "timestamp": "20170921193906", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687837.85/warc/CC-MAIN-20170921191047-20170921211047-00095.warc.gz", "mime-detected": "application/xhtml+xml", "status": "200", "mime": "text/html", "digest": "KDTUFUFZASPU7DXCJRQN62DHWGXGUZIX", "length": "5082", "offset": "491381827", "url": "http://www.lamaisondulivre.be/"}

Le site web de Constant dans le Common Crawl Index:

{"urlkey": "org,constantvzw)/", "timestamp": "20170920232443", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687582.7/crawldiagnostics/CC-MAIN-20170920232245-20170921012245-00322.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "547", "offset": "10063605", "url": "http://www.constantvzw.org/"}
{"urlkey": "org,constantvzw)/", "timestamp": "20170921101437", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687740.4/crawldiagnostics/CC-MAIN-20170921101029-20170921121029-00322.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "548", "offset": "10050808", "url": "http://www.constantvzw.org/"}
{"urlkey": "org,constantvzw)/", "timestamp": "20170925145800", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818691977.66/crawldiagnostics/CC-MAIN-20170925145232-20170925165232-00347.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "541", "offset": "1503578", "url": "http://constantvzw.org/"}