コモン・クロール

コモン・クロール
企業形態	非営利
創業者	ジル・エルバズ（英語版）
主要人物	ピーター・ノーウィグ、ノヴァ・スピバック（英語版）、カール・マラマッド（英語版）、カール・ボラッカー（英語版）、伊藤穰一
ウェブサイト	commoncrawl.org
対応言語	英語

コモン・クロール（英語: Common Crawl）は、非営利団体、501(c)団体の一つで、クローラ事業を行い、そのアーカイブとデータセットを自由提供している^[1]^[2]。コモン・クロールのウェブアーカイブは主に、2011年以降に収集された数PBのデータで構成されている^[3]。通常、毎月クロールを行っている^[4]。

コモン・クロールはジル・エルバズ（英語版）によって設立された^[5]。顧問には、ピーター・ノーヴィグと伊藤穰一が含まれる^[6]。クロールする上では、Nofollowおよびrobots.txtポリシーを尊重する。データセットを処理するためのソースコードも公開されている。

データセットには著作権で保護された作品が含まれており、それらはフェアユースに基づいたうえでアメリカ合衆国から提供されている。他国の研究者は、文章をシャッフルしたり、共通のデータセットを参照したりするなどして、他国の著作権法を回避している^[7]。

歴史[編集]

2012年、Amazon Web Servicesによってクロールを開始^[8]。

同年7月に、メタデータファイルとクローラーのテキスト出力を.arc（英語版）ファイルでリリースした^[9]。そのため、以前は.arcのファイルしか含まれていなかった^[9]。

2012年12月、blekko（英語版）は2012年2月から10月までに実施したクロールでのメタデータをコモン・クロールの検索エンジンに寄付した^[10]。寄付されたデータは、「スパム、ポルノ、過度すぎる検索エンジン最適化の影響を回避しながらクロールを改善する」のに役立つ結果になった^[10]。

2013年、カスタムクローラーの代わりにApacheソフトウェア財団のNutch（英語版）クローラーの使用を開始^[11]。2013年11月のクロールから、従来の.arcファイルの使用からWeb ARChive（英語版）形式に切り替えられた^[12]。

コモン・クロールのフィルタリングバージョンは、2020年に発表されたOpenAIのGPT-3の学習モデルに使用された^[13]。

データを使用する際の課題の1つは、膨大な量のウェブデータがあるにもかかわらず、その一部のみがより良く文書化してしまうことである。これにより、コモン・クロールのデータを使用するプロジェクトの問題を診断しようとすると、課題が発生する可能性がある。解決策としては、すべてのデータセットに、その動機、構成、収集プロセス、および推奨される用途を文書化したデータシートを添付することである^[14]。

ノーヴィグ・ウェブデータサイエンス賞[編集]

SURFnet（英語版）との協力で、コモン・クロールはノーヴィグ・ウェブデータサイエンス賞を後援している。これはベネルクスの学生、研究者に開かれたコンテストである^[15]^[16]。

脚注[編集]

^ Rosanna Xia (2012年2月5日). “Tech entrepreneur Gil Elbaz made it big in L.A.”. Los Angeles Times 2014年7月31日閲覧。
^ “Gil Elbaz and Common Crawl”. NBC News. (2013年4月4日) 2014年7月31日閲覧。
^ “So you're ready to get started”. 2018年6月2日閲覧。
^ Lisa Green (2014年1月8日). “Winter 2013 Crawl Data Now Available” 2018年6月2日閲覧。
^ “Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222”. This Week In Startups. (2012年1月10日)
^ Tom Simonite (2013年1月23日). “A Free Database of the Entire Web May Spawn the Next Google”. MIT Technology Review 2014年7月31日閲覧。
^ Schäfer, Roland. “CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws”. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (Portorož, Slovenia: European Language Resources Association (ELRA)): 4501. https://aclanthology.org/L16-1712.
^ Jennifer Zaino (2012年3月13日). “Common Crawl To Add New Data In Amazon Web Services Bucket”. Semantic Web. オリジナルの2014年7月1日時点におけるアーカイブ。 2014年7月31日閲覧。
^ ^a ^b Jennifer Zaino (2012年7月16日). “Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore”. Semantic Web. オリジナルの2014年8月12日時点におけるアーカイブ。 2014年7月31日閲覧。
^ ^a ^b Jennifer Zaino (2012年12月18日). “Blekko Data Donation Is A Big Benefit To Common Crawl”. Semantic Web. オリジナルの2014年8月12日時点におけるアーカイブ。 2014年7月31日閲覧。
^ Jordan Mendelson (2014年2月20日). “Common Crawl's Move to Nutch”. Common Crawl. 2014年7月31日閲覧。
^ Jordan Mendelson (2013年11月27日). “New Crawl Data Available!”. Common Crawl. 2014年7月31日閲覧。
^ Brown, Tom; Mann, Benjamin (1 June 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。
^ Gebru, Timnit; Morgenstern, Jamie (19 March 2020). "Datasheets for Datasets". arXiv:1803.09010 [cs.DB]。
^ Lisa Green (2012年11月15日). “The Norvig Web Data Science Award”. Common Crawl. 2014年7月31日閲覧。
^ “Norvig Web Data Science Award 2014”. Dutch Techcentre for Life Sciences. 2014年8月15日時点のオリジナルよりアーカイブ。2014年7月31日閲覧。

外部リンク[編集]

Common Crawl in California, United States
Common Crawl GitHub Repository with the crawler, libraries and example code
Common Crawl Discussion Group
Common Crawl Blog

[latimes-1] Rosanna Xia (2012年2月5日). “Tech entrepreneur Gil Elbaz made it big in L.A.”. Los Angeles Times 2014年7月31日閲覧。

[pressheretv-2] “Gil Elbaz and Common Crawl”. NBC News. (2013年4月4日) 2014年7月31日閲覧。

[3] “So you're ready to get started”. 2018年6月2日閲覧。

[theverge-4] Lisa Green (2014年1月8日). “Winter 2013 Crawl Data Now Available” 2018年6月2日閲覧。

[twist-5] “Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222”. This Week In Startups. (2012年1月10日)

[technologyreview-6] Tom Simonite (2013年1月23日). “A Free Database of the Entire Web May Spawn the Next Google”. MIT Technology Review 2014年7月31日閲覧。

[7] Schäfer, Roland. “CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws”. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (Portorož, Slovenia: European Language Resources Association (ELRA)): 4501. https://aclanthology.org/L16-1712.

[semanticweb_1-8] Jennifer Zaino (2012年3月13日). “Common Crawl To Add New Data In Amazon Web Services Bucket”. Semantic Web. オリジナルの2014年7月1日時点におけるアーカイブ。 2014年7月31日閲覧。

[semanticweb_2-9] Jennifer Zaino (2012年7月16日). “Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore”. Semantic Web. オリジナルの2014年8月12日時点におけるアーカイブ。 2014年7月31日閲覧。

[semanticweb_3-10] Jennifer Zaino (2012年12月18日). “Blekko Data Donation Is A Big Benefit To Common Crawl”. Semantic Web. オリジナルの2014年8月12日時点におけるアーカイブ。 2014年7月31日閲覧。

[ccnutch-11] Jordan Mendelson (2014年2月20日). “Common Crawl's Move to Nutch”. Common Crawl. 2014年7月31日閲覧。

[ccnov2013-12] Jordan Mendelson (2013年11月27日). “New Crawl Data Available!”. Common Crawl. 2014年7月31日閲覧。

[13] Brown, Tom; Mann, Benjamin (1 June 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。

[14] Gebru, Timnit; Morgenstern, Jamie (19 March 2020). "Datasheets for Datasets". arXiv:1803.09010 [cs.DB]。

[ccaward-15] Lisa Green (2012年11月15日). “The Norvig Web Data Science Award”. Common Crawl. 2014年7月31日閲覧。

[dtlsaward-16] “Norvig Web Data Science Award 2014”. Dutch Techcentre for Life Sciences. 2014年8月15日時点のオリジナルよりアーカイブ。2014年7月31日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

コモン・クロール

歴史[編集]

ノーヴィグ・ウェブデータサイエンス賞[編集]

脚注[編集]

外部リンク[編集]

特別会員

€4.95

プレミアムアカウントをすばやく簡単に作成する

お気に入りのページを保存する

音声で任意のページを聞く

カラーナイトモード