5百万冊の本から学んだこと/エレズ・リーバーマン・エイデン、ジャン・バプティスト・ミシェル

Google LabsのNgram Viewerをいじってみたことはありますか?

何世紀にも渡って書かれてきた5百万という本のデータベースの中から言葉やアイデアを探せるやみつきになるツールです。エレズ・リーバーマン・エイデンとジャン・バプティスト・ミシェルがその仕組みと、5千億語のデータが教えてくれるちょっと驚くようなことを見せてくれます。

タイトル 5百万冊の本から学んだこと
スピーカー エレズ・リーバーマン・エイデン ジャン・バプティスト・ミシェル
アップロード 2011/09/21

5百万冊の本から学んだことの要約

文化と歴史の大局像をつかむ試み

問題意識と研究背景

エレツ・リーバーマン・アイデンとジャン=バティスト・ミシェルは、「絵が千の言葉に値する」ということわざの真実性を検証し、文化と歴史の変遷を包括的に理解する方法を模索していました。ハーバード、MIT、アメリカン・ヘリテージ・ディクショナリー、エンサイクロペディア・ブリタニカ、Googleなどの専門家チームが結成され、4年間の研究を経て、結論に至りました。

デジタル化とデータの活用

本のデジタル化と統計情報のリリース

Googleは何百万もの本をデジタル化しており、1500万冊の本がスキャンされています。これにより、データとメタデータが取得され、文化のゲノムと呼ばれる膨大な情報が集まりました。全ての本のフルテキストを公開する代わりに、統計情報を提供しました。これにより、特定のフレーズがどの時代にどれだけ使用されたかを追跡できます。

文化遺伝学とその応用

N-gramの活用

20億のn-gramデータセットを使用して、文化のトレンドや歴史的な変化を測定しました。例えば、「thrived」と「throve」の使用頻度を比較することで、言語の変遷を明らかにしました。また、1950年に対する関心の急上昇と、その後の急激な減少や、シャガールの名声がナチス・ドイツ時代にどのように変動したかも分析しました。

データ公開の意義と影響

Googleの協力により、Ngram Viewerが一般公開され、誰でも興味のある単語やフレーズの使用頻度を調べることができるようになりました。これにより、科学的なデータ解析が広く普及しました。ただし、Ngram Viewerのデータを解釈する際には、科学的基準を持つことが重要であると強調されました。

今後の展望

デジタル化の進展と文化理解の深化

現在、全ての書籍の12%がデジタル化されています。これに加えて、手稿、新聞、芸術作品などもデジタル化されることで、過去と現在、そして人間の文化をより深く理解することが可能になります。文化遺伝学は、人間の文化の研究に大規模なデータ収集と分析を適用する新しいアプローチであり、デジタル化された歴史的記録を通じて、文化の変遷を理解する手段となることが期待されています。

タイトルとURLをコピーしました