Google LabsのNgram Viewerをいじってみたことはありますか?
何世紀にも渡って書かれてきた5百万という本のデータベースの中から言葉やアイデアを探せるやみつきになるツールです。エレズ・リーバーマン・エイデンとジャン・バプティスト・ミシェルがその仕組みと、5千億語のデータが教えてくれるちょっと驚くようなことを見せてくれます。
タイトル | 5百万冊の本から学んだこと |
スピーカー | エレズ・リーバーマン・エイデン ジャン・バプティスト・ミシェル |
アップロード | 2011/09/21 |
5百万冊の本から学んだことの要約
文化と歴史の大局像をつかむ試み
問題意識と研究背景
エレツ・リーバーマン・アイデンとジャン=バティスト・ミシェルは、「絵が千の言葉に値する」ということわざの真実性を検証し、文化と歴史の変遷を包括的に理解する方法を模索していました。ハーバード、MIT、アメリカン・ヘリテージ・ディクショナリー、エンサイクロペディア・ブリタニカ、Googleなどの専門家チームが結成され、4年間の研究を経て、結論に至りました。
デジタル化とデータの活用
本のデジタル化と統計情報のリリース
Googleは何百万もの本をデジタル化しており、1500万冊の本がスキャンされています。これにより、データとメタデータが取得され、文化のゲノムと呼ばれる膨大な情報が集まりました。全ての本のフルテキストを公開する代わりに、統計情報を提供しました。これにより、特定のフレーズがどの時代にどれだけ使用されたかを追跡できます。
文化遺伝学とその応用
N-gramの活用
20億のn-gramデータセットを使用して、文化のトレンドや歴史的な変化を測定しました。例えば、「thrived」と「throve」の使用頻度を比較することで、言語の変遷を明らかにしました。また、1950年に対する関心の急上昇と、その後の急激な減少や、シャガールの名声がナチス・ドイツ時代にどのように変動したかも分析しました。
データ公開の意義と影響
Googleの協力により、Ngram Viewerが一般公開され、誰でも興味のある単語やフレーズの使用頻度を調べることができるようになりました。これにより、科学的なデータ解析が広く普及しました。ただし、Ngram Viewerのデータを解釈する際には、科学的基準を持つことが重要であると強調されました。
今後の展望
デジタル化の進展と文化理解の深化
現在、全ての書籍の12%がデジタル化されています。これに加えて、手稿、新聞、芸術作品などもデジタル化されることで、過去と現在、そして人間の文化をより深く理解することが可能になります。文化遺伝学は、人間の文化の研究に大規模なデータ収集と分析を適用する新しいアプローチであり、デジタル化された歴史的記録を通じて、文化の変遷を理解する手段となることが期待されています。