io_oi2007-03-29

マシーンにクラッシュの兆候がある。
重要なデータをバックアップ。
その過程でハードディスクの中から発掘したデータを紹介。
詳しいことは覚えていないけど、その時のメモには、以下のようなことが書いてあった。


Web上にクローラーを放ち、英単語を収集しました。
thisとかthatとか、明らかに出現頻度が高いであろう単語を一定以上含んでいることをもって、
そのページ全体が英語であると解釈し、そのようなページから単語を抽出しました。
収集した単語は重複を含めて約1億。
そのサンプルをステミングしたうえで、
出現回数が多い上位N単語までの出現回数の和が全体に占める割合を求めました。