大量のテキストに使用された語句の頻出順位と頻度を集計すると、頻出順位がk番目の頻度は頻出順位1番目の頻度を1/kした値になる法則をジップの法則(ゼータ分布)という。Zipfは「ジフ」と読まれることもある。また、この法則が機能する世界を「ジフ構造」と記する論者もいる。
提唱者は、アメリカの言語学者George Kingsley Zipfジョージ・キングスリー・ジップ氏である。
ジップ氏は、あるテキストから英単語ごとの頻度を高い順に並べると、下記の表のように頻出順位(r)と頻度(f)をかけるとほぼ同じ値になることを発見した。
頻出順位が2番目である単語の頻度は、頻出順位が1番目である単語の頻度の約1/2であり、頻出頻度が3番目である単語の頻度は、頻出順位が1番目である単語の頻度の約1/3である。グラフに書き起こすと頻出順位と頻度が反比例する。
普遍的に見られるジップの法則
32ヶ月未満の子供たちの発話や、大学レベルの専門書でもジップの法則が成り立つ。単語だけでなく、ある都市におけるn番目に所得額が大きい人の所得額が1番目の人の所得額の1/nになっていたり、月面クレーターの中でn番目に大きい面積は1番大きいクレーターの面積の1/nになるなど、あらゆる事例でジップの法則が成り立つ。
ジップの法則が起こる原因は不明だが、いくつかの法則で説明されることもある。単語の頻出順位と頻度は、話し手が抽象的に使える単語をなるべく多く使い、コミュニケーションの労力を最小限にしようする最小限の努力の法則で説明できる。都市の所得分布においては、裕福な者がより裕福になるといったユール・サイモン分布の優先的アタッチメントで説明できる。
関連用語
- パレートの法則
- 最小限の努力の法則
- ユール・サイモン分布