Зако́н Ци́пфа («ранг—частота») — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.
Автором открытия закономерности является французский стенографист Жан-Батист Эсту (фр. Jean-Baptiste Estoup), который описал её в 1908 году в работе «Диапазон стенографии»[1]. Закон был впервые применён для описания распределения размеров городов немецким физиком Феликсом Ауэрбахом в работе «Закон концентрации населения» в 1913 году[2] и носит имя американского лингвиста Джорджа Ципфа, который в 1949 году активно популяризировал данную закономерность, впервые предложив использовать её для описания распределения экономических сил и социального статуса[2].
Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в 2005 году[3].
Закон Ципфа математически описывается распределением Парето. Является одним из базовых законов, используемых в инфометрии.
Джордж Ципф в 1949 году впервые показал распределение доходов людей по их размерам: самый богатый человек имеет вдвое больше денег, чем следующий богач, и так далее. Это утверждение оказалось справедливым для ряда стран (Англия, Франция, Дания, Голландия, Финляндия, Германия, США) в период с 1926 по 1936 год.[2]
Этот закон также работает в отношении распределения городской системы: город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город, и так далее[2]. Если расположить все города некоторой страны в списке в порядке убывания численности населения, то каждому городу можно приписать некоторый ранг, то есть номер, который он получает в данном списке. При этом численность населения и ранг подчиняются простой закономерности, выражаемой формулой[4]:
где — население города n-го ранга; — население главного города страны (1-го ранга).
Эмпирические исследования подтверждают данное утверждение[5][6][7][8][9].
В 1999 году экономист Ксавье Габэ описал закон Ципфа как пример степенного закона: если города будут расти случайным образом с одинаковым среднеквадратичным отклонением, то в пределе распределение будет сходиться к закону Ципфа[10].
Согласно выводам исследователей по отношению к городскому расселению в Российской Федерации, в соответствии с законом Ципфа[11]:
Американский специалист по биоинформатике Вэньтянь Ли[en] предложил статистическое объяснение закона Ципфа, доказав, что случайная последовательность символов также подчиняется этому закону[12]. Автор делает вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, который не имеет отношения к семантике текста и имеет поверхностное отношение к лингвистике.
В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом ранг этого слова в частотном списке (порядковой шкале). Потому произведение ранга слова на его частоту есть константа.
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .