WikiSort.ru - Лингвистика

ПОИСК ПО САЙТУ | о проекте
Закон Ципфа: График для частот слов из статей русской Википедии с рангами от 3 до 170

Зако́н Ци́пфа («ранг—частота») — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.

История создания

Автором открытия закономерности является французский стенографист Жан-Батист Эсту (фр. Jean-Baptiste Estoup), который описал её в 1908 году в работе «Диапазон стенографии»[1]. Закон был впервые применён для описания распределения размеров городов немецким физиком Феликсом Ауэрбахом в работе «Закон концентрации населения» в 1913 году[2] и носит имя американского лингвиста Джорджа Ципфа, который в 1949 году активно популяризировал данную закономерность, впервые предложив использовать её для описания распределения экономических сил и социального статуса[2].

Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в 2005 году[3].

Закон Ципфа математически описывается распределением Парето. Является одним из базовых законов, используемых в инфометрии.

Приложения закона

Джордж Ципф в 1949 году впервые показал распределение доходов людей по их размерам: самый богатый человек имеет вдвое больше денег, чем следующий богач, и так далее. Это утверждение оказалось справедливым для ряда стран (Англия, Франция, Дания, Голландия, Финляндия, Германия, США) в период с 1926 по 1936 год.[2]

Этот закон также работает в отношении распределения городской системы: город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город, и так далее[2]. Если расположить все города некоторой страны в списке в порядке убывания численности населения, то каждому городу можно приписать некоторый ранг, то есть номер, который он получает в данном списке. При этом численность населения и ранг подчиняются простой закономерности, выражаемой формулой[4]:

,

где  — население города n-го ранга;  — население главного города страны (1-го ранга).

Эмпирические исследования подтверждают данное утверждение[5][6][7][8][9].

В 1999 году экономист Ксавье Габэ описал закон Ципфа как пример степенного закона: если города будут расти случайным образом с одинаковым среднеквадратичным отклонением, то в пределе распределение будет сходиться к закону Ципфа[10].

Согласно выводам исследователей по отношению к городскому расселению в Российской Федерации, в соответствии с законом Ципфа[11]:

  • большинство городов России лежит выше идеальной кривой Ципфа, поэтому ожидаемая тенденция — продолжение сокращения численности и людности средних и малых городов за счёт миграции в крупные города;
  • соответственно 7 городов-миллионников (Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Челябинск, Омск), находящиеся ниже идеальной кривой Ципфа, имеют существенный резерв роста населения и ожидают прирост населения;
  • существуют риски депопуляции первого города в ранге (Москвы), поскольку второй город (Санкт-Петербург) и последующие крупные города сильно отстают от идеальной кривой Ципфа в связи со снижением спроса на рабочую силу при одновременном росте стоимости проживания, включая, прежде всего, стоимость покупки и аренды жилья.

Критика

Американский специалист по биоинформатике Вэньтянь Ли[en] предложил статистическое объяснение закона Ципфа, доказав, что случайная последовательность символов также подчиняется этому закону[12]. Автор делает вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, который не имеет отношения к семантике текста и имеет поверхностное отношение к лингвистике.

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом ранг этого слова в частотном списке (порядковой шкале). Потому произведение ранга слова на его частоту есть константа.

См. также

Примечания

  1. Alain Lelu. Jean-Baptiste Estoup and the origins of Zipf’s law: a stenographer with a scientific mind (1868-1950) // Boletín de Estadística e Investigación Operativa. — 2014. Т. 30, № 1. С. 66—77.
  2. 1 2 3 4 Zipf G.K. Human Behavior and the Principle of Least Effort. — Addison-Wesley Press, 1949. — С. 484-490. — 573 с.
  3. K.E. Kechedzhy, O.V. Usatenko, V.A. Yampol'skii. Rank distributions of words in additive many-step Markov chains and the Zipf law (англ.) // Phys. Rev. E.. — 2004. Vol. 72. P. 046138(1)-046138(6). arXiv:physics/0406099.
  4. Занадворов В.С., Занадворова А.В. Экономика города: вводный курс. ISBN 5-94628-099-6. Академкнига (2003).
  5. Jiang B., Jia T. Zipf's law for all the natural cities in the United States: a geospatial perspective. International Journal of Geographical Information Science 25(8), 1269-1281 (2011).
  6. Kali R. The city as a giant component: a random graph approach to Zipf's law. — Applied Economics Letters 10: 717-720(4), 2003.
  7. Axtell, Robert L. Zipf distribution of US firm sizes (недоступная ссылка). American Association for the Advancement of Science (2001). Архивировано 23 сентября 2015 года.
  8. Rozenfeld H., Rybski D., Andrade JS., Batty M., Stanley. Laws of Population Growth (недоступная ссылка). Proc. Nat. Acad. Sci. 105, 18702–18707 (2008). Архивировано 16 февраля 2015 года.
  9. О’Салливан А. Экономика города. М.: Инфра-М, 2002. — С. 122. — 706 с. ISBN 5-16-000673-7.
  10. Gabaix, Xavier. Zipf’s Law for Cities: An Explanation. Quarterly Journal of Economics 114 (3): 739–67 (1999).
  11. Фаттахов Р.В., Строев П.В. Пространственное развитие России: вызовы современности и формирование точек экономического роста (недоступная ссылка). Финансовый университет при Правительстве Российской Федерации (22.06.2015). Архивировано 25 сентября 2015 года.
  12. Wentian Li. Закон Ципфа работает и для случайных текстов = Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution. — Santa Fe Institute, 1991. С. 8. Архивировано {a.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии