WikiSort.ru - Лингвистика

ПОИСК ПО САЙТУ | о проекте

Корпус современного американского английского (англ. Corpus of Contemporary American English, COCA) — электронный корпус текстов, созданный профессором корпусной лингвистики Марком Дэвисом[en] из Brigham Young University в 2000—2003 годах на основе текстов журнала Time, написанных с 1923 года[1].

Это наибольший (450 млн слов) корпус текстов американского варианта английского языка и единственный свободно доступный корпус на этом языке, включающий большое разнообразие текстов различных жанров. Он составлен из более чем 160 тыс. текстов, включая по 20 млн слов за каждый год с 1990 по 2011. Это наиболее широко используемый структурированный корпус текстов, ежемесячно его используют примерно 10 000 человек.

Состав

Другие корпусы Дэвиса

TIME Magazine corpus

Корпус составлен более чем из 275000 статей из архива журнала TIME и содержит больше 100 миллионов слов из текстов, написанных с 1923 по 2006 год. TIME Magazine Corpus интегрирован в общую систему других корпусов, созданных Марком Дэвисом (которая также включает в себя базы данных Corpus of Historical American English (COHA), Corpus del Español или Corpus of American Soap Operas)[2].

Принцип работы

Архитектура корпуса построена по принципу других проектов Марка Дэвиса, например корпуса современного американского английского языка — Corpus of Contemporary American English (COCA). Существует центральная база n-граммов, которая содержит информацию о каждом из ста миллионов слов корпуса. Они связаны с таблицами, позволяющими анализировать регистр, а также с отдельными таблицами для синонимов, лемм и форм, появляющихся у слова с течением времени.

Разметка текстов производилась с помощью CLAWS-теггера (Constituent Likelihood Automatic Word-tagging System)[3]. Эта же программа использовалась при создании других корпусов Марка Дэвиса, а также Британского национального корпуса.

Оборудование для корпуса было подобрано так, чтобы обеспечить крайне быстрый поиск — как правило, он занимает менее секунды даже для самых сложных запросов, содержащих словоформу, часть речи, частоту и регистр.

Возможности использования

TIME Magazine Corpus позволяет производить поиск как отдельных слов и словосочетаний, так и специфических грамматических форм или синонимических рядов, а также увидеть контекст их употребления и изменение частоты использования.

Корпус позволяет исследовать:

  • изменение частоты и контекста использования слов и фраз, связанных с переменами в культурной и социальной жизни общества
  • языковые перемены в морфологии и грамматических конструкциях
  • колебания частоты использования тех или иных групп слов со временем
  • семантические изменения слов на протяжении XX века

Доступ

Доступ к корпусу предоставляется бесплатно.

Необходима регистрация с предоставлением электронного адреса либо информации об организации и статусе пользователя в зависимости от требуемого уровня доступа. Уровней доступа пять в трёх категориях: not researcher, semi-researcher, researcher. Все они различаются объёмом предоставляемой информации в сутки (если начинающему пользователю доступно совершение 100 запросов в день, то профессор или аспирант, зарегистрированный в качестве исследователя, за тот же период времени может выполнить поиск 600 раз).

См. также

Примечания

  1. Kauhanen, Henri The Corpus of Contemporary American English: Background and history. VARIENG (21 марта 2011). Проверено 13 октября 2011.
  2. Список корпусов, созданных Марком Дэвисом. По данным Google Analytics на март 2012 года, к услугам этой базы данных ежемесячно прибегают более 100 тысяч уникальных пользователей.
  3. CLAWS part-of-speech tagger for English

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии