WikiSort.ru - Лингвистика

Национальный корпус русского языка
URL	ruscorpora.ru
Коммерческий	нет
Тип сайта	образовательный/научный проект
Регистрация	есть: необходима для получения доступа к текстам; лицензионное соглашение
Язык(-и)	русский/английский
Расположение сервера	Россия
Владелец	Институт русского языка имени В. В. Виноградова РАН
Начало работы	2003
Текущий статус	работает и развивается
Рейтинг Alexa	▼ 295 516 (1 октября 2017)[1]

ПОИСК ПО САЙТУ | о проекте

Национа́льный ко́рпус ру́сского языка́ (НКРЯ) — доступный для поиска электронный онлайн-корпус русских текстов. Открыт 29 апреля 2004 года. Также доступен для поиска исторический корпус церковнославянских, древнерусских (XI—XIV века) и среднерусских (XV — начало XVIII века) текстов.

Составители

Работы по созданию корпуса были начаты в 2001 году группой лингвистов из Москвы, Санкт-Петербурга, Воронежа и других городов.

В программе по созданию Национального корпуса русского языка участвуют специалисты следующих организаций^[2]:

Институт русского языка имени В. В. Виноградова РАН (ИРЯ РАН).
Институт языкознания РАН (ИЯз РАН).
Институт проблем передачи информации имени А. А. Харкевича РАН (ИППИ РАН).
Институт лингвистических исследований РАН (ИЛИ РАН) в Санкт-Петербурге (совместно с Санкт-Петербургским государственным университетом (СПбГУ)).
Воронежский государственный университет^[3].

Состав корпуса

В корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).

В корпус также входят подкорпусы поэтических и диалектных текстов, корпусы параллельных текстов (для следующих языков доступны параллельные корпусы с русским: английский, армянский, белорусский, болгарский, бурятский, испанский, итальянский, китайский, латышский, немецкий, польский, украинский, французский, шведский, эстонский и мультиязычный), отдельный газетный корпус (материалы СМИ начала XXI века), церковнославянский корпус (богослужебные тексты, современные (XIX—XX век) и более ранних периодов), исторический (в том числе древнерусский, старорусский, берестяных грамот), синтаксический, акцентологический, мультимедийный и обучающий подкорпусы.

Объём корпуса

Объём основного корпуса на 7 апреля 2018 года составлял 283 млн словоупотреблений, а общий объём корпусов превышает 600 млн словоупотреблений^[4].

Тексты снабжены метаразметкой (по дате создания, автору, жанру и т. п.); словоформы в текстах снабжены автоматической морфологической и семантической разметкой; параллельные тексты выровнены; тексты поэтического корпуса снабжены также особой метрической разметкой.

1,5 % текстов снабжены морфологической^[5] и семантической^[6] разметкой со снятой вручную омонимией («дезамбигуированный подкорпус»).

Корпус	Число текстов	Число предложений	Число словоупотреблений	% словоупотреблений
** дезамбигуированная часть корпуса	2 тыс.	500 тыс.	6 млн	1,5 %
* Основной корпус	84 тыс.	19,1 млн	230 млн	60 %
Весь корпус	342 тыс.	32 млн	384 млн	100 %

Доступ

В настоящее время свободным и бесплатным является только поиск по корпусу. Сайт корпуса и поиск по нему поддерживаются компанией «Яндекс», сотрудники которой принимали участие также в разработке программного обеспечения корпуса. Доступ ко всему корпусу невозможен в связи с законом об авторских правах. Для получения доступа к 1/6 размеченной части подкорпуса необходимо зарегистрироваться и принять лицензионное соглашение^[7].

См. также

Примечания

↑ Глобальный рейтинг сайта «Национальный корпус русского языка» (англ.). Alexa Internet. Проверено 1 октября 2017.
↑ Участники проекта (неопр.). Национальный корпус русского языка. Проверено 7 марта 2018.
↑ О проекте. Параллельные корпуса письменных текстов (неопр.). Национальный корпус русского языка. Проверено 7 марта 2018.
↑ Национальный корпус русского языка (неопр.). ruscorpora.ru. Проверено 7 марта 2018.
↑ Морфология (неопр.). Национальный корпус русского языка. Проверено 7 марта 2018.
↑ Семантика (неопр.). Национальный корпус русского языка. Проверено 7 марта 2018.
↑ Использование корпуса. Лицензионное соглашение (неопр.). Национальный корпус русского языка. Проверено 7 марта 2018.

Литература

Национальный корпус русского языка: 2003—2005. Сборник статей / Отв. ред. В. А. Плунгян. — М.: Индрик, 2005. — 502 с. — ISBN ISBN 5-85759-358-1.
Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы / Отв. ред. В. А. Плунгян. — СПб.: Нестор-История, 2009. — 502 с. — ISBN ISBN 978-5-98187-327-0.
Плунгян В. А. Зачем мы делаем Национальный корпус русского языка? // Отечественные записки. — 2005. — № 2(23).

Ссылки

Официальный сайт

Это заготовка статьи по лингвистике. Вы можете помочь проекту, дополнив её.

Это заготовка статьи о веб-сайте. Вы можете помочь проекту, дополнив её.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[alexa_ruscorpora.ru_295,516-1] Глобальный рейтинг сайта «Национальный корпус русского языка» (англ.). Alexa Internet. Проверено 1 октября 2017.

[2] Участники проекта (неопр.). Национальный корпус русского языка. Проверено 7 марта 2018.

[3] О проекте. Параллельные корпуса письменных текстов (неопр.). Национальный корпус русского языка. Проверено 7 марта 2018.

[4] Национальный корпус русского языка (неопр.). ruscorpora.ru. Проверено 7 марта 2018.

[5] Морфология (неопр.). Национальный корпус русского языка. Проверено 7 марта 2018.

[6] Семантика (неопр.). Национальный корпус русского языка. Проверено 7 марта 2018.

[7] Использование корпуса. Лицензионное соглашение (неопр.). Национальный корпус русского языка. Проверено 7 марта 2018.

Корпусная лингвистика
Англоязычные корпусы	Национальный корпус американского английского Bank of English Bergen Corpus of London Teenage Language Британский национальный корпус Brown Corpus Buckeye Corpus Cambridge English Corpus Корпус современного американского английского языка Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus PropBank Spoken English Corpus TIMIT VerbNet Wellington Corpus of Spoken New Zealand English
Корпусы на других языках	Bijankhan Corpus CHILDES Корпус хорватского языка Национальный корпус хорватского Europarl Corpus Мангеймский корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Neo-Assyrian Text Corpus Project Коранический корпус Национальный корпус русского языка Национальный корпус шотландского языка Slovenian National Corpus TalkBank Татоэба Tehran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD