Национальный корпус русского языка | |
---|---|
URL | ruscorpora.ru |
Коммерческий | нет |
Тип сайта | образовательный/научный проект |
Регистрация | есть: необходима для получения доступа к текстам; лицензионное соглашение |
Язык(-и) | русский/английский |
Расположение сервера | Россия |
Владелец | Институт русского языка имени В. В. Виноградова РАН |
Начало работы | 2003 |
Текущий статус | работает и развивается |
Рейтинг Alexa |
Национа́льный ко́рпус ру́сского языка́ (НКРЯ) — доступный для поиска электронный онлайн-корпус русских текстов. Открыт 29 апреля 2004 года. Также доступен для поиска исторический корпус церковнославянских, древнерусских (XI—XIV века) и среднерусских (XV — начало XVIII века) текстов.
Работы по созданию корпуса были начаты в 2001 году группой лингвистов из Москвы, Санкт-Петербурга, Воронежа и других городов.
В программе по созданию Национального корпуса русского языка участвуют специалисты следующих организаций[2]:
В корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).
В корпус также входят подкорпусы поэтических и диалектных текстов, корпусы параллельных текстов (для следующих языков доступны параллельные корпусы с русским: английский, армянский, белорусский, болгарский, бурятский, испанский, итальянский, китайский, латышский, немецкий, польский, украинский, французский, шведский, эстонский и мультиязычный), отдельный газетный корпус (материалы СМИ начала XXI века), церковнославянский корпус (богослужебные тексты, современные (XIX—XX век) и более ранних периодов), исторический (в том числе древнерусский, старорусский, берестяных грамот), синтаксический, акцентологический, мультимедийный и обучающий подкорпусы.
Объём основного корпуса на 7 апреля 2018 года составлял 283 млн словоупотреблений, а общий объём корпусов превышает 600 млн словоупотреблений[4].
Тексты снабжены метаразметкой (по дате создания, автору, жанру и т. п.); словоформы в текстах снабжены автоматической морфологической и семантической разметкой; параллельные тексты выровнены; тексты поэтического корпуса снабжены также особой метрической разметкой.
1,5 % текстов снабжены морфологической[5] и семантической[6] разметкой со снятой вручную омонимией («дезамбигуированный подкорпус»).
Корпус | Число текстов | Число предложений | Число словоупотреблений | % словоупотреблений |
---|---|---|---|---|
** дезамбигуированная часть корпуса | 2 тыс. | 500 тыс. | 6 млн | 1,5 % |
* Основной корпус | 84 тыс. | 19,1 млн | 230 млн | 60 % |
Весь корпус | 342 тыс. | 32 млн | 384 млн | 100 % |
В настоящее время свободным и бесплатным является только поиск по корпусу. Сайт корпуса и поиск по нему поддерживаются компанией «Яндекс», сотрудники которой принимали участие также в разработке программного обеспечения корпуса. Доступ ко всему корпусу невозможен в связи с законом об авторских правах. Для получения доступа к 1/6 размеченной части подкорпуса необходимо зарегистрироваться и принять лицензионное соглашение[7].
Это заготовка статьи по лингвистике. Вы можете помочь проекту, дополнив её. |
Это заготовка статьи о веб-сайте. Вы можете помочь проекту, дополнив её. |
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .