WikiSort.ru - Лингвистика

ПОИСК ПО САЙТУ | о проекте
Генеральный интернет-корпус русского языка
URL webcorpora.ru
Коммерческий нет
Тип сайта образовательный/научный проект
Регистрация есть: необходима для получения доступа к поиску
Язык(-и) русский
Расположение сервера Россия
Начало работы 2012 год
Текущий статус работает и развивается
Рейтинг Alexa
 11 960 651 (9 сентября 2017)[1]

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.

Цели проекта

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и научными группами на материале, полученном ГИКРЯ. В то время как другие корпусные проекты фокусируют свое внимание на художественной литературе и отредактированных текстах, Генеральный интернет-корпус предоставляет российским лингвистам своевременную[2] возможность изучать язык как он есть, со всеми региональными и сленговыми особенностями.

Корпус дает возможность производить:

В разное время НИР и самостоятельные исследования на материале проекта вели студенты, аспиранты и сотрудники МГУ, МФТИ, РГГУ, НГУ, НИУ ВШЭ, ИЯ РАН, ЮФУ, ЧГУ, ВГПУ, ИСАА МГУ.

Научные руководители проекта:

В создании и поддержке проекта участвовали:

Объём и состав корпуса

Объём корпуса на лето 2016 года составляет 19,8 миллиарда словоупотреблений, из них 49 % приходится на «Вконтакте», 40 % — на Живой Журнал, еще по 4 % — на Блоги Mail.ru и Новости, и 2 % — на Журнальный зал[5]. В сегменте Новостей собраны материалы из источников: РИА Новости, Регнум, Лента.ру, Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы[5]. Большую часть текстов создают записи за 20132014 годы, хотя на некоторых сегментах, например, в Журнальном зале, собраны тексты, начиная с 1994 года[6].

ПодкорпусСлов, млнТекстов
Блоги Mail.Ru7079882120
ВКонтакте9820193770717
Живой Журнал811073229158
Журнальный зал31356547
Новостной подкорпус (РИА, Regnum, Lenta.ru, Росбалт)8512964897
Весь корпус19801279903439

ГИКРЯ является одним из немногих мега-корпусов, достигающих объемом нескольких миллиардов слов.

КорпусЯзыкиДоступСайтОбъемВозможности
COW: Free, Large Web Corpora in European LanguagesАнглийский, французский, немецкий, испанский, шведский, нидерландскийбесплатно, после регистрации, возможен ознакомительный доступ без регистрацииhttps://webcorpora.org/ (недоступная+ссылка)порядка 30 млрд словформат KWIC, морфоразметка, поиск по CQP, разметка и поиск по дате, URL, стране, городу и т. д.
Sketch Engineанглийский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский; больше языков доступны платноплатно, после регистрации, возможен ознакомительный доступhttps://www.sketchengine.co.uk/86 млрд словконкордансы, скетч-грамматика, тезаурусы, KWIC, морфоразметка, поиск по CQP
Aranea Corporaанглийский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, голландский, польский, словацкийбесплатно, после регистрации, возможен ознакомительный доступ без регистрацииhttp://sketch.juls.savba.sk/aranea_about/ около 14 млрд словnoSketch Engine, конкордансы, скетч-грамматика, KWIC, морфоразметка, поиск по CQP, сравнение результатов запросов на разных языках
ГИКРЯ Генеральный интернет-корпус русского языкарусскийбесплатно, регистрация по запросуhttp://www.webcorpora.ru/20 млрд словформат KWIC, морфоразметка, конкордансы, поиск по CQP, разметка и поиск по дате, стране, городу, сегменту рунета, полу, году и месту рождения автора, пересылка результатов пользователями друг другу
CORPUS OF GLOBAL WEB-BASED ENGLISH (GloWbE)английский, спецификация 20 стран мирабез регистрацииhttp://corpus.byu.edu/glowbe/1,9 млрд словKWIC, конкордансы, коллокаты, сравнение результатов по диалектам, CQP, можно скачать весь корпус целиком

Доступ

В настоящее время интерфейс корпуса находится в стадии бета-тестирования, поэтому доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.

См. также

Примечания

Литература

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии