Чéшский национа́льный ко́рпус | |
---|---|
URL | ucnk.ff.cuni.cz |
Коммерческий | нет |
Тип сайта | образовательный/научный проект |
Язык(-и) | чешский/английский |
Расположение сервера | Чехия, Прага |
Автор | Карлов университет |
Текущий статус | Работает и развивается |
Чéшский национа́льный ко́рпус (Český národní korpus или ČNK) — доступная для открытого поиска база письменных текстов в электронной форме на чешском языке, поддерживаемая Университетом имени Карла в Праге. Сайт доступен на чешском и английском языках.
Идея ЧНК была впервые выдвинута в 1991 году и поддержана представителями Факультета философии Карлова университета, Факультета математики и физики Карлова университета, Масарикова университета, Университета Палацкого, Института чешского языка Академии наук Чехии.
Предпосылками для создания корпуса послужили такие факторы, как отклонение современного чешского языка от общепринятых норм (создание корпуса помогло бы избавить чешскую лексикографию от подобных отклонений) и стабилизация политической ситуации (более широкое сотрудничество с международным научным сообществом помогло привнесению компьютерной лексикографии и корпусной лингвистики, как отдельных ветвей, в чешскую лингвистику). В 1994 году при Факультете философии Карлова университета был создан Институт Чешского национального корпуса, а также были подписаны соглашения о сотрудничестве Института с некоторыми институциями Чехии[1].
По состоянию на 10 сентября 2017 года над Чешским национальным корпусом работают:
Корпус письменных текстов / Written corpora (synchronic) | ~2705 млн словоупотреблений |
Корпус устных текстов / Spoken corpora (synchronic) | ~4 млн словоупотреблений |
Диахронический корпус / Diachronic corpora | 1,95 млн словоупотреблений |
Корпус иностранных языков /Foreign language corpora | 6248 млн словоупотреблений |
Параллельный корпус / Parallel corpus | 92 млн словоупотреблений |
Общий объём корпуса составляет свыше 9 млрд словоупотреблений, из которых лемматизировано и размечено морфологическими тегами ~8894,5 млн[3].
Основным содержимым ЧНК являются:
Отдельный корпус ЧНК посвящён антиутопии Джорджа Оруэлла «1984», сравнительно небольшой размер которой (80 000 слов и 20 000 пунктуационных знаков) позволил вручную разметить текст почти безупречно[4].
На сайте существует два вида доступа: публичный и полный.
Неавторизированный пользователь может искать лишь в корпусе SYN2010, объём которого составляет всего 100 млн слов, что составляет одну девяностую всей базы Чешского национального корпуса. SYN2010 состоит[5] на 40% из художественной литературы, на 27% из технической литературы и на 33% из журналистских работ. Большинство текстов корпуса были созданы с 2005 до 2009 года.
Публичный доступ позволяет увидеть количество вхождений в SYN2010 и первые 50 примеров. Слова выдаются в формате concordance lines, когда каждая строка представляет собой часть текста, в которой присутствует заданное выражение. Для публичного доступа возможны использования базовых регулярных выражений, также возможен поиск по ключевым словам.
Зарегистрированный пользователь имеет полный доступ к базе данных Института ЧНК, а также к специальному менеджеру корпуса Bonito.
Bonito (A Modular Corpus Manager Bonito) — графический пользовательский интерфейс (GUI) корпус-менеджера Manatee, созданный в Центре обработки естественного языка, который расположен на факультете информатики Института имени Масарика в Брно. Создатель — Павел Рыхлый (Pavel Rychlý), ассистент факультета[6].
На данный момент[уточнить] с корпусом сотрудничают следующие институции Чехии:
Также корпус сотрудничает с Факультетом славянских языков Брауновского университета (США), Факультетами филологии и искусств Санкт-Петербургского Государственного Университета (Россия), Факультетом философии и литературы Университета Гранады (Испания), Институтом немецкого языка в Мангейме (Германия), Университетом Амстердама (Нидерланды) и другими крупными научными центрами[7].
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .