WikiSort.ru - Лингвистика

ПОИСК ПО САЙТУ | о проекте
Чéшский национа́льный ко́рпус
URL ucnk.ff.cuni.cz
Коммерческий нет
Тип сайта образовательный/научный проект
Язык(-и) чешский/английский
Расположение сервера Чехия, Прага
Автор Карлов университет
Текущий статус Работает и развивается

Чéшский национа́льный ко́рпус (Český národní korpus или ČNK) — доступная для открытого поиска база письменных текстов в электронной форме на чешском языке, поддерживаемая Университетом имени Карла в Праге. Сайт доступен на чешском и английском языках.

История создания

Идея ЧНК была впервые выдвинута в 1991 году и поддержана представителями Факультета философии Карлова университета, Факультета математики и физики Карлова университета, Масарикова университета, Университета Палацкого, Института чешского языка Академии наук Чехии.

Предпосылками для создания корпуса послужили такие факторы, как отклонение современного чешского языка от общепринятых норм (создание корпуса помогло бы избавить чешскую лексикографию от подобных отклонений) и стабилизация политической ситуации (более широкое сотрудничество с международным научным сообществом помогло привнесению компьютерной лексикографии и корпусной лингвистики, как отдельных ветвей, в чешскую лингвистику). В 1994 году при Факультете философии Карлова университета был создан Институт Чешского национального корпуса, а также были подписаны соглашения о сотрудничестве Института с некоторыми институциями Чехии[1].

Составители

По состоянию на 10 сентября 2017 года над Чешским национальным корпусом работают:

  • Директор Михал Кршен (Michal Křen)
  • Заместитель директора Вацлав Цврчек (Václav Cvrček)
  • Секретарь Луцие Новакова (Lucie Nováková)
  • Профессор Франтишек Чермак (František Čermák)
  • Профессор и глава секции диахронического корпуса Карел Кучера (Karel Kučera)
  • Глава лингвистической секции Вацлав Цврчек
  • Глава вычислительной секции Павел Вондржичка (Pavel Vondřička)
  • Глава секции разговорного корпуса Мария Копршивова (Marie Kopřivová)
  • Глава секции лингвистического анализа и аннотаций Томаш Елинек (Tomáš Jelínek)
  • Глава секции параллельного корпуса Александр Розен (Alexandr Rosen)
  • и другие[2].

Состав и объём корпуса

Корпус письменных текстов / Written corpora (synchronic) ~2705 млн словоупотреблений
Корпус устных текстов / Spoken corpora (synchronic) ~4 млн словоупотреблений
Диахронический корпус / Diachronic corpora 1,95 млн словоупотреблений
Корпус иностранных языков /Foreign language corpora 6248 млн словоупотреблений
Параллельный корпус / Parallel corpus 92 млн словоупотреблений

Общий объём корпуса составляет свыше 9 млрд словоупотреблений, из которых лемматизировано и размечено морфологическими тегами ~8894,5 млн[3].

Источники текстов

Основным содержимым ЧНК являются:

  • Тексты, полученные в электронном виде от издательских домов и индивидуальных владельцев
  • Тексты, полученные из газет (составляют абсолютное большинство текстов корпуса — около 60%)
  • Тексты словарей (например, корпус FSC2000 ссылается на Частотный словарь чешского языка)[1]

Отдельный корпус ЧНК посвящён антиутопии Джорджа Оруэлла «1984», сравнительно небольшой размер которой (80 000 слов и 20 000 пунктуационных знаков) позволил вручную разметить текст почти безупречно[4].

Доступ

На сайте существует два вида доступа: публичный и полный.

Неавторизированный пользователь может искать лишь в корпусе SYN2010, объём которого составляет всего 100 млн слов, что составляет одну девяностую всей базы Чешского национального корпуса. SYN2010 состоит[5] на 40% из художественной литературы, на 27% из технической литературы и на 33% из журналистских работ. Большинство текстов корпуса были созданы с 2005 до 2009 года.

Публичный доступ позволяет увидеть количество вхождений в SYN2010 и первые 50 примеров. Слова выдаются в формате concordance lines, когда каждая строка представляет собой часть текста, в которой присутствует заданное выражение. Для публичного доступа возможны использования базовых регулярных выражений, также возможен поиск по ключевым словам.

Зарегистрированный пользователь имеет полный доступ к базе данных Института ЧНК, а также к специальному менеджеру корпуса Bonito.

Bonito

Bonito (A Modular Corpus Manager Bonito) — графический пользовательский интерфейс (GUI) корпус-менеджера Manatee, созданный в Центре обработки естественного языка, который расположен на факультете информатики Института имени Масарика в Брно. Создатель — Павел Рыхлый (Pavel Rychlý), ассистент факультета[6].

Сотрудничество

На данный момент[уточнить] с корпусом сотрудничают следующие институции Чехии:

Также корпус сотрудничает с Факультетом славянских языков Брауновского университета (США), Факультетами филологии и искусств Санкт-Петербургского Государственного Университета (Россия), Факультетом философии и литературы Университета Гранады (англ.) (Испания), Институтом немецкого языка в Мангейме (Германия), Университетом Амстердама (Нидерланды) и другими крупными научными центрами[7].

См. также

Примечания

  1. 1 2 Czech National Corpus (CNC)
  2. People | Institute of the Czech National Corpus
  3. Available Corpora | Institute of the Czech National Corpus
  4. ORWELL | Institute of the Czech National Corpus
  5. Public Access (недоступная ссылка история) Проверено 10 сентября 2017.
  6. Manatee/Bonito -- A Modular Corpus Manager
  7. 1 2 Cooperation | Institute of the Czech National Corpus

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии