WikiSort.ru - Лингвистика

ПОИСК ПО САЙТУ | о проекте

Мангеймский корпус немецкого языка (COSMAS corpora или DeReKo) — это коллекция современных немецкоязычных текстов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия). В корпусе представлены различные типы текстов: научная и научно-популярная литература, большое количество газетных текстов, художественная проза, и др. Представляя собой самое большое в мире электронное собрание современных немецкоязычных текстов, является инструментом корпусной лингвистики.

Альтернативные названия

Мангеймский корпус немецкого языка имеет несколько альтернативных названий, таких как German Reference Corpus, IDS corpora, COSMAS corpora. С 2004 года официальное название корпуса — Deutsches Referenzkorpus (DeReKo).

История создания

Создание корпуса в Институте немецкого языка (IDS) имеет долгую историю. Уже в 1964 году Пауль Гребе (Paul Grebe) и Ульрих Энгель (Ulrich Engel) создали «Мангеймский Корпус 1» — проект, в котором к 1967 году было успешно собрано около 2,2 млн часто употребляемых слов немецкой письменной речи. С этого времени база электронных текстовых данных дополнялась и расширялась за счет ряда последующих проектов по сбору корпуса. К 2013 году DeReKo является одним из основных ресурсов во всем мире для изучения немецкого языка. Темпы роста объёма корпуса — около 300 миллионов слов в год. Поставив основной целью «изучение немецкого языка в его современном использовании», Институт IDS проводит политику по обеспечению долгосрочной работы DeReKo.

Ключевыми особенностями DeReKo являются:

  • крупнейшая лингвистически мотивированная коллекция немецких текстов
  • разрабатывается с 1964 года
  • постоянно расширяется
  • содержит тексты, созданные начиная с 1956 года
  • содержит материалы из художественной литературы, научных и газетных текстов, а также некоторых других типов текста
  • содержит только полные тексты
  • содержит только неизмененные тексты (без орфографических исправлений и т. п.)
  • содержит только лицензированные тексты

Основная цель DeReKo состоит в том, чтобы служить в качестве практической основы для научного исследования современной немецкой письменной речи. Одним из важных принципов является то, что в центре внимания находится сам язык, а не информация, передаваемая им.

Состав корпуса

В корпусе представлены различные типы текстов: художественная проза, научная и научно-популярная литература, периодика и др. Имеется также подкорпус устной речи (разговорная речь, записи речи носителей различных диалектов и др.). Ресурс включает созданную на основе корпуса базу данных по сочетаемости слов немецкого языка.

Данный корпус содержит 6 основных подкорпусов:

  • Корпус письменной речи 1.370.766.704 словоупотребления
  • Корпус новых поступлений 181.319.744 словоупотребления
  • Archiv der phasengegliederten Wendecorpora 3.813.688 словоупотреблений
  • Картотека общества немецкого языка
  • Исторический корпус 6.296.361 словоупотребление
  • Морфосинтаксически размеченный корпус 29.695.096 словоупотреблений

Корпус письменной речи включает в себя 3 собственно Мангеймских корпуса, а также множество других (беллетристика, исторические корпуса, публицистика, собрание сочинений Карла Маркса и Фридриха Энгельса, корпус Томаса Манна, корпус интервью и т. д.).

Объём корпуса

Объём корпуса составляет более 1846 млн словоупотреблений. В отличие от других известных корпусов (таких как, например, Британский национальный корпус), DeReKo нацелен на охват максимально возможного объёма текстов, а не на сбалансированность их состава: распределение текстов по времени создания или по типу текста не соответствует заранее заданным процентным соотношениям.

Разметка и аннотации

В DeReKo присутствует лемматизация и морфологическая разметка, но лишь для части текстов. Однако, в архиве имеется несколько полных согласованных аннотаций на разных языковых уровнях (по крайней мере, на уровнях части речи и синтаксиса). Из-за большого размера корпуса ни ручное аннотирование, ни ручное управление автоматической аннотацией не могут быть осуществимы. В результате ожидаемая степень неточности очень высока, особенно там, где есть лингвистически сложные явления.

Метаданные

Основные единицы текста в корпусе DeReKo сопровождаются специальной информацией — метаданными. Важным принципом корпуса является то, что эти метаданные должны быть доступными. Какая конкретно информация доступна, зависит от источника данных и типа текста.

Основные категории метаданных:

  • дата публикации
  • время и период создания
  • имя автора
  • имя издателя
  • среда публикации (газета, книга, информационное агентство)
  • место публикации
  • тип текста
  • темы и их категории
  • информация о копиях
  • размер копий
  • число слов/предложений/параграфов
  • признаки старой и новой орфографии
  • условия лицензии

Доступ

Из-за авторских прав и лицензионных ограничений базы данных архивов DeReKo нельзя копировать или загружать с сайта на жесткий диск. Но эти данные можно запросить и проанализировать бесплатно через систему COSMAS II[1], пользователи которой должны зарегистрироваться и принять соглашение на использование данных исключительно для некоммерческих, образовательных целей. COSMAS II позволяет использовать корпус DeReKo для решения конкретных научных задач.

Примечания

См. также

Литература

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии