Мангеймский корпус немецкого языка (COSMAS corpora или DeReKo) — это коллекция современных немецкоязычных текстов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия). В корпусе представлены различные типы текстов: научная и научно-популярная литература, большое количество газетных текстов, художественная проза, и др. Представляя собой самое большое в мире электронное собрание современных немецкоязычных текстов, является инструментом корпусной лингвистики.
Мангеймский корпус немецкого языка имеет несколько альтернативных названий, таких как German Reference Corpus, IDS corpora, COSMAS corpora. С 2004 года официальное название корпуса — Deutsches Referenzkorpus (DeReKo).
Создание корпуса в Институте немецкого языка (IDS) имеет долгую историю. Уже в 1964 году Пауль Гребе (Paul Grebe) и Ульрих Энгель (Ulrich Engel) создали «Мангеймский Корпус 1» — проект, в котором к 1967 году было успешно собрано около 2,2 млн часто употребляемых слов немецкой письменной речи. С этого времени база электронных текстовых данных дополнялась и расширялась за счет ряда последующих проектов по сбору корпуса. К 2013 году DeReKo является одним из основных ресурсов во всем мире для изучения немецкого языка. Темпы роста объёма корпуса — около 300 миллионов слов в год. Поставив основной целью «изучение немецкого языка в его современном использовании», Институт IDS проводит политику по обеспечению долгосрочной работы DeReKo.
Ключевыми особенностями DeReKo являются:
Основная цель DeReKo состоит в том, чтобы служить в качестве практической основы для научного исследования современной немецкой письменной речи. Одним из важных принципов является то, что в центре внимания находится сам язык, а не информация, передаваемая им.
В корпусе представлены различные типы текстов: художественная проза, научная и научно-популярная литература, периодика и др. Имеется также подкорпус устной речи (разговорная речь, записи речи носителей различных диалектов и др.). Ресурс включает созданную на основе корпуса базу данных по сочетаемости слов немецкого языка.
Данный корпус содержит 6 основных подкорпусов:
Корпус письменной речи включает в себя 3 собственно Мангеймских корпуса, а также множество других (беллетристика, исторические корпуса, публицистика, собрание сочинений Карла Маркса и Фридриха Энгельса, корпус Томаса Манна, корпус интервью и т. д.).
Объём корпуса составляет более 1846 млн словоупотреблений. В отличие от других известных корпусов (таких как, например, Британский национальный корпус), DeReKo нацелен на охват максимально возможного объёма текстов, а не на сбалансированность их состава: распределение текстов по времени создания или по типу текста не соответствует заранее заданным процентным соотношениям.
В DeReKo присутствует лемматизация и морфологическая разметка, но лишь для части текстов. Однако, в архиве имеется несколько полных согласованных аннотаций на разных языковых уровнях (по крайней мере, на уровнях части речи и синтаксиса). Из-за большого размера корпуса ни ручное аннотирование, ни ручное управление автоматической аннотацией не могут быть осуществимы. В результате ожидаемая степень неточности очень высока, особенно там, где есть лингвистически сложные явления.
Основные единицы текста в корпусе DeReKo сопровождаются специальной информацией — метаданными. Важным принципом корпуса является то, что эти метаданные должны быть доступными. Какая конкретно информация доступна, зависит от источника данных и типа текста.
Основные категории метаданных:
Из-за авторских прав и лицензионных ограничений базы данных архивов DeReKo нельзя копировать или загружать с сайта на жесткий диск. Но эти данные можно запросить и проанализировать бесплатно через систему COSMAS II[1], пользователи которой должны зарегистрироваться и принять соглашение на использование данных исключительно для некоммерческих, образовательных целей. COSMAS II позволяет использовать корпус DeReKo для решения конкретных научных задач.
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .