WikiSort.ru - Лингвистика

ПОИСК ПО САЙТУ | о проекте

Идентификация языка (англ. language identification), в методике обработки естественного языка — определение языка. Проблема идентификации языка является особым случаем категоризации текста и решается с использованием статистических методов.

Обзор

Для идентификации языка реализуется архитектура PPRLM (parallel phonemes recognition + language model) с параллельным подключением фонетических распознавателей, обученных на нескольких языках. Фонетическое распознавание производится на основе скрытых марковских моделей (СММ) с помощью алгоритма Витерби.

Для принятия решения о принадлежности речевого сообщения к тому или иному целевому языку реализуется подход с классификатором на основе метода опорных векторов (SVM — support vector machines).

Принцип работы системы, построенной на основе классического PPRLM заключается в следующем:

  1. в системе присутствуют несколько фонетических распознавателей;
  2. каждый входной звуковой файл распознаётся фонетическими распознавателями;
  3. по результирующей последовательности фонем каждого фонетического распознавателя считаются меры близости к модели n-gramm того или иного целевого языка;
  4. победившим считается язык с максимальной мерой близости модели n-gramm.

В усовершенствованных системах PPRLM идентификация языка реализуется в виде открытой задачи: производится проверка «принадлежит» / «не принадлежит» обработанный файл целевому языку, решение принимается автоматически с учётом порога установленного пользователем.

К базовому алгоритму добавляются следующие шаги:

  1. на результирующую последовательность фонем каждого фонетического распознавателя накладывается модель n-gramm того или иного «опорного» языка и считаются меры близости модели n-gramm к последовательности фонем;
  2. полный набор мер близости моделей n-gramm к последовательностям фонем является входным вектором для классификатора SVM;
  3. по результату классификации SVM-классификатором принимается решение о принадлежности к целевому языку с помощью сравнения с установленным порогом для каждого целевого языка в отдельности.

Звуковой файл произнесён на целевом языке, если оценка, данная SVM-классификатором, больше порога. При этом звуковой файл может быть отнесён к одному или нескольким языкам одновременно или не отнесён ни к одному из них.


См. также

Литература

Ссылки

Библиотеки

Web-сервисы

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии