WikiSort.ru - Лингвистика

ПОИСК ПО САЙТУ | о проекте

Латентное размещение Дирихле (LDA, от англ. Latent Dirichlet allocation) — применяемая в машинном обучении и информационном поиске порождающая модель, позволяющая объяснять результаты наблюдений с помощью неявных групп, благодаря чему возможно выявление причин сходства некоторых частей данных. Например, если наблюдениями являются слова, собранные в документы, утверждается, что каждый документ представляет собой смесь небольшого количества тем и что появление каждого слова связано с одной из тем документа. LDA является одним из методов тематического моделирования и впервые был представлен в качестве графической модели для обнаружения тематик Дэвидом Блеем, Эндрю Ыном и Майклом Джорданом в 2003 году^[1].

В LDA каждый документ может рассматриваться как набор различных тематик. Подобный подход схож с вероятностным латентно-семантическим анализом (pLSA) с той разницей, что в LDA предполагается, что распределение тематик имеет в качестве априори распределения Дирихле. На практике в результате получается более корректный набор тематик.

К примеру, модель может иметь тематики классифицируемые как «относящиеся к кошкам» и «относящиеся к собакам», тематика обладает вероятностями генерировать различные слова, такие как «мяу», «молоко» или «котёнок», которые можно было бы классифицировать как «относящиеся к кошкам», а слова, не обладающие особой значимостью (к примеру, служебные слова), будут обладать примерно равной вероятностью в различных тематиках.

Примечания

↑ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). Lafferty, John, ed. “Latent Dirichlet allocation”. Journal of Machine Learning Research. 3 (4—5): pp. 993–1022. DOI:10.1162/jmlr.2003.3.4-5.993. Используется устаревший параметр |month= (справка)

Ссылки

topicmodels и lda реализации LDA для R.
LDA, exampleLDA — реализация LDA и пример для MATLAB.
код, демо — реализация LDA и пример с анализом текста в python

Это заготовка статьи по статистике. Вы можете помочь проекту, дополнив её.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[blei2003-1] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). Lafferty, John, ed. “Latent Dirichlet allocation”. Journal of Machine Learning Research. 3 (4—5): pp. 993–1022. DOI:10.1162/jmlr.2003.3.4-5.993. Используется устаревший параметр |month= (справка)

Обработка естественного языка
Общие определения	Корпус текстов Речевой корпус Стоп-слова Мешок слов^[en] AI-полнота N-грамма Биграммный шифр Триграмма^[en]
Анализ текста	Сегментация текста^[en] Частеречная разметка Поверхностный синтаксический анализ^[en] Обработка сложных слов^[en] Извлечение коллокаций^[en] Стемминг Лемматизация Распознавание именованных сущностей^[en] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[en] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[en] Извлечение информации Идентификация языка Определение регистра^[en]
Реферирование^[en]	Извлечение предложений^[en] Генерация реферата Многодокументное реферирование^[en] Упрощение текста^[en]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[en] На основе правил На основе примеров На основе словаря^[en] Статистический Синхронный Трансферный^[en]
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование^[en]	Автоматизированная оценка сочинений^[en] Конкордансер^[en] Предективный ввод текста Система проверки грамматики^[en] Система проверки правописания Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Автоматизированный онлайн-помощник^[en] Виртуальный собеседник Вопросно-ответная система Интерактивная литература