WikiSort.ru - Лингвистика

ПОИСК ПО САЙТУ | о проекте

Вероятностный латентно-семантический анализ (ВЛСА), также известный как вероятностное латентно-семантическое индексирование (ВЛСИ, особенно в области информационного поиска) — это статистический метод анализа корреляции двух типов данных. Данный метод является дальнейшим развитием латентно-семантического анализа. ВЛСА применяется в таких областях как информационный поиск, обработка естественного языка, машинное обучение и смежных областях. Данный метод был впервые опубликован в 1999 году Thomas Hofmann^[en]^[1].

По сравнению с обычным латентно-семантическим анализом, который основан на линейной алгебре и является способом снижения размерности матрицы (как правило, с помощью разложения диагональной матрицы по сингулярным значениям — SVD), вероятностный латентно-семантический анализ основан на смешанном разложении, в свою очередь берущим своё начало из модели скрытых классов. Данный подход более принципиален, поскольку имеет прочную основу в области статистики.

Варианты pLSA

Иерархические расширения:
- Асимметричное: MASHA («Multinomial ASymmetric Hierarchical Analysis», «полиномиальный асимметричный иерархический анализ»)^[2]
- Симметричное: HPLSA («Hierarchical Probabilistic Latent Semantic Analysis», «Иерархический вероятностный латентно-семантический анализ»),^[3]

Генеративные модели: разработаны для решения часто критикуемых недостатков pLSA, а именно — того, что он является неправильной порождающей моделью для новых документов.
- Скрытое распределение Дирихле — добавляет распределение Дирихле в качестве априорного распределения тематик по документам

Данные высшего порядка: Хотя это редко обсуждается в научной литературе, pLSA, естественно, примени́м и для данных более высокого порядка (трёхуровневых и выше), то есть он может моделировать совместное поведение трёх и более переменных. В симметричной формулировке, данной выше, это делается простым добавлением условного распределения вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

Примечания

↑ Thomas Hofmann, Probabilistic Latent Semantic Indexing Архивировано 14 декабря 2010 года., Proceedings of the Twenty-Second Annual International SIGIR^[en] Conference on Research and Development in Information Retrieval^[en] (SIGIR-99), 1999
↑ Alexei Vinokourov and Mark Girolami, A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002
↑ Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, A Hierarchical Model for Clustering and Categorising Documents (недоступная ссылка), in «Advances in Information Retrieval — Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)», 2002

См. также

Тематическое моделирование

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] Thomas Hofmann, Probabilistic Latent Semantic Indexing Архивировано 14 декабря 2010 года., Proceedings of the Twenty-Second Annual International SIGIR^[en] Conference on Research and Development in Information Retrieval^[en] (SIGIR-99), 1999

[2] Alexei Vinokourov and Mark Girolami, A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002

[3] Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, A Hierarchical Model for Clustering and Categorising Documents (недоступная ссылка), in «Advances in Information Retrieval — Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)», 2002