Авторский инвариант (англ. writer invariant, authorial invariant, author's invariant) — это количественная характеристика литературных текстов или некий параметр, который однозначно характеризует своим поведением произведения одного автора или небольшого числа «близких авторов», и принимает существенно разные значения для произведений разных групп авторов.[источник не указан 498 дней] Авторский инвариант применяется в задаче идентификации авторства текста.
Задача идентификации авторства текста — это задача установления авторства неизвестного текста с помощью выделения особенностей авторского стиля и сравнения этих особенностей с другими произведениями, авторство которых известно.
Основные свойства, которыми должна обладать числовая характеристика авторского инварианта:
Такими количественными характеристиками могут быть:
Формулировка задачи идентификации автора текста при ограниченном наборе альтернатив выглядит следующим образом:[1]
— множество текстов,
— множество авторов.
Для некоторого подмножества текстов авторы известны , т.е. существует множество пар «текст–автор» . Необходимо установить, кто из множества является истинным автором остальных текстов (анонимных или спорных)
Методика включает последовательность следующих действий:[1]
Программное обеспечение, используемое для идентификации авторства текста, по основным задачам можно разделить на несколько типов:[2]
Название программы (Application name) | Автор (Developer) | Сайт (Website) | Описание (Description) |
---|---|---|---|
Программы для определения авторства текста | |||
Штампомер | Делицын Л. Л. | Штампомер | Программа статистического анализа текста и определения авторства. |
Лингвоанализатор[3] | Хмелев Д. В. | Лингвоанализатор | Программа математического анализа структуры текста. Работает онлайн. Специализируется на произведениях Русской Фантастики. Программа определяет близость входного текста к одному из авторов и в результате выдает трех наиболее вероятных авторов, для каждого указывая три наиболее близких произведения. |
СМАЛТ | ПетрГУ | СМАЛТ | Программа морфологического и синтаксического анализа текста. Специализируется на публицистике 60-70 гг 19 века. Программа обладает инструментарием для выявления статистических признаков литературных текстов по жанру и авторству. |
Стилеанализатор | Шевелев О. Г. | — | Программа анализа авторского стиля с точки зрения устойчивости, частоты и уникальности признаков автора. |
Программы выявления плагиата | |||
Антиплагиат | ЗАО «Анти-Плагиат», «Форексис» | Антиплагиат | Программа определения плагиата. Определяет степень схожести входного текста с текстами, размешенными в Интернете. |
Плагиат Информ | «СофтИнформ» | Плагиат Информ | Программа сравнивает входной документ с документами в 2 базах данных: базе из печатных источников и базе Интернет-статей. |
АУРА-Текст | СПбГУ | АУРА-Текст (недоступная ссылка) | Программа является инструментом проверки текстов курсовых, дипломных работ и диссертаций на наличие совпадений с внешними источниками. Специализируется на работах экономической тематики. |
Программы интеллектуального анализа данных | |||
Intelligent Miner for Text | IBM | Intelligent Miner for Text | Система состоит из нескольких программ с такими функциями как определение языка текста, классификация текстов, разделение документов на группы по близости стиля, выявление в документе ключевых слов, выявление смысла текста и составление аннотации. |
TextAnalyst, PolyAnalyst | Мегапьютер Интеллидженс | TextAnalyst, PolyAnalyst | PolyAnalyst-система автоматического анализа текста. В состав PolyAnalyst входит система TextAnalyst, занимающаяся задачами Text Mining: создание семантической сети текста, аннотация текста, кластеризация и классификация документов. |
Text Miner | SAS | Text Miner (недоступная ссылка с 13-05-2013 [2009 дней] — история) | Программа логической обработки текста. Программа интегрирует текстовую информация со структурированными данными. |
SemioMap | Semio Corporation | — | Система состоит из 2 основных компонент - сервера SemioMap и клиента SemioMap. Работа системы включает 3 фазы: сервер индексирует неструктурированный текст и извлекает ключевые фразы, сервер выявляет связи между фразами и строит на основе совместной встречаемости этих фраз лексическую сеть, сервер представляет эту сеть в виде графиков. |
Oracle Text, Oracle Data Mining | Oracle | Oracle Text, Oracle Data Mining | Oracle Text - программа статистического и лингвистического анализа текста. Для каждого текста программой определяются ключевые темы, строится тематическое резюме и общее резюме-реферат. |
Knowledge Server | Autonomy | Knowledge Server | Программа статистического анализа текста. В программе применяются интеллектуальные алгоритмы, основанные на статистической обработке. |
Программы, составляющие психологический портрет автора текста | |||
ЛИНГВА-ЭКСПРЕСС | Батов В. И. | — | Программа выявления особенностей речевого поведения и характера автора. |
Prostyle | США | — | Программа стилистического анализа текста, определяющая факторы расхождения между двумя документами. |
ВААЛ | Белянина В. П. | ВААЛ | Программа фоносемантического анализа текста. |
Анализ известных методов определения авторства показал, что пока не существует универсального подхода, обеспечивающего стабильный достоверный результат. Небольшой объем текстов, действительно нуждающихся в атрибуции, не позволяет применять большинство известных методов.[4] Таким образом, можно сделать вывод, что к настоящему времени на рынке не представлено эффективных программных решений, предназначенных для определения авторства текста.[5]
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .