Markov Chains in the Task of Author’s Writing Style Profile Construction/ Markova ķēžu pielietošanas iespēju izpēte autora stila identifikācijai/ Исследование возможностей применения Марковских цепей для идентификации авторского стиля
Osipovs Pavels (),
Rinkevics Andrejs (),
Kuleshova Galina () and
Borisov Arkady ()
Additional contact information
Kuleshova Galina: Riga Technical University
Borisov Arkady: 1-4 Riga Technical University
Information Technology and Management Science, 2014, vol. 17, issue 1, 119-125
Abstract:
В статье описано исследование возможностей применения Марковских цепей в задаче построения модели авторского стиля. Моделирование особенностей стилистики человека является актуальной задачей. Имея такую модель, возможно сравнивать с ней различные тексты, авторство которых не установлено. Итогом такого сравнения будет уровень сходства авторских стилей двух текстов. Если он достаточно высок, то можно говорить о том, что оба текста написал один и тот же человек. Использование модели авторского стиля делится на две условные части: обучение модели и непосредственно ее использование для анализа текста. Построение модели происходит на наборах текстов, для которых заведомо известно авторство. В итоге созданная модель хранит в себе особенности построения фраз и словосочетаний конкретного человека. Важной особенностью подхода на данном этапе является требование использовать для обучения тексты большого объёма. На этапе использования обученная модель применяется для вычисления уровня сходства стиля с анализируемым текстом. Рассмотрена основная теоретическая база построения графа Марковской цепи, основываясь на авторском тексте. Рассматривается возможность дополнительной очистки текста перед его использованием для обучения модели и влияние этого на итоговый результат классификации. Произведены различные эксперименты для оценки влияния параметров используемого алгоритма на эффективность классификации. Итоговый уровень корректных результатов находится в районе 60-80 %, что сравнительно неплохо. Дальнейшие исследования должны увеличить уровень распознавания
Date: 2014
References: View complete reference list from CitEc
Citations:
Downloads: (external link)
https://doi.org/10.1515/itms-2014-0018 (text/html)
Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.
Export reference: BibTeX
RIS (EndNote, ProCite, RefMan)
HTML/Text
Persistent link: https://EconPapers.repec.org/RePEc:vrs:itmasc:v:17:y:2014:i:1:p:119-125:n:18
DOI: 10.1515/itms-2014-0018
Access Statistics for this article
Information Technology and Management Science is currently edited by J. Merkurjevs
More articles in Information Technology and Management Science from Sciendo
Bibliographic data for series maintained by Peter Golla ().