Использование мер релевантности строка-текст для автоматизации рубрикации научных статей
Черняк Е. Л. and
Миркин Б. Г.
Additional contact information
Черняк Е. Л.: Национальный исследовательский университет «Высшая школа экономики»
Миркин Б. Г.: Национальный исследовательский университет «Высшая школа экономики»
Бизнес-информатика, 2014, issue 2 (28), 51-62
Abstract:
В большинстве задач семантического анализа текстовых материалов возникает потребность в использовании мер релевантности строка-текст. К таким задачам относится и задача рубрикации научных статей. Как правило, научные статьи индексируют согласно системе рубрик, заданной таксономией иерархической структурой рубрик (или понятий). Например, в научных журналах международной Ассоциации вычислительной техники (ACM), наиболее авторитетной в области информатики организации, статьи проиндексированы их авторами с использованием специально разработанной многоуровневой таксономии ACM CCS. В работе исследуется возможность автоматизации рубрикации научных статей с использованием мер релевантности строка-текст: в качестве строк используются темы таксономии, а в качестве текстов непосредственно тексты научных статей или некоторые их фрагменты. Мера релевантности трока-текст ставит им в соответствие некоторое число, которое может интерпретироваться по-разному в зависимости от используемой модели релевантности. Чем больше значение показателя релевантности, тем сильнее связь между строкой и текстом. В статье проведено экспериментальное сравнение различных мер релевантности строка-текст для автоматизации рубрикации научных статей. В эксперименте участвуют три меры: (а) косинусная мера релевантности, основанная на традиционном кодировании текстов с использованием tf-idf весов термов, (б) популярная характеристика вероятности порождения термов BM25 и (в) предложенная авторами характеристика условной вероятности символа в фрагментах, выделенных с использованием аннотированного суффиксного дерева, СУВСС. Для эксперимента использованы аннотации статей, опубликованных в журналах ACM, и таксономия ACM CCS 2012. В результате применения каждой из этих трёх мер получаются автоматические рубрикации статей списки таксономических тем, упорядоченных по убыванию оценки релевантности данной статье. Оценка качества полученных результатов осуществляется с помощью сравнения автоматической рубрикации с авторской: чем выше в соответствующем списке авторская тема, тем точнее получившаяся рубрикация. Точность рубрикации оценивается с помощью популярных мер MAP и nDCG, а также меры, характеризующей количество вхождений авторских тем в топ списка, предложенной в данной работе. Проведённые нами эксперименты показывают, что использование СУВСС существенно повышает точность рубрикации по сравнению с другими двумя мерами релевантности.
Keywords: МЕРЫ РЕЛЕВАНТНОСТИ СТРОКА-ТЕКСТ; АННОТИРОВАННЫЕ СУФФИКСНЫЕ ДЕРЕВЬЯ; РУБРИКАЦИЯ ТЕКСТОВ; МЕРА КАЧЕСТВА РУБРИКАЦИИ (search for similar items in EconPapers)
Date: 2014
References: Add references at CitEc
Citations:
Downloads: (external link)
http://cyberleninka.ru/article/n/ispolzovanie-mer- ... tsii-nauchnyh-statey
Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.
Export reference: BibTeX
RIS (EndNote, ProCite, RefMan)
HTML/Text
Persistent link: https://EconPapers.repec.org/RePEc:scn:025686:15695840
Access Statistics for this article
More articles in Бизнес-информатика from CyberLeninka, Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет «Высшая школа экономики»
Bibliographic data for series maintained by CyberLeninka ().