EconPapers    
Economics at your fingertips  
 

Автоматический поиск опорных элементов на документах полужесткой структуры

Ланин М. О.
Additional contact information
Ланин М. О.: Московский физико-технический институт (государственный университет); ООО «Аби Продакшн»

Бизнес-информатика, 2014, issue 4 (30), 17-23

Abstract: Статья посвящена проблеме потокового извлечения данных из документов полужесткой структуры, для которых слабо применимы методы сплошного оптического распознавания символов. Для облегчения процесса создания структурных описаний таких документов широко используются методы машинного обучения. Тем не менее, существующие решения по-прежнему достаточно сложны для конечного пользователя, поскольку требуют ручного описания элементов структуры документа, не имеющих прямого отношения к извлекаемым данным. В работе рассматривается возможный подход к описанию изображений документов переменной структуры, используемый в системе потокового ввода ABBYY FlexiCapture, а также метод автоматического построения такой структурной модели по разметке всех элементов структуры. Подробно описывается алгоритм автоматического поиска опорных элементов по пользовательской разметке извлекаемых данных, позволяющий значительно облегчить с точки зрения пользователя процесс создания структурной модели документа ABBYY FlexiCapture. Интеграция описанной технологии обучения на этапе верификации извлекаемых данных позволяет инкрементально улучшать структурную модель документа, при этом все, что требуется от конечного пользователя исправлять неверно найденные в процессе ввода регионы извлекаемых полей. Также в статье описан метод и результат оценки эффективности предложенного подхода. Описанный способ поиска опорных элементов показал свою применимость на реальных платежных документахряда немецких поставщиков: 89,3% счетов могут быть обработаны без ошибок при минимальном участии пользователя, при этом верно извлечены данные из 97,8% полей.

Keywords: СИСТЕМА ПОТОКОВОГО ВВОДА; ДОКУМЕНТЫ ПОЛУЖЕСТКОЙ СТРУКТУРЫ; СТРУКТУРНОЕ ОПИСАНИЕ ИЗОБРАЖЕНИЯ ДОКУМЕНТА; ОПОРНЫЕ ЭЛЕМЕНТЫ; РЕПЕРЫ; ПОЛЯ; РАЗМЕТКА ПОЛЕЙ; МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ; ЧАСТОТНЫЙ СЛОВАРЬ (search for similar items in EconPapers)
Date: 2014
References: Add references at CitEc
Citations:

Downloads: (external link)
http://cyberleninka.ru/article/n/avtomaticheskiy-p ... luzhestkoy-struktury

Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.

Export reference: BibTeX RIS (EndNote, ProCite, RefMan) HTML/Text

Persistent link: https://EconPapers.repec.org/RePEc:scn:025686:15695852

Access Statistics for this article

More articles in Бизнес-информатика from CyberLeninka, Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет «Высшая школа экономики»
Bibliographic data for series maintained by CyberLeninka ().

 
Page updated 2025-03-20
Handle: RePEc:scn:025686:15695852