Автоматический поиск опорных элементов на документах полужесткой структуры
Ланин М. О.
Additional contact information
Ланин М. О.: Московский физико-технический институт (государственный университет); ООО «Аби Продакшн»
Бизнес-информатика, 2014, issue 4 (30), 17-23
Abstract:
Статья посвящена проблеме потокового извлечения данных из документов полужесткой структуры, для которых слабо применимы методы сплошного оптического распознавания символов. Для облегчения процесса создания структурных описаний таких документов широко используются методы машинного обучения. Тем не менее, существующие решения по-прежнему достаточно сложны для конечного пользователя, поскольку требуют ручного описания элементов структуры документа, не имеющих прямого отношения к извлекаемым данным. В работе рассматривается возможный подход к описанию изображений документов переменной структуры, используемый в системе потокового ввода ABBYY FlexiCapture, а также метод автоматического построения такой структурной модели по разметке всех элементов структуры. Подробно описывается алгоритм автоматического поиска опорных элементов по пользовательской разметке извлекаемых данных, позволяющий значительно облегчить с точки зрения пользователя процесс создания структурной модели документа ABBYY FlexiCapture. Интеграция описанной технологии обучения на этапе верификации извлекаемых данных позволяет инкрементально улучшать структурную модель документа, при этом все, что требуется от конечного пользователя исправлять неверно найденные в процессе ввода регионы извлекаемых полей. Также в статье описан метод и результат оценки эффективности предложенного подхода. Описанный способ поиска опорных элементов показал свою применимость на реальных платежных документахряда немецких поставщиков: 89,3% счетов могут быть обработаны без ошибок при минимальном участии пользователя, при этом верно извлечены данные из 97,8% полей.
Keywords: СИСТЕМА ПОТОКОВОГО ВВОДА; ДОКУМЕНТЫ ПОЛУЖЕСТКОЙ СТРУКТУРЫ; СТРУКТУРНОЕ ОПИСАНИЕ ИЗОБРАЖЕНИЯ ДОКУМЕНТА; ОПОРНЫЕ ЭЛЕМЕНТЫ; РЕПЕРЫ; ПОЛЯ; РАЗМЕТКА ПОЛЕЙ; МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ; ЧАСТОТНЫЙ СЛОВАРЬ (search for similar items in EconPapers)
Date: 2014
References: Add references at CitEc
Citations:
Downloads: (external link)
http://cyberleninka.ru/article/n/avtomaticheskiy-p ... luzhestkoy-struktury
Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.
Export reference: BibTeX
RIS (EndNote, ProCite, RefMan)
HTML/Text
Persistent link: https://EconPapers.repec.org/RePEc:scn:025686:15695852
Access Statistics for this article
More articles in Бизнес-информатика from CyberLeninka, Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет «Высшая школа экономики»
Bibliographic data for series maintained by CyberLeninka ().