Чтобы развить интеллект, нужно только…

16 0

...использовать актуальные версии сервисов Directum Ario. И конечно, речь об интеллекте ваших информационных систем.

С последней новости о выходе сервисов Directum Ario прошло несколько месяцев. За это время вышло еще две модернизированные версии 2021.8 и 2021.11, которые способны усилить интеллектуальность системы. Об основных новинках расскажем подробнее.

Внутренние механизмы

Алгоритм удаления фонов из документов

Изображения или специальные символы и знаки, которые располагаются под текстом и используются в документах в качестве фона, ухудшают качество извлекаемого текстового слоя. Поэтому они требуют предварительного удаления.

Для этого в сервисах Ario использовался алгоритм, основанный на методе поиска границ изображения с помощью оператора Собеля. Но он не всегда точно и быстро обрабатывал сложные фоны, например фоны с использованием элементов гильош и тангирной сеткой. Для обработки таких фонов был добавлен новый алгоритм – connected components. Он основан на методе поиска на изображении компонент установленного размера, образующих сегмент, и последующем удалении связанных компонент меньше установленного значения:

Для удаления фона можно использовать как старый алгоритм Sobel, так и новый. Нужный алгоритм задается в параметре BackgroundRemover конфигурационного файла сервиса Directum Text Extractor Service. По умолчанию включена работа нового алгоритма.

Автоконфигурирование количества одновременно обрабатываемых страниц и документов

Чтобы количество одновременно обрабатываемых документов и страниц автоматически подстраивалось под доступный ресурс системы, в конфигурационных файлах изменено значение по умолчанию у соответствующих параметров prefetch_count (количество одновременно обрабатываемых запросов) и ParallelProcessingPageCount (количество одновременно обрабатываемых страниц).

Это позволяет не высчитывать значения параметров и вручную менять их в конфигурационных файлах, например, когда компания решает увеличить производительность сервера, на котором установлены сервисы Ario. В таком случае количество обрабатываемых документов и страниц подстраивается под новую мощность автоматически.

Подробнее о том, как вычисляется доступный ресурс системы и рассчитываются параметры, читайте в документации к сервисам.

Отметим, что для автоконфигурации пока существует и ограничение – при распределенной установке сервисов рекомендуется высчитывать и изменять параметры вручную.

Быстрый анализ последних ошибок

Оперативно оценить, что пошло не так, теперь можно с помощью checker.html. Достаточно запустить файл и изучить информацию в таблице, а визуальная подсветка красным поможет сразу обратиться к последней ошибке:

Если в работе сервиса ошибок нет, то таблица не отображается.

Для анализа также можно использовать лог-файлы или трассировки запросов. Подробнее о том, как анализировать и устранять некоторые виды ошибок с их помощью можно узнать в соответствующем разделе документации – «Устранение неисправностей».

Обучаемое извлечение фактов

Новые модели извлечения фактов

В базовую поставку сервисов включена модель извлечения фактов для железнодорожных билетов.

Перевод извлечения фактов на полностью обучаемое

Извлечение фактов из авиабилетов, железнодорожных билетов, а также из таблиц в УПД, счетах на оплату, ТОРГ-12 и актах теперь происходит только с помощью соответствующих моделей. Текстовые и табличные и правила отключены, а перечень фактов, извлекаемых из перечисленных видов документов, дополнен.

Таблицы счетов-фактур тоже переведены на обучаемое извлечение фактов, но имеют особенность. Факты из таблиц счетов-фактур новой формы, которая утверждена Постановлением Правительства Российской Федерации от 02.04.2021 №534, извлекаются по-прежнему с помощью правил. Таким образом, метод извлечения фактов из номенклатурной части счетов-фактур зависит от формы:

  • с помощью табличных правил – для счетов-фактур нового образца;
  • с помощью модели – для счетов-фактур старого образца.

 

Разметка документов в AVIA

Удобство работы с последними проектами

Стартовая страница приложения стала более информативной. Теперь по последним проектам разметки, кроме времени последних изменений и названия проекта, отображаются полный путь до него, а также сводка по количеству документов в проекте и количеству ошибок, допущенных при разметке:

При этом записи в истории проектов можно очистить целиком по кнопке Очистить историю или «поштучно»:

***

В статье перечислены основные новинки версий. Полный список новых возможностей можно изучить в документе «Изменения Directum Ario» на сайте поддержки.

Если остались вопросы, пишите комментарии к статье или узнайте подробную информацию о сервисах Ario в службе поддержки Directum по тел. +7(3412)72-67-06 или по электронной почте support@directum.ru.

 

 

Пока комментариев нет.

Авторизуйтесь, чтобы написать комментарий