Разработчики российского редактора PDF Commander представили масштабное обновление модуля распознавания текста (OCR). Программа получила нейросетевой алгоритм для работы со сложными макетами и поддержку более 100 языков, что должно упростить оцифровку архивов и интеграцию документов в CRM-системы.
Работа с «нечитаемыми» сканами долгое время оставалась узким местом в делопроизводстве: данные из таких файлов невозможно скопировать или найти через поиск без ручного перенабора. Обновленный алгоритм PDF Commander решает эту задачу через гибридный подход. Пользователям стали доступны два режима: «быстрый» для качественных сканов и «интеллектуальный», который задействует нейросети для расшифровки мелких шрифтов и документов с низким разрешением.Нейросети и точность верстки
Главным технологическим изменением стала возможность ручной сегментации макета. Теперь пользователь может самостоятельно разметить области документа, указав программе, где находятся таблицы, где — текстовые колонки, а где — иллюстрации. Такой подход исключает ошибки при распознавании нестандартных бланков, юридических договоров и бухгалтерской отчетности.Дополнительно разработчики внедрили поддержку более 100 языков, пакеты которых загружаются из облака по мере необходимости. Это расширяет возможности работы с иностранными контрагентами и международной документацией.
Оцифровка для бизнеса и госсектора
По словам представителей компании, обновление OCR-модуля продиктовано ростом объема электронного документооборота. Новые инструменты адаптированы под конкретные бизнес-задачи:- извлечение данных для интеграции в системы CRM и ERP;
- массовая оцифровка бумажных архивов и библиотечных фондов;
- подготовка сканов к полноценному редактированию с сохранением структуры.

Комментарии (0)
Пока нет комментариев. Будьте первым!