АТАПИ Софтвер - поставка и внедрение систем ввода данных, систем  документооборота, разработка OCR-приложений, приложений машинного зрения, оцифровка печатных материалов и архивных данных
Решения оптического распознавания и оптимизации документооборота
Скачать в формате PDF

Оцифровка двуязычных словарей европейских языков для продукта ABBYY Lingvo

'Для материалов немецко-русского словаря достигнута точность результатов 99.992% (не более 1 ошибки на 8 760 символов), для испанско-русского - 99.997% (не более 1 ошибки на 31 500 символов). В дополнение к этому, специалисты АТАПИ исправили ряд ошибок в текстах самих источников, включая типографские опечатки и ошибки в словарных условных обозначениях - такие артефакты практически невозможно обнаружить без специальных программных инструментов и познаний в лингвистике.'

Анна Жаворонкова
Менеджер проектов
ABBYY Software

В нынешнюю эпоху стремительной глобализации электронные словари и системы машинного перевода получают все более широкое распространение. Компания ABBYY, которая известна на мировом рынке, прежде всего, своими продуктами оптического распознавания и ввода данных, является также разработчиком линейки электронных словарей ABBYY Lingvo. Этот продукт постоянно развивается и совершенствуется; в настоящее время многоязычная версия словаря поддерживает уже 20 разных языков. Но когда-то давно, когда всё только начиналось, словарь поддерживал только англо-русскую версию, и компания ABBYY ставила перед собой задачу добавить в него поддержку основных европейских языков. Чтобы обогатить лексическую и фразеологическую базу данных по каждому конкретному языку, ABBYY потребовалось оцифровать ряд двуязычных словарей, отражающих современное состояние этих языков. Набор таких словарей по каждому из языков был тщательно отобран лингвистами ABBYY. Однако, задача оцифровки этого массива источников была очень объёмной, и компания ABBYY приняла решение привлечь подрядчика - нашу компанию.

ABBYY поставили нам задачу оцифровать два словаря: немецко-русского словаря под редакцией А. А. Лепинга (3 тома, 1750 страниц) и испанско-русский словарь под редакцией Б.П. Нарумова (1 том, 830 страниц) - в формат базы данных Lingvo.

Главным требованием проекта была высокая точность текстовых данных. Ошибка в одном символе в начале слова могла нарушить алфавитный порядок слов в словаре и оторвать слово из его парадигмы. После определённого (довольно небольшого) количества таких ошибок стал бы невозможен адекватный поиск по словарю. Не менее важна для проекта была правильная интерпретация условных обозначений. Такие обозначения использовались в качестве разделителей в процессе конвертации материала в формат базы данных - поэтому было жизненно необходимо было обеспечить точность распознавания этих символов, близкую к 100%. Условные обозначение могли представлять из себя определённые характеристики форматирования текста (жирность, курсив), специальные символы (различного вида скобки, звездочки), либо комбинацию того и другого (пометка в скобках, набранная курсивом, обозначающая комментарий). Пропуск одной лишь скобки или потеря курсива могли нарушить структуру словарной статьи. Поэтому для выполнения проекта требовалась высокая квалификация как программистов, так и операторов ввода.

Словари были отсканированы и автоматически распознаны с помощью программы ABBYY FineReader, которую специалисты АТАПИ специальным образом настроили для адекватного распознавания материала словарей, с учётом специфики их как источника. Затем команда операторов с лингвистическим образованием вычитала и исправила распознанный текст, используя методику двойной верификации, чтобы обеспечить максимально высокое качество. Эта техника позволила обнаружить и исправить такие артефакты как опечатки в исходном тексте.

Чтобы оптимизировать работу верификаторов, компания разработала несколько собственных программных инструментов, в том числе прикладную программу Glyphica, предназначенную для быстрого ввода символов, отсутствующих в стандартной клавиатурной раскладке. Для словаря под редакцией А. А. Лепинга был создан конвертер со встроенной проверкой орфографии и пунктуации; это позволило найти ряд ошибок, оставшихся незамеченными на предыдущих стадиях работы, и автоматически конвертировать материал в формат базы данных словаря ABBYY Lingvo.

О компании ABBYY

Компания ABBYY, основанная в 1989 г., занимается разработкой программных продуктов в области оптического распознавания, ввода данных и прикладной лингвистики. Сегодня продуктами ABBYY в мире пользуются свыше 40 миллионов человек*. Компания ABBYY присутствует в 13 странах мира; её продукты активно используются в более чем  в 200 странах мира. Головной офис компании расположен в Москве.