АТАПИ Софтвер - поставка и внедрение систем ввода данных, систем  документооборота, разработка OCR-приложений, приложений машинного зрения, оцифровка печатных материалов и архивных данных
Решения оптического распознавания и оптимизации документооборота
Скачать в формате PDF

Оцифровка датского литературного канона для датской королевской библиотеки

Компания АТАПИ провела работы по оцифровке и конвертации в XML корпуса текстов, созданных датскими авторами за период с XI по XX век


'Работать с АТАПИ было очень приятно. Нас очень впечатлило внимательное отношение к источнику и высокое качество результатов.'

Вирджиния Лаурсен
Веб-мастер
Датская королевская библиотека


Датская королевская библиотека является обладателем самой большой коллекции книг в северной Европе и видит свою миссию в том, чтобы сохранять это культурной наследие и обеспечивать заинтересованным читателям доступ к нему. В 2001 году библиотека начала масштабный проект под названием Archiv for Dansk Literattur («Архив датской литературы»), который заключался в оцифровке и публикации ключевых произведений датской классической литературы, созданных авторами за период с XI по XX вв., тщательно отобранных специальной экспертной комиссией. Конечной целью проекта было предоставление читателям доступа к этим источникам через Интернет-портал библиотеки.

old danish books digitizationМатериал отличался большим разнообразием с точки содержания (стихи, проза), языковых особенностей (источники на стародатском, современном датском, других языках) и форматирования (рисунки, таблицы, примечания, комментарии). Чтобы оцифровать все эти разнообразные материалы в обозримые сроки и в рамках разумного бюджета, требовался подрядчик с довольно уникальным предложением услуг. С одной стороны, задачу можно было в значительной степени автоматизировать и, следовательно, удешевить, при помощи технологий оптического распознавания. Значит, в качестве подрядчика нужно было рассматривать ИТ-компанию, которая занимается разработками в области OCR и умеет настраивать эти технологии – обеспечивать максимальную точность распознавания на конкретном материале. С другой стороны, специфика материала подсказывала, что в проекте неизбежна значительная часть ручного операторского труда. Для такой работы требовалось сервис-бюро с квалифицированными операторами и отлаженными процедурами контроля качества. В идеале, библиотеке нужен был подрядчик, который предложил бы ей оба набора услуг; причём, по разумной стоимости. И такой подрядчик нашёлся.

Им оказалась наша компания – разработчик прикладных решений в области оптического распознавания и ввода данных с сильным отделом оцифровки, партнёр одного из мировых лидеров в области разработки OCR-продуктов, компании ABBYY. В 2001 году наша компания ещё была стартапом, но в ней уже трудились специалисты с богатым опытом в области OCR-разработок и штат квалифицированных операторов с лингвистическим образованием, обученных всем технологическим тонкостям работы с продуктом ABBYY FineReader. Выполнив несколько «пилотных» заданий, компания АТАПИ доказала, что обладает достаточной квалификацией для выполнения проекта - и проект начался.

Процедура оцифровки книг состояла из трёх основных этапов:

  • Преобразование отсканированных изображений в текстовый формат. Библиотека присылала материалы (отсканированные страницы книг) в формате TIFF. Качество изображения было исключительно хорошим, что явилось важным вкладом в успех проекта. Страницы проходили автоматическую обработку при помощи программы ABBYY FineReader. Результаты автоматического распознавания проверялись (верифицировались) операторами.
    Специалисты АТАПИ проводили «тонкую» настройку программы ABBYY FineReader на конкретный тип материала (ту или иную книгу или книги, для которых характерны определённые особенности форматирования, начертания шрифтов и т.д.), позволяя программе максимально точно выполнить сегментацию (отделения текста от иллюстраций) и распознавание текста. Такой подход был особенно актуален для старых книг. Особое внимание уделялось фрагментам текста, написанным не по-датски (на древнегреческом, иврите и т.д.); некоторые такие фрагменты даже не могли быть распознаны при помощи OCR. Здесь очень важную роль сыграла лингвистическая квалификация операторов АТАПИ. Проблема присутствия в тексте символов нестандартного начертания решалась полуавтоматической заменой в тексте при помощи специальной вспомогательной программы. Проверенный и исправленный (верифицированный) текст экспортировался в формате Microsoft Word ®.
  • Следующим этапом была подготовка первоначального XML-документа. Группа XML-операторов, вооруженных арсеналом специализированных полуавтоматических инструментов, размечала документ в формате MS Word XML-тэгами. Это была довольно сложная задача, поскольку полный список тэгов содержал более 50 наименований, и только половину из них можно идентифицировать и разметить автоматически. Остальное необходимо было искать и размечать вручную - в тексте преимущественно на датском языке.
  • На заключительном этапе осуществлялась сборка XML файла. Как только была закончена разметка страниц, XML-специалисты собирали книгу, добавляя тэги, общие для всей книги, и библиографическую информацию.

Так как АТАПИ – компания-разработчик программного обеспечения, многие вопросы решались написанием и применением специфических программных инструментов в каждой фазе проекта. Благодаря такому подходу, уже во время работы над проектом компания постепенно сократила время обработки страницы ещё на 10 - 20% от первоначального, обеспечив дополнительную экономию средств для клиента.

Координаторы проекта со стороны библиотеки высоко оценили качество услуг АТАПИ и подход наших специалистов к работе. Все готовые книги в настоящее время доступны на портале библиотеки по адресу http://www.adl.dk/.

К настоящему моменту наша компания уже стала экспертом в области оцифровки самых разнообразных материалов. Через руки наших специалистов прошли такие источники как библиотечные карточки, энциклопедия Ландольта-Бёрнштейна, архивные подшивки исторической и современной прессы, редкие издания старше XIX в. и другие материалы всех жанров и форматов. Кроме датской королевской библиотеки, в списке наших клиентов издательство Шпрингер (Германия), Британская библиотека, шведская национальная библиотека, Шведский Королевский театр, университеты г. Иннсбрука (Австрия), Гётеборга (Швеция) и другие организации. Качественная обработка текстов на любом языке с эффективным использованием средств автоматизации, высокая квалификация операторов, хорошо поставленные процессы проектного управления и управления качеством, бюджетная стоимость услуг – всё это мы рады предложить компаниям и организациям, которые работают над сохранением культурного наследия и оцифровкой ценных данных - исторических, архивных или научных.

О Датской королевской библиотеке

Датская королевская библиотека является национальной библиотекой Дании и крупнейшей библиотекой Северной Европы. Библиотека является владельцем ряда ценных исторических коллекций. Здесь представлены почти все известные датские печатные источники начиная с ХVII века; вплоть до самой первой датской книги, напечатанной в 1482 году.

Наши основные проекты в этой области

Оцифровка новосибирского городского архива

Оцифровка двуязычных словарей для продукта ABBYY Lingvo

Ввод анкет заявителей для проекта "Транспортная карта" в г. Новосибирске