Статья в печатном журнале — это сложный и графически не однородный материал. Как правило, статья состоит из заголовка и подзаголовков, нескольких колонок текста и иллюстраций, причем все элементы находятся в строгой логической взаимосвязи.
Чтобы перевести статью из печатной формы в цифровую, сначала нужно отсканировать страницу журнала, а потом «распознать» ее с помощью специальной программы.
Этот этап — самый сложный, потому что все элементы статьи должны быть расположены в строгой смысловой последовательности. Нельзя, например, поменять местами блоки текста или расположить заголовок посредине статьи.Схема распознавания текстов по технологии Google.
Технология, предложенная Google, предполагает два этапа распознавания: сегментирование блоков и сегментирование статей. В ходе сегментирования блоков программа разбивает статью на отдельные элементы — текст, заголовки, подзаголовки, картинки, а затем определяет, принадлежат эти элементы к одной статье или к разным, и устанавливает последовательность, в которой они должны быть расположены.
Заявку на патент компания подала в августе 2008 года. Изобретенная Google технология получила название «Сегментирование страниц печатных СМИ в статьи», передает TG Daily. Вероятно, Google будет использовать свое ноу-хау для добавления материалов из журналов и газет в электронную библиотеку Google Books — если удастся договориться с правообладателями.