«Яндекс.Диск» научился распознавать текст на изображениях
Пользователи файлообменника теперь могут искать сохраненные на нем изображения по текстовым запросам

В «Яндекс.Диске» появилась возможность искать изображения по текстовым запросам,
Поиск по текстам позволит быстрее находить нужные сканы документов, фотографии визиток и объявлений и других изображений, на которых содержится текст.
«В основе поиска текстов на изображениях лежит технология оптического распознавания символов. Яндекс разработал свою универсальную систему распознавания текста, успешно работающую на самых разных по содержанию и качеству картинках», — говорится в пресс-релизе компании.
На основе этой же технологии работает поиск похожих изображений в «Яндекс. Картинках». Точность распознавания текстов на русском языке составляет около 80 процентов. Для фотографий она ниже — около 63 процентов, а для скриншотов приближается к стопроцентной точности. Помимо русского языка, система также распознает английский, украинский и турецкий.
Система состоит из двух частей — классификатора картинок и модуля распознавания. Сначала классификатор отбирает из всех картинок те, на которых изображен текст. Обучающаяся система отличает их от прочих благодаря своему опыту анализа миллионов разных картинок.
Когда изображения с текстом отобраны, алгоритм находит на них линии с текстом. Затем модуль распознавания разбивает линии на отдельные символы. Для каждого алгоритм выбирает несколько наиболее вероятных вариантов распознавания. Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга. После этого алгоритм решает, какой из символов подходит лучше всего на основе языковой модели, которая опирается на словари и учитывает не только сходство букв и знаков, но и контекст.
