«Яндекс» запустил сервис «Поиск по архивам», в котором есть больше 2,5 млн страниц исторических рукописных документов с текстовой расшифровкой. Для этого компания научила нейросети расшифровывать архивные записи со сложной дореволюционной орфографией, сообщает пресс-служба.
Специалисты обучили нейросеть на данных из сотен тысяч рукописных строк из реальных текстов 18-19 веков, а еще на десятках миллионов сгенерированных примеров. Новый алгоритм учитывает особенности почерка, определяет утратившие актуальность буквы и понимает особую структуру архивных документов.
Эксперты разметили и расшифровали материалы для обучения, они же следили за качеством распознавания. Технология превращает рукописи в печатный текст «почти мгновенно», говорится в сообщении.
«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах „Яндекса“», — сказала руководитель поиска компании Елена Бубнова.
Сервис пригодится историкам, социологам, демографовам, генеалогам, а еще тем, кто ищет информацию о своей семье. Разработчики обучали нейросеть на материалах Главархива Москвы, затем базу пополнили документами из архивов Оренбургской и Новгородской областей. Со временем авторы обещают увеличивать количество хранилищ и доступных отсканированных материалов.
Как пользоваться сервисом?
В базе можно искать документы по каталогам или через строку поиска — например, введя в нее фамилию или населенный пункт. Среди материалов есть метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения. Предусмотрены фильтры по годам, архивам, фондам и описям.
Рядом со сканом каждой страницы показывается построчная расшифровка, созданная нейросетями компании. Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.