В России создали сервис для расшифровки архивных документов нейросетью

«Яндекс» запустил сервис «Поиск по архивам», в котором есть больше 2,5 млн страниц исторических рукописных документов с текстовой расшифровкой. Для этого компания научила нейросети расшифровывать архивные записи со сложной дореволюционной орфографией, сообщает пресс-служба.

Специалисты обучили нейросеть на данных из сотен тысяч рукописных строк из реальных текстов 18-19 веков, а еще на десятках миллионов сгенерированных примеров. Новый алгоритм учитывает особенности почерка, определяет утратившие актуальность буквы и понимает особую структуру архивных документов.

Эксперты разметили и расшифровали материалы для обучения, они же следили за качеством распознавания. Технология превращает рукописи в печатный текст «почти мгновенно», говорится в сообщении.

«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах „Яндекса“», — сказала руководитель поиска компании Елена Бубнова.

Сервис пригодится историкам, социологам, демографовам, генеалогам, а еще тем, кто ищет информацию о своей семье. Разработчики обучали нейросеть на материалах Главархива Москвы, затем базу пополнили документами из архивов Оренбургской и Новгородской областей. Со временем авторы обещают увеличивать количество хранилищ и доступных отсканированных материалов.

Как пользоваться сервисом?

В базе можно искать документы по каталогам или через строку поиска — например, введя в нее фамилию или населенный пункт. Среди материалов есть метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения. Предусмотрены фильтры по годам, архивам, фондам и описям.

Рядом со сканом каждой страницы показывается построчная расшифровка, созданная нейросетями компании. Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.

Материалы по теме

Аркадий Волож сообщил сотрудникам «Яндекса» о своем уходе