Математики СПбГУ научили нейронную сеть узнавать человеческий почерк
Они разработали программу, благодаря которой можно исследовать любое рукописное произведение любого автора на любом языке.
С помощью этого алгоритма аспирантам Университета Александру Сенову и Андрею Боярову из научной группы профессора СПбГУ О. Н. Граничина совместно с сотрудниками Лаборатории по анализу и моделированию социальных процессов при СПбГУ удалось установить, что двухтомник «Аль-Хитат» («Описание Египта»), находящийся в собрании Мичиганского университета — это не одна из многочисленных копий, как считалось ранее, а оригинал топографического описания Египта, написанный рукой историка XV века Такиюддина аль-Макризи (1344–1442).
«Умная» сеть
Чтобы научить компьютер отличать почерк египетского историка от многих других почерков, математики использовали активно набирающую популярность методику машинного обучения — искусственную нейронную сеть. Это модель, построенная в соответствии с теми же фундаментальными принципами, которые лежат в основе работы человеческого мозга, состоящего из 100 миллиардов нервных клеток и многих триллионов связей между ними. «Искусственный нейрон — очень простой модуль, который выполняет очень простую математическую операцию (обычно это перемножение, суммирование и поиск максимальных значений), — объяснил Андрей Бояров. — То, что нейронов много, позволяет использовать входные данные для того, чтобы обучить программу аппроксимировать сложные нелинейные функции. Под аппроксимацией в данном контексте имеется в виду оценка функции: нейронная сеть обучается и таким образом строит оценку функции, с помощью которой порождались данные».
Труд аль-Макризи «Аль-Хитат» («Описание Египта») — это подробное топографическое описание Александрии, Фустата (древнее название Каира), пирамид, сфинкса и других египетских древностей. Оно считается самым знаменитым трудом египетского историка. Всего известно около 200 трудов аль-Макризи, в основном они дошли до нас в списках (копиях). Он также подробно описал события истории Египта при трех династиях: шиитской династии Фатемидов, суннитской династии Аюбидов и последовавших за ними Мамлюков, которые были современниками историка.
Это сочинение представляет огромную ценность, поскольку в нем зафиксировано состояние знаменитых египетских древностей в XV столетии. К сожалению, до нас не дошли ни рисунки, ни, тем более, фотографии, сделанные в это время; немногочисленные путешественники также не оставили своих письменных свидетельств. Значимость «Аль-Хитат» подтверждает тот факт, что он стал одним из первых произведений, напечатанных в Египте, — до середины XIX в. арабский мир не знал типографского станка, когда же он появился в Египте, «Аль-Хитат» был отобран для публикации. Это произошло в 1854 году.
Как и в живом мозге, нейроны получают входные сигналы, передают их на следующий слой, в результате чего последний ряд нейронов получает результат, который программа затем сравнивает с правильным ответом с помощью специально определенной функции ошибки. После этого она корректирует последовательность реакций и переходит к обучению на других примерах. Обучение считается законченным, когда программа находит минимум функции ошибки.
В качестве обучающего материала ученые использовали рукописи восьми разных авторов, среди которых был и аль-Макризи. Скользящее окно с параметрами 80 на 80 пикселей шаг за шагом исследовало средневековые манускрипты, в результате чего были получены десятки тысяч маленьких картинок с фрагментами образцов почерка, которые «скормили» нейронной сети. Пропустив информацию через все слои, сеть выдала множество результатов, некоторые из которых были ошибочными. После этого «неудачные ответы» еще раз пропустили через сеть, изменяя ее, чтобы уменьшить вероятность ошибки — это действие повторялось очень много раз. Уже обученной сети приходилось иметь дело с картинками из неизвестного ей ранее манускрипта, после чего она с вероятностью от 0 до 1 определяла — принадлежит эта рукопись перу аль-Макризи или нет, при этом положительными математики считали значения, превышающие порог 0,5.
Фокус на изображении
Нейронные сети, которые выбрали Александр Сенов и Андрей Бояров, называют свёрточными (convolutional neural network), поскольку в них содержится свёрточный слой, отлично справляющийся с задачей анализа изображения. Такие же сети, например, использовали авторы набирающего во всем мире популярность приложения Prisma (тоже, кстати, разработанного российскими программистами), позволяющего владельцам смартфонов превращать свои селфи в полотно кисти Мунка или Кандинского. Изобретателем convolutional neural network считается французский ученый Ян Лекун (Yann LeCun) — в 90-е годы он придумал свою первую сеть для анализа цифрового кода на магазинных чеках, а сейчас возглавляет крупную лабораторию искусственного интеллекта. Главным отличием искусственной нейронной сети от других похожих методик является то, что сеть обучается, а не программируется — это ее основное преимущество перед традиционными алгоритмами, благодаря которому машины (например, роботы) получают возможность самостоятельно искать закономерности в больших объемах данных и даже играть в игры (см. Google AI algorithm masters ancient game of Go, Nature, 27 января 2016). Возможно, когда-нибудь это позволит им захватить человечество, а пока подобные алгоритмы широко применяются в автопилотах, фотокамерах и используются в системах распознавания объектов.
Перспективы междисциплинарного сотрудничества
Разработку петербургских ученых уже назвали прорывом — причем как в математике, так и в востоковедении. Как рассказал руководитель научной лаборатории по анализу и моделированию социальных процессов при СПбГУ Александр Кныш, для такого обозначения междисциплинарного сотрудничества существует термин Digital Humanities — цифровые гуманитарные науки. По его мнению, в ближайшем будущем перед новым поколением гуманитариев и социологов будет стоять трудная задача — доказать, что эти области знания способны воспринять и продуктивно использовать информационные технологии. Именно поэтому междисциплинарные исследования, которые проводятся в СПбГУ, так актуальны.
Далее сотрудники научной лаборатории по анализу и моделированию социальных процессов собираются заняться стилистическим анализом произведений исламского богослова, правоведа, историка и мистика Абу Хамида аль-Газали (умер в 1111 году). «Это очень важная фигура для суннитского ислама — в христианской культуре подобное значение имеет величайший богослов Фома Аквинский, у которого до сих пор есть последователи. Аль-Газали принадлежит свод работ под названием «Воскрешение наук о вере», которая является мусульманским аналогом Summa Theologica Фомы Аквинского. Ему приписывают также и сочинение более мистического характера «Ниша света» — исследователи считают, что оно нетипично для этого автора и, возможно, является подделкой, — объяснил Александр Кныш. — Чтобы решить спор, нам также потребуется математический инструмент, только анализировать нужно будет уже не особенности почерка, а содержание рукописей, образ мысли, находящий отпечаток в стиле изложения автора. Для этого тексты аль-Газали надо перевести в цифровой формат, буквально создать файл MS Word. Но нельзя сказать, что после этого мы получим универсальную программу, которая сможет определить авторство вообще любого текста. Сложность заключается в том, что стиль каждого автора индивидуален, и в каждом случае машину приходится обучать заново».