Матанализ журналистских текстов как один из способов прогнозирования социально-политических кризисов
Математики и востоковеды Санкт-Петербургского университета разработали уникальный метод цифрового анализа текстов, написанных на арабском языке. Исследование большого массива газетных материалов с помощью новой программы позволило ученым зафиксировать пики изменений языковой структуры, которые соответствуют важным политическим и иным событиям современного арабского мира. При этом лингвистические колебания в текстах статей отображаются уже накануне этих событий.
В ходе исследования ученые-математики, не владеющие арабским языком, преобразовали тексты в гистограммы и увидели ряд колебаний с пиками, которые, как оказалось, соотносились по времени либо с изменениями в редакционной политике издания, либо с конкретными событиями в регионе. Интересно, что начало колебаний отмечалось еще до того, как они произошли. Новый метод математического анализа арабских текстов ученые протестировали на публикациях египетской газеты Al-Ahraam («Пирамиды») и ливанской Al-Akhbaar («Новости») за длительный период времени, охватывающий в том числе такие значимые социально-политические и экономические события, как «арабская весна» и др.
Благодаря союзу математики и социолингвистики мы можем не только получить косвенное отражение модели общества и происходящих в нем процессов, но в какой-то мере даже предсказать эти процессы.
Профессор СПбГУ Олег Редькин
Представленный метод уникален еще и тем, что позволяет работать именно с арабским языком — одной из самых сложных знаковых систем в мире. В этом языке буквенные знаки соответствуют в основном согласным звукам, один знак может иметь несколько вариантов написания — в зависимости от места расположения в слове, а строчных букв нет вовсе. Ввиду этих и других особенностей языковой системы формализация лексико-синтаксического анализа арабского текста является крайне непростой задачей. «Часть этой задачи нам удалось решить уже сегодня, — добавил Олег Редькин. — Мы полагаем, что новый метод может применяться и для анализа текстов, написанных на других языках».
В международном исследовании приняли участие сотрудники научной лаборатории по анализу и моделированию социальных процессов СПбГУ: доктор физико-математических наук, профессор Олег Граничин, доктор филологических наук, профессор Олег Редькин и кандидат филологических наук, доцент Ольга Берникова. Результаты исследования были представлены в статье Modeling and visualization of mediain Arabic («Моделирование и визуализация текстов СМИ на арабском языке», IF — 2,88), опубликованной в научном журнале Journal of Infometrics.
К чему еще приводит дружба востоковедения и математики
Ученые СПбГУ стали использовать цифровые технологии при работе с текстом еще в 2006 году, когда столкнулись с проблемой формирования лексической составляющей для учебников арабского языка. Тогда именно при помощи разработки специального приложения удалось составить объективный перечень наиболее частотных арабских слов для последующего создания на его основе различных учебно-методических материалов. В этот же период востоковедами и математиками СПбГУ был разработан и зарегистрирован первый программный продукт — электронный словарь арабского языка («Программная среда для обучения, перевода и распознавания арабского текста»).
Сегодня в научной лаборатории по анализу и моделированию социальных процессов СПбГУ ведется целый ряд междисциплинарных исследований на стыке гуманитарных и точных наук. Так, в июле 2016 года ученые СПбГУ сообщили о создании уникальной технологии, позволяющей анализировать рукописные тексты по фрагментам размером 80 на 80 пикселей. С ее помощью исследователям удалось доказать, что рукопись «Аль-Хитат» («Описание Египта»), хранящаяся в Мичиганском университете, является оригиналом знаменитого труда египетского историка аль-Маркизи. Ранее данная рукопись считалась копией.
Также ученые СПбГУ предполагают использовать цифровые технологии для анализа рукописных арабских текстов, в том числе с целью определения авторства. Особый интерес в этом отношении представляет анализ доисламской арабской поэзии.
В ближайших планах исследователей Петербургского университета создание так называемого «цифрового паспорта» рукописей — электронной базы, содержащей набор уникальных характеристик документа. К ним относятся особенности графики текста (ее «ритмика», расположение текста, его интенсивность, частотность строк), особенности содержания, а также особенности носителя — происхождение бумаги, состав чернил и пр. Такая база значительно упростит задачу определения автора рукописного труда и его подлинности, а также позволит установить, насколько надежен рукописный источник, на который, к примеру, ссылаются приверженцы той или иной идеологии, аргументируя свои действия.