Ученые СПбГУ научили нейросеть распознавать речь жертв Холокоста
Лингвисты Санкт‑Петербургского государственного университета модифицировали нейросеть Wav2Vec 2.0, научив ее распознавать речь людей, рассказывающих о сильном эмоциональном потрясении, которое они пережили. Нейросеть была обучена на интервью с жертвами Холокоста, записанными фондом мемориального комплекса истории Холокоста Яд ва‑Шем.
Распознавание эмоциональной речи — важная задача для сферы общения человека и компьютерных автоматических систем, поскольку успешное распознавание речи позволяет в автоматическом режиме формировать субтитры, генерировать пересказ основных мыслей видео и легко переводить его в текстовый формат. Современные технологии и сегодня позволяют распознавать человеческую речь, но, когда она насыщена эмоциями, задача сильно усложняется.
Результаты исследования опубликованы в материалах International Conference on Speech and Computer.
Иногда даже человеку трудно разобрать, что говорится в аудиозаписях разговоров, во время которых собеседники ярко выражают свои эмоции, например плачут или громко кричат. Повышение качества работы систем, позволяющих анализировать сказанное, могло бы существенно упростить и ускорить процесс создания подстрочных субтитров к интервью с людьми, пережившими сильное эмоциональное потрясение. Особенно это актуально при работе с очевидцами глобальных исторических событий.
Ученые Санкт‑Петербургского университета создали нейросеть, которая позволит не только определять содержание сказанного, но и точно определять эмоции, которые испытывают люди во время интервью.
«Мы использовали предобученную на русском языке глубокую нейросеть Wav2Vec 2.0. Идея ее работы заключается в том, чтобы выучить сопоставление каждого звука устной речи человека с соответствующей буквой алфавита. Конкретно данная архитектура нейросети также использует так называемый механизм внимания, чтобы научиться обращать внимание на значимые для определения той или иной буквы по звуку признаки, что значительно повышает качество результата», — рассказал магистрант СПбГУ (кафедра математической лингвистики) Михаил Долгушин.
Для решения задачи ученые СПбГУ использовали выложенную ранее в свободный доступ русскоязычную модель распознавания речи профессора Новосибирского государственного университета Ивана Бондаренко. Работоспособность нейросети, созданной в СПбГУ, проверили на материалах интервью с жертвами Холокоста, выложенных в публичный доступ израильским государственным национальным мемориалом Яд ва‑Шем. Видеосвидетельства людей, переживших Холокост, собирались мемориалом более 50 лет. В видеоматериалах люди рассказывают о событиях, свидетелями которых они стали: оккупации городов, массовых убийствах, жизни в гетто и других.
27 января отмечается Международный день памяти жертв Холокоста. В этот день в 1945 году советскими войсками был освобожден нацистский концентрационный лагерь «Освенцим», и в этот же день в 1944 году была полностью снята блокада Ленинграда — 80-летие этого события отмечается в этом году.
Специалисты Университета обработали более 26 часов разговоров. Для них лингвисты составили социолингвистическую разметку, определили пол, возраст, примерный регион происхождения и родной язык интервьюируемых. Как объяснили эксперты, эти признаки существенно влияют на то, с каким акцентом люди говорят, какую лексику используют и насколько качественно их речь будет распознаваться автоматическими моделями.
По словам исследователей, данная технология может быть применима и к записям других людей, хотя качество распознавания может быть слегка хуже из‑за различных условий записи, а также в случае если данная речь была слабо представлена в выборке, как, например, детская речь.
Сегодня Санкт‑Петербургский государственный университет уделяет большое внимание развитию образовательных направлений и научных исследований, связанных с технологиями искусственного интеллекта. В Университете создан Центр искусственного интеллекта и науки о данных, нацеленный на разработку и внедрение масштабных самоорганизующихся адаптивных и распределенных цифровых платформ искусственного интеллекта вещей (AIoT) и индустриальных приложений этой технологии в цифровой промышленности.
Также в СПбГУ работает научно-образовательный центр «Математическая робототехника и искусственный интеллект», объединяющий ученых СПбГУ, которые занимаются исследованиями в сфере интеллектуального управления, математической робототехники и образовательной робототехники. Одним из проектов центра стало создание нового метода поиска потерявшихся в лесу людей при помощи беспилотников.
Кроме того, Университет уделяет большое внимание исследованиям вопросов влияния активного использования искусственного интеллекта на жизнь обычных людей. Так, недавно социолог СПбГУ предложила методы борьбы с угрозами искусственного интеллекта.