Начала работу единственная в России конференция по корпусной лингвистике

В Университете начала свою работу Международная научная конференция «Корпусная лингвистика — 2019».

Данный научный форум проходит в СПбГУ традиционно раз в два года. Впервые российские и зарубежные исследователи корпусной лингвистики собрались в СПбГУ в 2002 году.

В этом году научное мероприятие объединило на одной площадке около 70 ученых и практиков из России, Армении, Белоруссии, Бразилии, Италии, Китая, Молдавии, Словении, США, Франции, Чехии и Хорватии.

Предварил открытие конференции день школ-семинаров. В этом году в рамках семинаров доцент Петрозаводского государственного университета Андрей Крижановский рассказал об опыте создания статей в электронном комплексном словаре «Русский "Викисловарь"», а доцент СПбГУ Ольга Митрофанова (кафедра математической лингвистики) продемонстрировала дистрибутивно-семантические модели в лингвистическом процессоре для русского языка.

Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием лингвистических корпусов — подобранной и обработанной по определенным алгоритмам совокупности текстов, используемых в качестве базы для исследования языка.

На официальном открытии конференции участников поприветствовали доцент СПбГУ Илья Николаев (кафедра математической лингвистики) и профессор РГПУ имени Герцена Лариса Беляева (кафедра информационных технологий в лингвистике).

«В этом году мы собрались уже в девятый раз и заранее приглашаем всех принять участие в следующей, юбилейной конференции, которая состоится в 2021 году», — обратился к исследователям председатель оргкомитета, доцент СПбГУ Виктор Захаров (кафедра математической лингвистики).

Доцент СПбГУ Виктор Захаров (кафедра математической лингвистики)
Доцент СПбГУ Виктор Захаров (кафедра математической лингвистики)

Виктор Захаров подчеркнул, что данное мероприятие — единственное в России, посвященное научным исследованиям в области создания и функционирования языковых корпусов. И несмотря на то, что более четверти докладов, представленных в сборнике научного форума, выполнены на иностранных языках, мероприятие вызывает большой интерес именно у российских исследователей.

Открыл пленарное заседание доклад о проекте лингвистов из Карлова университета (Чехия), посвященный основным особенностям лексической базы устойчивых выражений чешского языка. Представил доклад постоянный участник конференции, профессор Карлова университета, специалист по математической лингвистике Владимир Петкевич. В настоящее время в данную базу включены более семи тысяч единиц идиом. Исследователь рассказал о вариативности изучаемых идиом, различных типологических подходах к ним, а также показал инструментарий созданной базы.

Профессор Карлова университета, специалист по математической лингвистике Владимир Петкевич
Профессор Карлова университета, специалист по математической лингвистике Владимир Петкевич

Продолжая пленарное заседание, Роберт Рейнольдс, научный сотрудник Университета Бригама Янга (США), посвятил свой доклад практическому применению корпусов в процессе обучения русскому языку как иностранному. Докладчик показал, как на основе корпуса естественного языка, соответствующего общепринятым орфографическим и грамматическим стандартам, был создан двухуровневый обработчик морфологии и грамматики русского языка. Его алгоритм учитывал многочисленные исключения, свойственные русскому языку, а также помогал в исправлении ошибок. В докладе американского лингвиста был представлен алгоритм автоматической расстановки переносов, а на примере дополнений к популярным браузерам продемонстрировано практическое использование данных наработок.

Конференция продлится до 28 июня. Внимание будет уделено общим вопросам корпусной лингвистики, а также особенностям работы с морфологией, синтаксисом, семантикой языков и проблемам извлечения информации. В рамках отдельных секций участники обсудят корпусы художественных текстов, а также диалектные, исторические, речевые и мультимодельные корпусы.