Киберпсихологи ФСН разрабатывают систему машинного анализа стресса в речи человека

Специалисты кафедры киберпсихологии Факультета социальных наук ННГУ им. Н.И. Лобачевского разрабатывают модели машинного обучения для выявления тревоги по акустическим признакам.

Определение уровня стресса и тревоги в речи имеет важные применения в образовании, области психического здоровья и во взаимодействии человек–компьютер.

В профессиональной среде недостаточное управление стрессом способствует выгоранию сотрудников и снижению продуктивности.

«Автоматическое определение стресса по голосу даёт инструмент для раннего выявления перегрузок – помогает своевременно обнаруживать уязвимые состояния у операторов, диспетчеров и медперсонала, снижая риск ошибок и выгорания. Также это и фиксация состояния клиента, что, к примеру, может быть полезно для выявления мошенничества – когда клиент введён в заблуждение и просит банк выполнить подозрительную операцию», – подчёркивает кандидат психологических наук, заведующая кафедрой киберпсихологии ФСН Валерия Демарева.

Стресс активно проявляется в речи: вегетативная нервная система вызывает увеличение мышечного тонуса и частоты дыхания, что может приводить к более «жёсткому» или дрожащему голосу, а также к изменению ритма и тембра речи. В результате меняются высота тона, громкость (интенсивность) и скорость речи.

Для исследования использовался конвейер машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). MFCC выбраны потому, что компактно и точно описывают спектральную оболочку речи, устойчивы к шуму после нормализации, показывают хорошую различающую способность для стилей речи и эмоциональных состояний и хорошо работают на небольших выборках, то есть они являются надёжным и интерпретируемым базисом для пилотного исследования.

Считается, что именно эти коэффициенты способны давать устойчивую классификацию стресса, а слияние с другими спектральными признаками улучшает точность работы.

Учёные ННГУ провели пилотный эксперимент, сравнивающий записи речи в двух условиях: стресс-индуцирующая публичная презентация и приватная репетиция. Были извлечены акустические признаки (в основном MFCC), произведена оценка их различия, осуществлена работа с моделью машинного обучения на MFCC и оценка её качества.

Для изучения голосовых изменений, связанных со стрессом в академической речи, десять студентов, специализирующихся на кафедре киберпсихологии Университета Лобачевского, подготовили отрывок своей научной презентации (4–6 минут) и проговорили этот текст в двух ситуациях: публично, выступая перед комиссией и коллегами в аудитории, и приватно – в тихом кабинете без публики. Все записи были приведены к 16 kHz и моно WAV для стандартизации входа. После очистки каждая четырёхминутная запись была разбита на несоприкасающиеся пятисекундные отрезки, что в итоге позволило получить 565 сегментов для приватного и 569 сегментов для публичного выступления. После тщательной очистки сигнала и извлечения MFCC машинный классификатор Gradient Boosting оказался способен различить тревогу в речи с точностью 91,9 %, основываясь на этих признаках. Из 110 приватных сегментов корректно было классифицировано 102, из 111 публичных – 101. Ошибки равномерно распределены без систематического смещения в сторону одного класса.

«Точность приблизительно 92% в контролируемых условиях обнадёживает, но во многом связана с тщательной предобработкой и однородностью выборки. Это не гарантирует такую же устойчивость в реальных разнородных данных. В нашем исследовании мы планируем расширение выборки, валидацию, добавление динамических и просодических признаков, внедрение последовательных архитектур и методов адаптации домена», – отметила В. Демарева.

Исследование выполнено при финансовой поддержке Российского научного фонда. Результаты опубликованы на платформе Springer Nature Link.

Киберпсихологи ФСН разрабатывают систему машинного анализа стресса в речи человека

Скоро

Онлайн-консультация для абитуриентов магистратуры «Организационная психология»

Конференция «Помогающие профессии: научное обоснование и инновационные технологии»