用于对话情境核心情识别的迷信数据子刊 EEG 人造 Nature

2024-11-15

情感识别技术在现代人机交互中表演着越来越关键的角色。随着人工自动和机器学习技术的极速开展，了解和识别人类情感已成为成功更人造、更兽性化互动的关键。情感识别不只能够优化用户体验，还能在心思肥壮监测、自动客服、教育和文娱等多个畛域施展关键作用。在对话情境中，准确识别情感尤为关键，由于情感形态间接影响交换的效果和品质。经过捕捉和剖析对话中的情感信号，机器可以更好地理解用户需求，提供更共性化和贴心的服务。

9 月 19 日来自于纳扎尔巴耶夫大学和高丽大学的跨过钻研团队为了推进情感识别技术的开展，引入了EaV（EEG-audio-Video）数据集，这是首个在对话情境中联合脑电图（EEG）、音频和视频三种关键模态的地下情感数据集。EaV数据集的共同之处在于其多模态数据的同步记载，涵盖了42名介入者在揭示对话场景中的情感反响。每位介入者在实验中体现出五种情感：中性、愤怒、快乐、悲伤和安静。经过对这些数据的剖析，钻研人员能够更片面地理解人类情感的体现方式，为开发更先进的情感识别模型提供了贵重的资源。他们的技术论文《EaV: EEG-audio-Video>EaV数据集的开发由纳扎尔巴耶夫大学计算机迷信系和高丽大学人工自动系的专家共同成功。纳扎尔巴耶夫大学的钻研团队包括Min-Ho Lee、Adai Shomanov、Balgyn Begim、Zhuldyz Kabidenova、Aruna Nyssanbay和Adnan Yazici，他们在计算机迷信和情感识别畛域具备丰盛的钻研阅历。高丽大学的Seong-Whan Lee传授则在脑电图（EEG）和人工自动畛域享有盛誉。这个跨国钻研团队联合了两所大学的技术长处和钻研资源，努力于推进情感识别技术的开展，为成功更人造的人机交互奠定了松软的基础。

数据集引见

EaV（EEG-audio-Video）数据集是一个多模态情感数据集，专为对话情境中的情感识别而设计。该数据集蕴含42名介入者的30通道脑电图（EEG）、音频和视频记载。每位介入者在基于揭示的对话场景中体现出五种情感：中性、愤怒、快乐、悲伤和安静。每位介入者启动了200次互动，总计8,次互动。EaV数据集的共同之处在于其多模态数据的同步记载，涵盖了介入者在对话中的情感反响，为情感识别钻研提供了丰盛的数据资源。

介入者来自纳扎尔巴耶夫大学，包括在校生和个别人群，年龄在20到30岁之间，均为英语熟练者。每位介入者在实验中表演关键角色，经过决定与目的情感相关的脚本，并在对话系统中表白这些情感。介入者的多样性和被动介入确保了数据集的宽泛适用性和代表性。

实验在受控环境中启动，以确保数据的高品质和分歧性。介入者佩戴EEG帽子启动脑电图记载，同时同步记载音频和视频数据。详细设施和方法如下：

EEG数据：经常使用BrainAmp系统记载脑电优惠，经过30个Ag/AgCl电极采集EEG数据，采样率为500 Hz。数据初始记载在BrainVision Core>音频数据：经常使用高品质麦克风准确捕捉介入者的行动反响，音频数据记载并存储为WAV格局。

视频数据：在显示器上装置网络摄像头，专一于介入者的面部，视频数据初始记载为AVI格局，后转换为MPEG-4 (.MP4)格局以减小文件大小。

实验经常使用基于Python编程言语的PsychoPy软件启动，包括视频和脚本的出现、记载治理、确保准确的期间控制以及各模态的通讯。经过这些精细的实验设计和数据搜集方法，EaV数据集为情感识别钻研提供了松软的基础和丰盛的数据资源。

实验设计

实验环境及其控制条件

图1：实验装置示用意。（a）介入者戴上帽子启动脑电图记载，并同步记载多形式数据，（b）听力条件：向介入者显示预先录制的视频，揭示他们的互动，（c）书面语条件：在监督器的核心提供脚本。激励介入者在给定脚本的范围之外自在表白自己。此图中描画的团体提供了知情赞同书，以地下其图像。

为了确保数据的高品质和分歧性，实验在一个受控环境中启动。介入者温馨地坐在电脑显示器前，显示器为27英寸，刷新率为60 Hz，用于显示对话和其余视觉抚慰。实验室环境经过精心设计，以缩小外部搅扰和视觉扩散。

照明和背景：在介入者面前搁置白色屏幕，并经常使用灯光设施平均照亮介入者的面部，确保面部表情的明晰记载。

EEG设施：经常使用BrainAmp系统记载脑电优惠，经过30个Ag/AgCl电极采集EEG数据，采样率为500 Hz。电极搁置在特定的头皮位置，确保数据的准确性和分歧性。

音频设施：经常使用高品质麦克风准确捕捉介入者的行动反响，确保音频数据的明晰度和准确性。

视频设施：在显示器上装置网络摄像头，专一于介入者的面部，确保面部表情和情感反响的完整记载。

揭示对话的设计及其对情感诱发的影响。

图2：心情对效价和唤醒水平的客观自我评价。

实验设计了基于揭示的对话场景，以诱发介入者的特定情感。介入者在实验中决定与目的情感相关的脚本，并在对话系统中表白这些情感。每次对话包括听和说的互动，确保介入者在不同情境下的情感反响被片面捕捉。对话脚本由OpenAI的ChatGPT生成，并由钻研人员审查和编辑，确保情感的明晰和适当。经过这种设计，钻研团队能够在控制条件下诱发介入者的实在情感反响，为情感识别钻研提供牢靠的数据基础。

数据的分段及存储格局

为了便于数据剖析和处置，实验数据被分段并存储在规范化格局中。

视频数据：视频片段被分为每段20秒，存储为MP4格局。每个介入者文件夹蕴含200个视频片段，涵盖五种情感类别和两种义务（听和说）。

音频数据：音频文件仅关注谈话义务，存储为WAV格局。每个介入者文件夹蕴含100个音频文件。

EEG数据：EEG数据最后以[期间 × 通道]的维度延续记载，经过高通滤波和带通滤波处置后，数据按事情标志分段，结构为[实例 × 期间 × 通道]。处置后的EEG数据结构为：[200个实例 × 10,000个期间点（20秒 × 500 Hz） × 30个通道]。

这些精细的实验设计和数据搜集方法，使得EaV数据集为情感识别钻研提供了松软的基础和丰盛的数据资源。

数据处置与剖析

在数据处置阶段，钻研团队对EEG、音频和视频数据启动了详细的预处置，以确保数据的品质和分歧性。

EEG数据：EEG数据最后以500 Hz的采样率延续记载。为了缩小数据量并去除噪声，钻研团队将数据下采样至100 Hz，并在0.5-50 Hz的频率范围内启动带通滤波。经过这些预处置步骤，EEG数据被格局化为[实例 × 期间 × 通道]的结构，详细为[个实例 × 10,000个期间点（20秒 × 500 Hz） × 30个通道]。

音频数据：音频数据经常使用Librosa库启动预处置，提取了Mel频率倒谱系数（MFCCs）、Chroma特色和Mel频谱图等关键特色。这些特色被衔接在一同，构成用于进一步处置的输入数据。

视频数据：视频片段被分为每段5秒，蕴含150帧。钻研团队从每段视频中提取每第6帧，最终获取10,000帧（包括训练和测试数据）。这些帧被用于训练和测试情感识别模型。

为了成功情感识别，钻研团队决定了几种不同的模型，包括传统的卷积神经网络（CNN）和最新的Transformer架构。

CNN模型：钻研团队设计了适用于每种模态的CNN模型。关于EEG数据，经常使用了EEGNet架构，该架构包括2D卷积层、深度卷积层和可分别卷积层。关于视频数据，经常使用了DeepFace模型，该模型由一系列卷积层、池化层和全衔接层组成。音频数据则经常使用了一维卷积神经网络（SCNN）架构，蕴含四个1D卷积层和ReLU激活函数。

Transformer模型：Transformer模型因其处置依赖相关的才干而被决定。钻研团队经常使用了EEGformer、AST和ViViT等特定的Transformer架构，区分验证了EEG、音频和视频数据的性能。

图3：介入者和实验者心情评分的比拟剖析：一项关于四种心情景态（快乐、悲伤、安静和愤怒）的唤醒和心情水平的钻研。N-一切介入者的评分数据点总数。

钻研团队对模型在不同模态下的性能启动了详细评价，关键经常使用平均准确率和F1得分作为权衡目的。

EEG数据：经常使用EEGNet模型，EEG数据的平均准确率为60.0%，F1得分为0.58。这标明EEG数据在情感识别中具备必定的准确性，但仍有改良空间。

音频数据：音频数据的平均准确率为61.9%，F1得分为0.61。音频数据在识别高唤醒形态（如愤怒和快乐）方面体现尤为杰出。

视频数据：视频数据的平均准确率为71.4%，F1得分为0.70。视频数据在情感识别中体现最佳，特意是在识别高唤醒情感方面。

图4：心情分类的多模态输入数据及其相应的处置管道。单次实验继续期间为5秒。对音频数据启动预处置以创立输入图像，同时将原始视频/EEG数据馈送到每个CNN模型。这些CNN模型的输入结果为五种心情景态提供了softmax预测：中性（N）、幸福（H）、安静（C）、愤怒（A）和悲伤（S）。此图中描画的团体提供了知情赞同书，以地下其图像。

技术验证

在技术验证阶段，钻研团队驳回了一系列严厉的方法来评价情感识别模型的性能。首先，数据集被分为训练集和测试集，确保模型在不同数据集上的体现具备分歧性和牢靠性。详细步骤如下：

数据宰割：将数据集按70%训练集和30%测试集的比例启动宰割。关于每个介入者，音频数据被分为个5秒的样本，其中280个用于训练，120个用于测试。

模型训练：经常使用便捷的端到端CNN模型和最新的Transformer架构启动训练。训练环节中不经常使用验证集，间接在固定的训练轮数内启动训练。

性能评价：经过计算平均准确率和F1得分来评价模型的多分类性能。这些目的能够片面反映模型在不同情感类别上的体现。

技术验证的目的是确保模型在不同模态下的性能具备可比性和分歧性，同时识别出各模态在情感识别中的长处和无余。

钻研团队对不同模态下的情感识别性能启动了详细剖析，结果如下。

EEG数据：经常使用EEGNet模型，EEG数据的平均准确率为60.0%，F1得分为0.58。这标明EEG数据在情感识别中具备必定的准确性，但仍有改良空间。

音频数据：音频数据的平均准确率为61.9%，F1得分为0.61。音频数据在识别高唤醒形态（如愤怒和快乐）方面体现尤为杰出。

视频数据：视频数据的平均准确率为71.4%，F1得分为0.70。视频数据在情感识别中体现最佳，特意是在识别高唤醒情感方面。

此外，钻研团队还经常使用预训练的Transformer模型对音频和视频数据启动了验证，结果显示这些模型在这两种模态下的分类性能有所优化，区分到达62.7%和74.5%的平均准确率。但是，EEGTransformer模型的体现较差，准确率为53.5%，F1得分为0.52。

混杂矩阵提供了不同情感类别之间的分类准确性和误判状况。以下是各模态下的混杂矩阵剖析。

EEG模态：在分类快乐和中性情感方面体现杰出，但在低唤醒情感（如悲伤和安静）上存在清楚误判。

音频模态：在区分高唤醒形态（如愤怒和快乐）方面体现优秀，但在低唤醒情感上也存在误判。

视频模态：视频数据在分类高唤醒情感（如愤怒和快乐）方面体现最佳，但在低唤醒情感上存在清楚误判，常将低唤醒情感误判为高唤醒情感。

图5：经常使用EEG、音频和视频数据对一切介入者的五个心情类别启动分类的累积混杂矩阵。矩阵代表每种心情：中性（N）、悲伤（S）、愤怒（A）、幸福（H）和安静（C）。一切介入者每班的总测试实验为1008（24个书面语义务×42名介入者）。

经常使用说明

EaV数据集已在Zenodo通用开放存储库上颁布，钻研人员和开发者可以经过遵守数据经常使用协定（DUA）来访问和经常使用该数据集。详细步骤如下：

访问存储库：返回Zenodo存储库，搜查EaV数据集。

开放访问：填写并提交数据经常使用协定（DUA）开放表。开放表中须要提供开放人的全名、所属机构、职位/职称以及数据集的预期经常使用形容。

协定同意：一旦开放取得同意，开放人将取得数据访问权限。数据集的经常使用需严厉遵守DUA中的条款和条件，确保数据的非法和合规经常使用。

数据集的结构规范化，便于导航和经常使用。根文件夹EVA蕴含介入者文件夹，每个文件夹内有三个子文件夹：视频、音频和EEG。视频文件以MP4格局存储，音频文件以WAV格局存储，EEG数据以MAT格局存储。

为了有效剖析EaV数据集，钻研团队介绍了以下工具和库。

EEG数据剖析

BBCI工具箱：提供宽泛的信号处置配置，包括伪影去除、频谱/空间滤波、重采样和从新参考。适用于Matlab环境。

OpenBMI：相似于BBCI工具箱，提供丰盛的EEG信号处置配置。

MNE工具箱：适用于Python环境，提供信号处置和可视化方法。

视听数据剖析

DeepFace：用于视频剖析的深度神经网络模型库，蕴含一系列卷积层、池化层和全衔接层。

1D-Speech-Emotion-Recognition：用于音频剖析的库，蕴含一维卷积神经网络模型，适用于情感识别义务。

图6：数据存储库的结构便于直观导航。在高级级别下，文件夹名为“subject{idx}”，其中“idx”表示介入者标识符。每个特定于介入者的目录都蕴含三个子目录：“视频”、“音频”和“EEG”。相应地，这些子目录中的数据文件遵照其特定的格局：视频文件保留为*。MP4，音频记载在*中。WAV格局和EEG数据存储为*。MAT文件。

局限性与未来展望

虽然EaV数据集在情感识别畛域具备关键奉献，但其实验设计和数据集自身也存在一些局限性。

实验经常使用了揭示和摆拍的对话场景，虽然这种设计有助于规范化对话并确保类别标签的平衡，但或者不可齐全捕捉实在对话中的自发情感表白。介入者的情感反响或者因揭示对话而被夸张或淡化，造成情感实验不婚配。

由于EEG帽子的设置或者限度介入者的面部表情，特意是笼罩了前额区域，这或者影响面部表情的人造性和准确性。介入者年龄限度在20到30岁之间，且均为非英语母语者，这或者造成结果的偏向，特意是在运行言语模型或经常使用预训练模型时。

预约义的五种情感类别（中性、愤怒、快乐、悲伤、安静）或者不可涵盖人类情感的所有范围，限度了数据集的代表性。

为了坚持基线结果的分歧性，钻研团队在EEG数据处置中未经常使用伪影去除、空间滤波和归一化等清算方法，这或者影响数据的品质和剖析结果。

基于EaV数据集，未来的钻研可以在以下几个方面启动改良和扩展。

增强对话场景的人造性：未来的钻研可以设计更人造的对话场景，缩小揭示和摆拍的成分，捕捉介入者在实在对话中的自发情感反响。这将有助于提高情感识别模型的实践运行效果。

多样化介入者背景：扩展介入者的年龄范围，并包括不同言语背景的介入者，以提高数据集的多样性和代表性。这将有助于开发更通用的情感识别模型。

扩展情感类别：参与更多的情感类别，如惊讶、恐怖、厌恶等，以更片面地笼罩人类情感的多样性。这将有助于提高情感识别模型的精度和适用性。

改良数据清算方法：在EEG数据处置中引入伪影去除、空间滤波和归一化等清算方法，以提高数据品质和剖析结果的牢靠性。

多模态融合技术：探求更先进的多模态数据融合技术，联合EEG、音频和视频数据，以提高情感识别的准确性和鲁棒性。可以尝试经常使用最新的深度学习模型，如Transformer架构，进一步优化性能。

实时情感识别：开发实时情感识别系统，运行于自动客服、心思肥壮监测等实践场景中，验证模型的适用性和有效性。

经过这些改良和扩展，EaV数据集将能够更好地允许情感识别钻研，推进这一畛域的开展，为成功更人造、更兽性化的人机交互奠定松软基础。（END）

参考资料：

本文转载自，作者：

<<机器智能子刊多智能体系统中的高效决策与去核心化强化学习的运行人造 Nature

评价的智能体具有自我学习 Q Agent>>

用于对话情境核心情识别的 迷信数据子刊 EEG 人造 Nature