脑机启侦|“看”“听”“感”三模态协同,打造更智能的人机交流通道(08.02)

在人类日常交流中,语音不仅仅是声音的产物,还伴随着丰富的视觉表情和面部肌肉动作。这种多通道的信息整合,是人类高效沟通的关键。那么,人工智能是否也能像人一样,通过“听声音”“看嘴型”“感肌肉”来识别人们的语音意图?

最新发表的一篇论文《AVE Speech: A Comprehensive Multimodal Dataset for Speech Recognition Integrating Audio, Visual, and Electromyographic Signals》正式发布了名为“AVE Speech”的多模态语音识别数据集。这一数据集整合了音频(Audio)、视觉(Visual)和肌电信号(Electromyographic, EMG),为多模态语音识别技术提供了新的突破口,也为脑机接口等领域的研究拓宽了数据基础。

为什么我们需要“AVE Speech”?

RESEARCH INTRODUCTION

当前,语音识别系统在多数场景中依赖单一的音频输入。但在嘈杂环境下,比如车站、工地或运动场,背景噪音往往干扰机器准确识别语音内容。为此,研究者们逐渐意识到引入更多通道的数据——如唇动、面部表情、甚至肌肉信号——或许能提升系统鲁棒性与准确率。

虽然过去已有一些多模态语音识别数据集尝试整合音频与视频信息,但极少涉及电生理信号,尤其是面部肌电(EMG)。而这正是“AVE Speech”项目的突破点之一:将来自面部表层肌肉的电信号纳入语言识别范畴,使AI能在“看不到”“听不到”时,依旧能“感觉到”你在说什么。

采集、标注、融合,一体化构建三模态数据

RESEARCH METHOD

数据集的参与者为100名成年普通话母语者,其中女性♀️29名、男性♂️71名,年龄分布在18-40岁区间,平均年龄为26.68岁。本研究已通过大学伦理委员会审批,所有参与者均签署知情同意书。

在安静、光线良好的室内环境中完成全部数据采集工作。受试者佩戴指定设备,并通过交互界面接收朗读指令,随后启动采集流程。每轮录制包括101个句子(其中包含1条空白句),每句需在2秒内读完,并尽可能减少摇头、咳嗽等干扰动作。每位受试者需完成10轮,每朗读20句可暂停5秒,整轮结束后可按个人状态调整休息时间,单人总时长约为1小时。为消除因固定顺序或熟练度引起的偏差,每轮句子顺序均进行随机打乱。

数据采集系统概述,包括硬件设备和记录接口。

数据采集所用设备及参数配置如下:

音频数据:通过头戴式麦克风进行采集,音频信号以44.1kHz的采样率记录,确保语音清晰且细节丰富。

视频数据:使用RGB相机📷️对发音过程中的唇部区域进行拍摄,帧率设为每秒30帧。相机📷️通过3D打印支架进行固定与角度调节,视频图像采集区域为位于画面中心的640×360像素边界框。

肌电数据:面部和颈部肌电信号由NSW308M双极肌电系统采集,设置为六通道录制,采样频率为1000Hz。电极贴附于颏肌、笑肌等关键部位,参考电极置于锁骨,整个录制过程中电极阻抗控制在10kΩ以下。

上述三类模态数据针对同一句话同步录制,分别对应语音波形、唇动视频序列与六通道肌电信号,为多模态语音识别研究提供高质量数据支撑。

重新定义人机“对话”的边界

RESEARCH INTRODUCTION

在后续测试中,研究者使用基准神经网络模型对三模态数据进行了对比分析。他们发现:

①在噪声环境中,传统语音识别系统准确率明显下降,而引入视觉与肌电信号后,系统的稳健性显著提升;

②EMG信号对口型与发音动作变化具有高度敏感性,在“安静但口动”的语境下依然可用于识别发音;

③三模态融合模型(A+V+E)在准确率和鲁棒性上均优于任意单模态或双模态系统。

这一成果的发布,不仅仅是一个数据集的问世,更是对“人类语言多维本质”的再认识。在人机交互、辅助通信、无声语音控制,乃至未来的脑机接口系统中,多模态数据将成为AI“理解人”的关键钥匙。

尤其在脑机接口领域,当前不少研究试图通过读取神经或肌肉信号,实现“意念说话”或“无声沟通”。而“AVE Speech”提供的EMG信号,为这一目标的实现提供了接近现实的基础训练材料。

新闻来源:arXiv

论文参考:DOI: 10.1109/THMS.2025.3585165

特别声明:[脑机启侦|“看”“听”“感”三模态协同,打造更智能的人机交流通道(08.02)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

61岁张曼玉近况曝光,穿20刀外套🧥雨天摘野果,感慨:做农夫真辛苦(张曼玉如今)

曾经在荧幕上风光无限、夺得影后荣誉的她,如今却选择过上了一种隐居田园的生活,这种变化实在是令人吃惊,几乎让人无法将这两者联系在一起。 无论是在闪耀的舞台上当影后,还是在乡村过着农夫的日子,张曼玉都把每一个…

61岁张曼玉近况曝光,穿20刀外套🧥雨天摘野果,感慨:做农夫真辛苦(张曼玉如今)

官方介入仅 24 小时,『张雨绮』风波全面升级,多方连夜启动清算(客服介入后几天有结果)

当官方紧急将她从辽宁卫视春晚名单中除名,时间不过一天,这位曾经的星女郎便迎来了更为致命的打击:资本急速撤离、合作资源全面清零,而背后的法律审查和行业清算,才刚刚拉开帷幕。更令人震惊的是,葛晓倩声称曾遭律师威胁…

官方介入仅 24 小时,『张雨绮』风波全面升级,多方连夜启动清算(客服介入后几天有结果)

2026春节送礼新潮流:哪些女装👚服饰红包🧧封面最受欢迎?(2025年春节送礼佳品)

春节送礼除了传统礼品,个性化的女装👚服饰红包🧧封面成为热门选择。本篇文章为你解读如何挑选合适的设计、尺寸与材质,助你找到兼具美观与实用性的春节红包🧧封面,让节日气氛更浓!从时尚设计趋势到实用功能分析,帮助你做出最优选择。

2026春节送礼新潮流:哪些女装👚服饰红包🧧封面最受欢迎?(2025年春节送礼佳品)

2026户外越野跑手表巅峰对决,华米T-Rex 3 Pro登顶硬核排行榜(户外越野跑介绍)

对于真正的户外探险家和越野跑爱好者而言,一块可靠、专业的越野跑手表产品早已超越了计时工具的范畴,它是记录轨迹的伙伴,是保障安全的卫士,更是提升运动表现的私人教练。综上所述,amazfit华米 T-Rex 3…

2026户外越野跑手表巅峰对决,华米T-Rex 3 Pro登顶硬核排行榜(户外越野跑介绍)

微博之夜颁奖礼,『高叶』、李乃文偷吃饼干,网友:这俩是真饿了(微博之夜颁奖顺序)

2026年微博之夜晚会,当镜头从流光溢彩的舞台转向星光熠熠的嘉宾席,一场意外的“吃播”喜剧正在上演。当镜头扫过,两人略显局促、强装镇定的表情,与他们身处盛大典礼的正式装扮形成了强烈的喜剧反差,被网友精准调侃为…

微博之夜颁奖礼,『高叶』、李乃文偷吃饼干,网友:这俩是真饿了(微博之夜颁奖顺序)