机器能模拟人类感触明略科技多模态团队斩获ACMMM环球顶会最佳论文提名

2024-11-15

10月28日~11月1日，环球顶级多媒体会议ACM Multimedia（ACMMM）2024 在澳大利亚墨尔本成功召开。

明略科技个人多模态团队与北京大学独特成功的最新钻研成绩《Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding》在泛滥论文中锋芒毕露，荣获最佳论文提名（Best paper nomination）。明略科技个人开创人、董事长兼CEO吴明辉，多模态大模型部门担任人赵晨旭，明敬算法担任人苏安炀受邀赴墨尔本缺席此次会议。

明略科技个人开创人、董事长、CEO兼CTO吴明辉

明略科技个人多模态团队在 ACMMM 2024 会议现场（左起：苏安炀、吴明辉、赵晨旭）

ACMMM会议是由国际计算机学会（ACM）主办的多媒体畛域的顶级国际学术会议，同时也是中国计算机学会介绍的A类国际学术会议（CCF-A）。自1993年举行以来，往年是第32届。会议议题涵盖多媒体计算的各个方面，如多媒体内容剖析、多媒体检索、多媒体安保、人机交互、计算机视觉等。

ACMMM 2024 会议现场发布最佳论文提名奖项

针对AI畛域在视频内容了解方面关键聚焦于客观层面，缺少客观层面的测量规范，以及机器模拟人类客观感触的有效手腕的开展状况，明略科技的最新钻研成绩整合脑电、眼动信号等多种非标模态，构建了全新的多模态大言语模型范式，在机器了解和模拟人类客观感触的钻研方向，迈出了关键一步。

明略科技多模态团队论文荣获 ACMMM 2024 最佳论文提名奖项

（超图多模态大言语模型：运行脑电和眼动模态来评价异质人群观看视频时的照应）

吴明辉*，赵晨旭*，苏安炀*，狄东林，傅天宇，安达，何敏，高贵，马萌，颜鲲，王平（*为独特第一作者）

对视频创意和内容的了解往往因人而异，不同年龄、职业和性别的人的关注点和认知水平也存在差异。目前不足这方面的钻研，没有可以启动评测的基础，大少数现有的基准都存在几个缺陷：

1）模态数量有限，标题多为选用题，难以测量逻辑推理环节；

2）视频中的内容和场景过于干燥，仅触及到对视频内容的客观形容。

为了弥合与实践运行的差距，明略科技引入大规模的视频客观多模态评价数据集Video-SME。经过搜集不同人群在观看相反视频内容时脑电图（EEG）和眼动追踪区域的实在变动，设立了新的义务和协定，剖析和评价不同受试者对相反视频内容的认知了解水平。

附丽新的评测规范，明略科技翻新研发了超图多模态大言语模型（HMLLM），探求不同人口统计、视频元素、脑电图和眼动追踪目的之间的关联。HMLLM可以弥合丰盛模态之间的语义差距，并集成帧与帧之间的信息以口头逻辑推理。明略科技在Video-SME和其余基于视频的生成功能基准上设计了试验，少量试验评价证实了该方法的有效性。

测量不同人群观看广告视频的客观照应有何意义？

人在观看广告视频时，关于素材元素的认知水平、心情高下、眼睛注视水平高下都是人的客观感触，不异性别、年龄、职业、身份的人群都会有所不同。

假设机器能够模拟不同人群观看广告视频时的不同客观感触，那么相当于可以对广告视频的内容、创意等启动有效的测量，指点广告成片环节，节俭广告投放老本。

让机器学习、了解和模拟人类的客观感触，或者是赋予机器客观看法的开始。明略科技提出的新基准Video-SME有望成为该畛域的新终点，标记着机器对视频的了解从客观维度向客观维度的转变。作为一种全新的范式，明略科技多模态大模型HMLLM的研发，努力于为该畛域钻研人员处置非规范模态疑问提供贵重阅历与启发，从而促成大模型畛域向人机协同的美妙未来迈进。

本钻研课题由科技部科技翻新2030——“新一代人工默认（2030）”严重名目允许。

明略科技

<<SaaS 运行程序开发的八大关键长处

携手贵阳同伴华为极简全闪数据中心先锋执行共绘数智贵州商业新蓝图>>

机器能模拟人类感触 明略科技多模态团队斩获ACMMM环球顶会 最佳论文提名

您可能还会对下面的文章感兴趣：

随便看看

机器能模拟人类感触明略科技多模态团队斩获ACMMM环球顶会最佳论文提名