全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2022-08-06_听声辨物,这是AI视觉该干的???|ECCV 2022

您的位置:首页 >> 新闻 >> 行业资讯

听声辨物,这是AI视觉该干的???|ECCV 2022 转自:量子位听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。 能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢? 来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务(Audio-Visual Segmentation, AVS)。 视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。 相应的,研究人员提出了第一个具有像素级标注的视听数据集AVSBench。 新任务、新的数据集,搞算法的又有新坑可以卷了。 据最新放榜结果,该论文已被ECCV 2022接受。 精准锁定发声物听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。 视听表征学习(audio-visual learning)已经催生了很多有趣的任务,比如视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVVP)、声源定位(SSL)等。 这里面既有判定音像是否描述同一事件/物体的分类任务,也有以热力图可视化大致定位发声物的任务。 但无论哪一种,离精细化的视听场景理解都差点意思。 △AVS 任务与 SSL 任务的比较视听分割“迎难而上”,提出要准确分割出视频帧中正在发声的物体全貌—— 即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。 AVSBench 数据集要怎么研究这个新任务呢? 鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench 数据集,借助它研究了新任务的两种设置: 1、单声源(Single-source)下的视听分割 2、多声源(Multi-sources)下的视听分割 数据集中的每个视频时长5秒。 单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。 △AVSBench单源子集的数据分布多声源子集则包含了424个视频。 结合难易情况,单声源子集在半监督条件下进行,多声源子集则以全监督条件进行。 研究人员对AVSBench里的每个视频等间隔采样5帧,然后人工对发声体进行像素级标注。 对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注——这就是所谓的半监督和全监督。 △对单声源子集和多声源子集进行不同人工标注这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。 一个简单的baseline方法有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。 吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。 △视听分割框架图这个模型遵循编码器-解码器的网络架构,输入视频帧,最终直接输出分割掩码。 另外,还有两个网络优化目标。 一是计算预测图和真实标签的损失。 而针对多声源情况,研究人员提出了掩码视听匹配损失函数,用来约束发声物和音频特征在特征空间中保持相似分布。 部分实验结果光说不练假把式,研究人员进行了广泛实验。 首先,将视听分割与相关任务的6种方法进行了比较,研究人员选取了声源定位(SSL)、视频物体分割(VOS)、显著性物体检测(SOD)任务上的各两个SOTA方法。 实验结果表明,视听分割在多个指标下取得了最佳结果。 △和来自相关任务方法进行视听分割的对比结果其次,研究人员进行了一系列消融实验,验证出,利用TPAVI模块,单声源和多声源设置下采用两种backbone的视听分割模型都能得到更大的提升。 △引入音频的TPAVI模块,可以更好地处理物体的形状细节(左图),并且有助于分割出正确的发声物(右图)对于新任务的视听匹配损失函数,实验还验证了其有效性。 △视听匹配损失函数的有效性One More Thing文中还提到,AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试,其也可以用于验证声源定位模型。 研究人员在项目主页上表示,正在准备比AVSBench大10倍的AVSBench-v2。 一些视频的分割demo也上传在主页上。感兴趣的话可以前往查看~ 论文地址: https://arxiv.org/abs/2207.05042 GitHub地址: https://github.com/OpenNLPLab/AVSBench 项目主页: https://opennlplab.github.io/AVSBench 推荐阅读 香港理工大学IEEE Fellow 李青教授团队招收机器学习全奖博士/研究助理 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研香港理工大学招收大数据/机器学习博士后/博士生(全年招聘)【全奖博士招生】美国普渡大学数字孪生实验室王子然博士团队自动驾驶与VR方向香港中文大学(深圳)吴保元教授招收全奖博士/博后/访问学生 北京大学智能计算与感知实验室招收硕士/博士/科研实习生【全奖博士】香港大学招收计算机视觉方向博士/博后/研究助理一位博士在华为的22年 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-计算机视觉技术交流群! 大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明) ??长按识别,邀请您进群!

上一篇:2020-05-18_「转」被称为“李安接班人”的她,拍出了今年最大胆的青春片 下一篇:2019-07-01_2019年最佳计算机视觉课程推荐

TAG标签:

18
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价