CVPR 2021 线上分享 | 2D和3D CNN解决不好视频动作识别,字节跳动等提出更高效的Action模块
近年来,由于视频理解成为实现 VR/AR 以及视频共享社交网络服务等实际应用的关键组件,学术界对该领域的研究越来越感兴趣。每天有数百万个视频上传到 TikTok、抖音和西瓜视频进行处理。但是,视频流的爆炸式增长对执行视频理解所需的高准确率和低计算成本提出了挑战。
作为视频理解的一个基本问题,动作识别在内容审核和推荐等视频相关的应用中被提出了越来越高的要求。随着 VR 等技术的飞速发展,与时序相关的动作识别也成为了近年来的研究热点。
时空性、特征和运动模式是视频动作识别任务的重要组成部分。目前,学界主流方法普遍采用基于卷积神经网络(CNN)的 2D 和 3D 框架。其中,2D CNN 计算成本较低但无法捕获时态关系,3D CNN 在时空建模任务中有效但计算成本较高。
来自爱尔兰都柏林圣三一学院和字节跳动 AI 实验室的研究者提出了一种时空激励( Spatio-Temporal Excitation, STE)模块、通道激励( Channel Excitation, CE)模块和运动激励(Motion Excitation, ME)模块三者合一的轻量级高效 Action 模块,并将该模块移入到 2D CNN 中得到 Action-Net,在多个基准数据集上实现了不错的性能。
在机器之心最新一期 CVPR 2021 论文线上分享中,我们邀请到了论文一作、都柏林圣三一大学博士后研究员王正蔚为大家介绍 Action 模块和 Action-Net 框架的技术细节。
欢迎大家报名参与,如有疑问可在 QA 环节与分享嘉宾交流。
分享主题:即插即用的多路径激励动作识别模块 ACTION
嘉宾简介:王正蔚,都柏林圣三一大学博士后研究员,目前主要研究视频动作识别,侧重于人机交互、VR/AR 等时序动作的应用场景。
分享摘要:本文由字节跳动研究员佘琪和都柏林圣三一大学王正蔚合作完成,关注高效视频特征学习。视频应用场景近几年变得越来越多元化比如视频分类、视频精彩时刻挖掘和人机交互。在此工作中,主要侧重于时序动作识别比如人机交互与 VR /AR 中的手势识别。和传统的动作识别相比如 Kinetics(注重视频分类),此类应用场景主要有两种区别:其一是 一般部署在边缘设备上如手机和 VR / AR 设备上,所以对模型计算量和推理速度有一定的要求;其二此类动作(「Rotate fists counterclockwise」vs「Rotate fists clockwise」)和传统动作识别动作(「Walking」vs「Running」)相比有着较强时序性。针对以上的两点,基于 2D CNN(轻便)提出了一个混合注意力机制的 ACTION 模块(对于时序动作建模)。
论文链接:https://arxiv.org/pdf/2103.07372.pdf
时间:北京时间 6 月 4 日 19:00-20:00
直播间:https://jmq.h5.xeknow.com/s/2navB
直播交流群:欢迎大家入群交流,后续 CVPR 2021 线上分享也将在群中同步预告。
如群已超出人数限制,添加小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「CVPR」即可加入。
CVPR 2021 线下论文分享会
除了线上分享,机器之心将于 6 月 12 日组织「CVPR 2021 线下论文分享会」线下学术交流活动,更好的服务 AI 社区,促进国内计算机视觉学术交流。
时间:6 月 12 日 9:00-18:00
地址:北京市望京凯悦酒店
本场论文分享会将设置Keynote、 论文分享和 Poster 环节,邀请顶级专家、论文作者与现场参会观众共同交流。部分日程如下,欢迎大家积极报名学习。
点击阅读原文,立即报名。阅读原文
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线