全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-01-17_TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

您的位置:首页 >> 新闻 >> 行业资讯

TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍! AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 本文介绍刚刚被 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用的一篇文章:Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition,会议版本 AdaFocus V1/V2/V3 分别发表于 ICCV-2021 (oral)、CVPR-2022、ECCV-2022。 论文链接:https://arxiv.org/abs/2412.11228项目链接:https://github.com/LeapLabTHU/Uni-AdaFocus Uni-AdaFocus 是一个通用的高效视频理解框架,实现了降低时间、空间、样本三维度冗余性的统一建模。代码和预训练模型已开源,还有在自定义数据集上使用的完善教程,请访问项目链接。 Uni-AdaFocus 的关键思想与设计思路在于,它建立了一个统一的框架,实现了降低时间、空间、样本冗余性的统一建模,并且使用一些数学方法处理了时空动态计算不可微分的问题,可以方便地进行高效端到端训练,无需强化学习等更为复杂的方法。 具体而言: 降低时间冗余性:动态定位和聚焦于任务相关的关键视频帧;降低空间冗余性:动态定位和聚焦于视频帧中的任务相关空间区域;降低样本冗余性:将计算资源集中于更加困难的样本,在不同样本间差异化分配; 在长视频理解上,Uni-AdaFocus比现有最好的同类 baseline 加速了 5 倍。它可以兼容于现有的高效 backbone,利用动态计算的思想进一步提升其效率,例如将 TSM 和 X3D 各自加速了 4 倍左右。在上述加速情形中,Uni-AdaFocus 基本上都在加速的同时实现了比较显著的准确性提升。 在 7 个学术数据集(ActivityNet, FCVID, Mini-Kinetics, Sth-Sth V1&V2, Jester, Kinetics-400)和 3 个应用场景(使用脑 MRI 诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测)上进行了验证,Uni-AdaFocus发挥稳定,特定典型情况下可实现多达 23 倍的(性能无损)推理加速或高达 7.7% 的准确性提升。 在 CPU/GPU 实测速度、吞吐量上,Uni-AdaFocus与理论结果高度一致。?接下来,我们一起来看看该研究的细节。 研究背景和动机 相较于图像,视频理解是一个分布范围更广、应用场景更多的任务。例如,每分钟,即有超过 300 小时的视频上传至 YouTube,超过 82% 的消费互联网流量由在线视频组成。 自动识别这些海量视频中的人类行为、交互、事件、紧急情况等内容,对于视频推荐、视频监控、智能编辑与创作、教育与培训、健康医疗等受众广泛的应用具有重要意义。 同时,面向视频数据的视觉理解技术在具身智能、自动驾驶、机器人等物理世界的实际场景中也有广泛的应用空间。 近年来,已有很多基于深度神经网络的视频理解算法取得了较佳的性能,如 TSM、SlowFast、I3D、X3D、ViViT 等。然而,一个严重的问题是,相较于图像,使用深度神经网络处理视频通常会引入急剧增长的计算开销。如下图所示,将 ResNet-50 应用于视频理解将使运算量(FLOPs)扩大 8-75 倍。 因此,一个关键问题在于,如何降低视频理解模型的计算开销。一个非常自然的想法是从视频的时间维度入手:一方面,相邻的视频帧之间往往具有较大的相似性,逐帧处理将引入冗余计算。另一方面,并非全部视频帧的内容都与理解任务相关。现有工作大多从这一时间冗余性出发,动态寻找视频中的若干关键帧进行重点处理,以降低计算成本,如下图第二行 (b) 所示。 然而,值得注意的一点是,该团队发现,目前尚未有工作关注于视频中的空间冗余性。具体而言,在每一帧视频中,事实上只有一部分空间区域与任务相关,如图中的运动员、起跳动作、水花等。 受此启发,该团队提出了 AdaFocus 方法来动态定位每帧中的任务相关区域,并将最多的计算资源分配到这些区域以实现高效处理,如上图第三行 (c) 所示。 以 AdaFocus 为基础,该团队进一步实现了时间、空间、样本三个维度的统一动态计算,提出了一个通用于大多数骨干网络(backbone)的 Uni-AdaFocus 框架。 Uni-AdaFocus 能够自适应地关注于视频中任务相关的关键帧、关键帧中任务相关的重要区域、以及将计算资源更多地分配给更为困难的样本,如上图第四行 (d) 所示。 模型简介 如上图所示,Uni-AdaFocus 首先使用全局编码器 f_G(轻量化的特征提取网络,例如 MobileNet-V2 等)用低成本对均匀采样的视频帧进行粗略处理,获得视频整体的时空分布信息,即全局特征。 一个策略网络 π 基于 f_G 提取的全局特征自适应地采样关键帧以及其中的关键区域,得到值得关注的 patches,patch 的形状和大小根据视频帧的具体特性自适应地决定。局部编码器 f_L(参数量大的大容量神经网络,准确率高但计算开销较大)仅处理策略网络 π 选择出的 patches,即局部特征。 最后分类器 f_C 逐帧聚合全局特征和局部特征以得到最优的视频理解结果,同时通过早退机制实现对样本维度计算冗余性的建模。 关于 Uni-AdaFocus 模型设计和训练方法的更多细节,由于比较繁杂,可以移步参阅论文。 实验结果 使用 MobileNet-V2 和 ResNet-50 为 backbone, Uni-AdaFocus 在 ActivityNet,FCVID 和 Mini-Kinetics 上的实验结果,以及与现有最佳同类方法的比较。蓝色文字表示基于 baseline 模型的提升幅度 使用 MobileNet-V2-TSM 和 ResNet-50-TSM 为 backbone,Uni-AdaFocus 在 Something-Something-V1 / V2 和 Jester 上的实验结果。 使用 X3D-S 和 X3D-L 为 backbone,Uni-AdaFocus 在 Kinetics-400 上的实验结果。 Uni-AdaFocus 在 3 个应用场景(使用脑 MRI 诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测)上的实验结果。? Uni-AdaFocus 的可视化结果。所示的视频帧为 Uni-AdaFocus 所选取的任务相关帧,浅蓝色方块表示Uni-AdaFocus在每一帧选择的 patch。可以看到 Uni-AdaFocus 成功定位到任务相关视频帧中的任务相关区域,例如长笛、小狗、圣诞树、马术运动员等,并能自适应地调整 patch 的大小和形状、以及任务相关视频帧的数目。 ?THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com

上一篇:2025-04-07_影视人必备图书—《2024中国电影艺术报告》国家队权威、行业宝藏! 下一篇:2024-05-21_八月:抱歉,我对广告没热情!

TAG标签:

17
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价