2025-01-24_贾佳亚团队联合Adobe提出GenProp，物体追踪移除特效样样在行-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

贾佳亚团队联合Adobe提出GenProp，物体追踪移除特效样样在行 AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 论文一作刘少腾，Adobe Research实习生，香港中文大学博士生（DV Lab），师从贾佳亚教授。主要研究方向是多模态大模型和生成模型，包含图像视频的生成、理解与编辑。作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。论文地址：https://arxiv.org/pdf/2412.19761项目地址：https://genprop.github.io/视频地址：https://www.youtube.com/watch?v=GC8qfWzZG1M Text-to-Video 模型已展现出世界模拟器的潜力，这种潜力能革新传统视觉任务吗？近日，贾佳亚团队联手 Adobe 团队，用 GenProp（Generative Video Propagation）来给出答案。 GenProp 可以完成几乎所有 “传播”（ Propagation）任务，即便是更接近感知任务的实例追踪（Instance Tracking）：在人们的印象里，追踪（Tracking）问题已经得到了很好的解决。SOTA 方法 SAM 在大规模分割数据上经过了专门的训练，精度很高。然而，传统感知方法的数据标注很难覆盖 “千变万化” 的影子，强如 SAM 也会在这类问题上犯错。相比于 SAM v2.1，GenProp 展现出了生成模型特有的优势：得益于 video generation 的基础能力，模型可以完整地追踪物体的 side effects，如狗和人的影子、反射等。这给我们带来了一些启发：能够生成的视觉现象，是否都能够被感知？生成式的大规模预训练，可能会弥补感知模型的一些缺陷。 GenProp 并不追求在某个问题上成为定量的 SOTA，而是希望能够发挥生成模型的作用，拓展每个问题的边界，展现之前方法做不到的事情。接下来，我们会看到 GenProp 对物体移除、视频补全、物体替换、背景替换、物体插入、视频外绘等问题的革新。对于物体移除，传统方法只能移除物体本身。和追踪问题类似，GenProp 也可以同时移除物体产生的 side effects，如反射、影子。这对于传统方法很困难，因为数据多变、难以收集，需要模型对物理规律有理解。对于物体插入，GenProp 不仅能插入静止物体，还可以产生合理的独立运动，如行驶的赛车、掉落的柠檬（符合物理规律）。对于物体替换，GenProp 不止能编辑外观（appearance editing），还能大幅改变替换物体的形状，例如熊变成羊，人变成石台。而依靠 attention map 的传统视频编辑方法，如 Video-P2P，都无法大幅改变形状。 GenProp 还可以编辑特效，如使钓鱼竿着火！须知，现阶段的编辑算法大多围绕物体和场景，对于特效的编辑能力都较弱。对于背景替换，GenProp 能使生成物体和新背景的相互作用，适应协调：除此之外，GenProp 在没有 outpainting 数据 pair 训练的情况下，涌现出了 outpainting 的能力，可以补全大面积运动的区域，体现了模型的通用能力：化繁为简：通用框架与通用数据对 GenProp 允许用户在初始帧上做任意修改，并据此生成后续变化的内容。在推理过程中，GenProp 的框架通过选择性内容编码器（Selective Content Encoder，SCE）接收原始视频作为输入，以保留未改变区域的内容。首帧所做的更改会通过 Image-to-Video（I2V）模型在整个视频中传播，而其他区域则保持不变。如图所示，Selective Content Encoder 负责重建原始视频的信息，Image-to-Video 模型负责生产新的视频信息。通过调整 Injection Weight，可以控制生成和重建的比例。 GenProp 的框架在 I2V 生成模型的基础上集成了选择性内容编码器（Selective Content Encoder，SCE）和掩码预测解码器（Mask Decoder），强制模型传播编辑区域的同时，保留原始视频中其他所有区域的内容。通过 Copy & Paste 等合成数据，模型被训练以传播首帧中的各种变化，同时还可以预测每帧中被编辑区域的位置。如图所示，训练过程中，仅需放开 Selective Content Encoder 和 Mask Decoder 的参数。合成数据只作为 Selective Content Encoder 的输入，用于监督的模型输出数据均采用原始视频，从而保证了模型输出的视频质量不会被降低。这也意味着，原始视频的 caption 可以直接送入 text encoder。具体来说，文章对实例分割数据采用了多种数据制造技术，针对不同的传播子任务进行了设计： (1) Copy-and-Paste：从一个视频中随机分割物体并粘贴到另一个视频中，模拟物体移除；(2) Mask-and-Fill：对遮罩区域进行图像修复，模拟选定区域内的编辑效果；(3) Color Fill：用特定颜色填充遮罩区域，代表基本的物体跟踪场景。 Copy & Paste 合成数据如图所示（Video1 和 Video2 是随机采样的视频）：可以看出，GenProp 的数据对并无涵盖所有的应用场景，但数据量很大。通过有限的构造数据，SCE 和 I2V 的分工得到了充分训练，实现了 “无限” 应用，如特效编辑、outpainting 等。除此之外，GenProp 提出了区域感知损失（Region-Aware Loss）。该 loss 通过限制梯度的方式，削弱了 SCE 对于编辑区域的影响，帮助模型将编辑区域与原始内容区分开来。可以观察到，在注意力图可视化过程中，注意力图逐渐聚焦于要移除的区域（左边的天鹅），引导 I2V 模型在这些区域内生成新内容，符合训练的预期：总结本文搭建了一个通用的框架，把视频生成模型转变为编辑模型 GenProp，可将一帧的修改传播到整个视频。对于去除任务，模型可去除物体的 side effects（如影子、反射）。对于修改任务，模型可修改物体的一小部分，也可进行较大形变的修改。对于背景修改，模型能够生成物体和新背景的相互作用。对于物体插入，模型能够允许物体独立的运动。对于物体追踪，模型能够同时追踪 side effects（如影子、反射）。此外，模型还涌现出了如 outpainting 等新能力。 ?THE END 转载请联系本公众号获得授权投稿或寻求报道：liyazhou@jiqizhixin.com

上一篇：2023-08-11_果然！影视人的七夕，这样过才够瘾!

下一篇：2024-12-11_大模型创业太累，又一位大牛逃回大厂

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系