全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-07-07_阿里达摩院最新成果:AI视频创作,一条龙服务!

您的位置:首页 >> 新闻 >> 行业资讯

阿里达摩院最新成果:AI视频创作,一条龙服务! 来源:量子位AIGC时代,视频创作这事儿真的不一样了。 就像这样,轻轻一圈,选定目标立刻变身单独图层,再丝滑嵌入不同的背景视频,场景变换so easy~ 想要调整一下镜头角度,交给AI,同样能一键完成: 还能一键消除、修改目标: 后期再也不用加班加到手抽筋(doge)。 划!重!点!这还不是实验室里的单一技术demo,而是马上就要开放内测,让创作者们直接可以用起来的一站式AI视频创作平台——“寻光”。 就是说,传统上分散在不同制作流程中的剧本创作、分镜图设计、视频素材编辑等步骤,现在都可以在AI加持下,在同一个平台上流畅完成。 这就是阿里达摩院在上海世界人工智能大会上带来的最新惊喜。 演示一出,现场的观众都坐不住了。 而达摩院官方,也透露出了AI视频领域新成果背后更大的“野心”: 不对标Sora,而是走自己的路,希望更快让AI生产力匹配人类想象力。 “寻梦光影间”所谓寻光,意指“寻梦光影间”: 即通过人工智能技术,提供全新的视频创作模式。 与Sora等今年备受关注的AI视频生成模型不同,寻光关注到的,是“Sora之后,视频工作流的变革”。 达摩院认为,Sora等AI视频生成模型给足了人们对视频生产方式彻底变革的想象力,但一方面,AI视频内容的可控编辑,包括对复杂剧情的理解、生成对象的一致性等,仍然是当前算法所面临的一大挑战。 另一方面,业界尚没有统一的AI视频编辑平台,能让创作者们一站式体验到AI加持的视频创作全流程。 举个例子,OpenAI创始成员Andrej Karpathy最近也玩上了AI视频,整出了个AI版《傲慢与偏见》。 在这个短片的制作过程中,他用到的工具包括Claude、Ideogram、Luma、ElevenLabs、VEED……而他本人也抱怨说: 老实说这个工作流非常混乱,工具与工具之间存在大量的复制粘贴,3个片段的简单小视频就花了我大约1个小时的时间。 这里面存在一个巨大的机会。谁正在打造100%的AI原生视频制作平台? 达摩院打造寻光,定位为PUGC一站式AI视频创作平台,目标正是针对以上问题,用AI能力重塑传统视频制作的全流程。 具体来说,寻光可以辅助用户创作剧本、分镜图等,支持对生成及上传素材进行丰富的AI编辑,包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能。 并且在交互方面,主打“让视频编辑像操作PPT一样简单”。 以分镜设计环节为例,上传到寻光的原始视频素材,会由算法切分成多个分镜头。 在创作空间里,用户可以方便地查看到每一个分镜头,并用简单的拖拽操作对其进行调整。 在新建的空白分镜中,除了添加已有素材,寻光平台还支持用户调用多种多模态生成模型,生产新的内容。 而在编辑功能方面,寻光强调的是精细化的编辑和控制:在AI加持下,依据用户意图,在语义层面而不是像素层面实现编辑;同时,视频里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。 在现场,达摩院视觉技术实验室高级算法专家陈威华着重提到了基于视频图层的编辑能力。 以前景图层功能为例,用户通过文本输入,即可生成符合描述的、具有透明背景的视频,并且一键就能将其融合到其他背景视频当中。 寻光也支持图层拆解功能,用户在视频第一帧选择想要提取的物体,算法就会自动跟踪,把整段视频中对应的目标拆解出来,形成独立的带透明背景的视频图层。 飘动的头发也扣得很精细的那种: 另外,在对视频全局元素的编辑方面,风格迁移上,寻光平台提供了20+不同风格。 运镜控制上,左右平移、上下平移、推进拉远、左右环绕等都能支持。 在对视频局部元素的编辑方面,除了目标消除,寻光平台还能实现人脸的精准控制: △视频取自国风武侠动漫《少年白马醉春风》第三集轻轻一拉实现运动控制: 如此看来,寻光可以说集成了市面上最完备的AI编辑功能,把一整个视频制作工作流都给AI化了。相比于在各种工具间跳来跳去,在传统工作流中零散地插入AI能力,属实更加方便、高效了。 重塑视频创作工作流探索更理解物理世界规律、生成时长更长、生成效果更惊艳的多模态的模型,是当今工业界和学术界都密切关注的方向。 但当更强大的AI面世后,人们能否更快掌握这种新型生产力,同样是值得关注的话题。 在Karpathy挑起话题之后,就有不少网友表示确实戳中痛点: 从一个工具转移到另一个工具会破坏工作状态,说实话,这限制了这些工具对效率的提升。 AI视频创作需要统一的UI。 陈威华也在WAIC现场谈到: 今天我们正处在AI视频生成这场巨大变革之中,“工欲善其事,必先利其器”,我们希望寻光视频创作平台就是每一个人手中的利器,是每一个人的专属视频工作室,在这个平台上,AI与创作者之间能够更紧密高效地协作。 为此,寻光平台背后的达摩院视觉技术实验室已做了大量技术储备。 该实验室致力于多模态视觉信号的理解与生成技术研究,当前的重点研究方向包括更加精准的图像/视频/3D内容生成,更加可控的图像/视频/3D内容编辑,更加高效的生成框架,多模态的理解-生成框架等。 AIGC在全世界范围内引爆热潮,核心在于带来了生产力彻底变革的想象空间。 现在,解放生产力的第一步,已经开始落地实践,你期待吗? 官网地址: https://xunguang.damo-vision.com/ 推荐阅读 MIT新晋副教授何恺明《计算机视觉进展》课程,附Slides与资料下载 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研奖金675万!3位科学家,斩获“中国诺贝尔奖”!最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-计算机视觉技术交流群! 大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明) ??长按识别,邀请您进群!

上一篇:2020-09-01_既保护隐私又快速训练,Facebook开源Opacus库,利用差分隐私训练PyTorch模型 下一篇:2020-12-05_「转」现在的年轻人,只想安心地睡一觉

TAG标签:

15
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价