全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-06-18_杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!

您的位置:首页 >> 新闻 >> 行业资讯

杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声! 机器之心报道编辑:杨文 AI圈这遍地开花的大好局面,让吃瓜群众们甚是惊喜。这几天,大洋彼岸杀疯了! Luma 的热乎劲儿还没过去,昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。(查看详情请移步:Runway 版 Sora 发布:高保真、超强一致性,Gen-3 Alpha 震撼到网友了) 更没想到的是,一觉醒来,Google DeepMind 也有了新消息,悄咪咪地发布了视频生成语音(V2A)技术的进展。 虽然这一功能还未向公众开放,不过从官方放出的视频 Demo 来看,效果那是相当丝滑。同时,Google DeepMind 强调,所有示例均由 V2A 技术和他们最先进的生成视频模型 Veo 联手打造。 音频提示: 紧张刺激的恐怖片配乐,脚步声在混凝土上回响。(Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete) 黑灯瞎火的废弃仓库中,一个黑衣人犹如鬼魅般缓行,再配上诡异的音乐和脚步声,恐怖气氛拉满。 音频提示: 狼在月光下的长嚎。(Wolf howling at the moon) 视频 Demo 一出,评论区清一水的追问:啥时候能用? 还有网友寄希望于开源社区当一回赛博菩萨,复制谷歌的这一技术。 其实,就在 Google DeepMind 官宣没多久,AI 音频领域的「扛把子」ElevenLabs 横插一脚,开源了一个上传视频自动配音的项目,可以为视频生成合适的音效。 链接:https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects 如今 AI 圈子的竞争已呈白热化,大小厂的你追我赶将会创造更加公平的竞争环境,而一旦这些技术成熟,AI 视频领域将会有无限可能。 AI 视频告别无声电影 众所周知,视频生成模型正以惊人的速度发展。不过,无论是年初惊艳世人的 Sora,还是近期的可灵、Luma、Gen-3 Alpha,生成的全是「无声电影」,无一例外。 而 Google DeepMind 的视频生成音频 (V2A) 技术,使得同步的视听生成成为可能。它可以结合视频像素和自然语言文本提示,为屏幕上的动作生成丰富的配音。 从技术应用上来说,V2A 技术能够与 Veo 等视频生成模型结合,创造出具有戏剧性配乐、逼真音效或与视频角色以及风格相匹配的对话镜头。 它还能为档案材料、无声电影等传统影像生成音轨,拓宽创作的可能。 音频提示: 可爱的幼年恐龙在丛林中啁啾,伴随着蛋壳的破裂声。(Cute baby dinosaur chirps, jungle ambience, egg cracking) 音频提示: 汽车打滑声、引擎轰鸣声,伴随着天使般的电子音乐。(cars skidding, car engine throttling, angelic electronic music) 音频提示: 日落时分,草原上响起悠扬的口琴声。(a slow mellow harmonica plays as the sun goes down on the prairie) V2A 技术能够为任何视频输入生成无限数量的音轨。用户可以选择定义「正向提示」来引导生成期望的声音,或者「负向提示」来避免不期望的声音。 这种灵活性让用户对音频输出有了更多的控制,可以快速尝试不同的音频输出,并选择最佳匹配。 音频提示:一艘宇宙飞船在浩瀚的太空中疾驰,星星在它周围划过,高速飞行,充满科幻感。(A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi) 音频提示:天籁般的大提琴氛围(Ethereal cello atmosphere) 音频提示:一艘宇宙飞船在广袤的太空中高速穿梭,星星在它周围飞速掠过,具有科幻感。(A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi) 背后的工作原理 研究团队尝试了自回归和扩散方法,以发现最可扩展的 AI 架构。扩散方法在音频生成上给出了最真实和引人入胜的结果,用于同步视频和音频信息。 V2A 系统首先将视频输入编码成压缩表示,然后扩散模型从随机噪声中迭代细化音频。这个过程由视觉输入和给定的自然语言提示指导,生成与提示紧密对齐的同步、逼真音频。最终,音频输出被解码成音频波形,并与视频数据结合。 为了生成更高质量的音频并引导模型生成特定声音,研究团队在训练过程中添加了更多信息,包括 AI 生成的注释,详细描述声音和对话文本。 通过在视频、音频和额外注释上的训练,该技术学会将特定的音频事件与各种视觉场景关联起来,同时响应注释或文本中提供的信息。 谷歌方面强调,他们的技术与现有的视频到音频解决方案都不同,因为它可以理解原始像素,并且添加文本提示是可选的。此外,该系统不需要手动对生成的声音与视频进行对齐,极大地简化了创作流程。 不过,谷歌的这一技术也并非完美,他们仍在努力解决一些 bug。例如,视频输入的质量直接影响音频输出的质量,视频中的伪影或失真可能导致音频质量下降。 同时,他们也在优化唇形同步功能。 V2A 技术尝试从输入文本中生成语音,并将其与角色的口型动作进行同步,但若视频模型未针对文本内容进行相应的调整,就可能导致口型与语音不同步。他们正改进这一技术,以提升唇形同步的自然度。 音频提示:音乐,文本转录「这只火鸡看起来好极了,我好饿。」(Music, Transcript: “this turkey looks amazing, I’m so hungry”) 或许是由于深度伪造技术带来诸多社会问题,Google DeepMind 求生欲满满,一个劲承诺将负责任开发和部署 AI 技术,在向公众开放之前,V2A 技术将经过严格的安全评估和测试。 此外,他们还整合了 SynthID 工具包到 V2A 研究中,为所有 AI 生成的内容添加水印,以防止技术的滥用。 参考链接:https://deepmind.google/discover/blog/generating-audio-for-video/ https://x.com/GoogleDeepMind/status/1802733643992850760 从有趣到有用,AIGC如何促进营销增长 6月19日,首期《AIGC体验派》正式开播,邀请到CMO Club创始人班丽婵和火山引擎AI解决方案负责人骆怡航,一起聊聊营销人最关注的问题:AIGC是否已经为营销人带来实际价值? AIGC在营销领域的具体应用有哪些? 营销人员如何衡量AIGC的成效?识别海报二维码或点击阅读原文,立即报名直播。 ?THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com 阅读原文

上一篇:2025-02-20_央妈力挺《哪吒2》,全球票房登顶背后藏着什么秘密? 下一篇:2025-01-02_康师傅方便面300万找周边礼品设计公司

TAG标签:

19
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价