AI日报:小屳忿源首个原生端到端语音大模型;通义万相Wan2.2-Animate正式开源;腾讯混元3D Studio 震撼登场
AI日报
9月19日?AIbase1、小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio
2、通义万相全新动作生成模型Wan2.2-Animate正式开源
3、Suno v5音乐模型即将登场,AI音乐创作迎来“变革性”升级
4、生数科技获数亿元融资,视频生成引领AI商业化新潮流
5、OpenAI 修复 ChatGPT 漏洞,防止用户 Gmail 数据被盗取
6、谷歌在 Chrome 浏览器中引入 Gemini,助力智能搜索新体验
7、Luma AI发布Ray3:以“推理”能力革新视频生成,支持16位色深
8、法国AI公司Mistral重磅推出开源推理模型 Magistral Small 1.2
9、Notion重磅发布AI智能体!自动生成会议笔记、竞品分析,20分钟处理数百页文档
10、腾讯混元3D Studio 震撼登场:3D 创作从天级提速至分钟级
1.小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio
小米公司宣布开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,标志着语音技术领域的重大突破。该模型基于创新的预训练架构和上亿小时的训练数据,在少样本泛化能力方面表现出色,并在多个评测基准中超越了其他闭源模型。
亮点提要:
?? 首次实现语音领域基于In-Context Learning的少样本泛化能力。
?? 在音频理解基准 MMAU 和 Big Bench Audio S2T 任务中超越了 Google 和 OpenAI 的闭源模型。
?? 开源完整的语音预训练方案,包括 Tokenizer、模型结构、训练方法和评测体系。
详情入口:
?? https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct
2.通义万相全新动作生成模型Wan2.2-Animate正式开源
通义万相团队推出的全新动作生成模型 Wan2.2-Animate 在人物一致性、生成质量等方面有显著提升,支持动作模仿和角色扮演两种模式,广泛应用于短视频创作、动漫制作等领域。
亮点提要:
?? 输入角色图片和参考视频,模型可将视频动作迁移到图片角色中。
?? 在角色扮演模式下,模型可替换视频中的角色为图片角色。
??? 模型设计了独立的光照融合 LoRA,保证光照效果完美融合。
详情入口:
?? https://github.com/Wan-Video/Wan2.2
3.Suno v5音乐模型即将登场,AI音乐创作迎来“变革性”升级
Suno的v5音乐模型即将发布,被视为AI音乐创作的里程碑,预计将进一步模糊人类作曲与机器生成的界限。
亮点提要:
?? Suno v5音乐模型即将推出,引发全球关注。
?? v5将引入更先进的语义控制和多模态输入功能。
?? v4.5上线后,用户生成作品播放量突破数亿次。
4.生数科技获数亿元融资,视频生成引领AI商业化新潮流
生数科技在多模态AI领域取得显著进展,成功获得数亿元融资,并通过Vidu视频大模型实现了商业化的成功。未来,视频生成技术有望进一步发展并影响多个行业,但同时也需应对版权和虚假信息等问题。
亮点提要:
?? 生数科技完成数亿元A轮融资,多模态AI领域迎来新突破。
?? Vidu视频大模型实现2000万美元年收入,商业化应用广泛。
?? 视频生成技术将改变全球数字内容生产方式,面临版权治理等挑战。
5.OpenAI 修复 ChatGPT 漏洞,防止用户 Gmail 数据被盗取
文章指出,网络安全公司 Radware 发现了 ChatGPT 的“深度研究”功能存在严重漏洞,可能被黑客利用来窃取用户的 Gmail 邮件数据。该漏洞允许黑客通过特制邮件诱导 ChatGPT 在处理用户 Gmail 查询时,将敏感信息发送到恶意网站。
亮点提要:
?? ChatGPT 漏洞允许黑客通过特制邮件窃取用户 Gmail 数据。
?? OpenAI 迅速修复漏洞,并确认其对用户信息安全的重视。
??? 常规安全防护难以检测此类攻击,用户需保持警惕。
6.谷歌在 Chrome 浏览器中引入 Gemini,助力智能搜索新体验
谷歌将 Gemini 集成到 Chrome 浏览器中,以增强用户体验并应对竞争压力。Gemini 支持跨选项卡工作、任务安排等功能,并与谷歌的多个应用深度整合。企业用户也将受益于数据保护和代理功能。
亮点提要:
?? 谷歌在 Chrome 中整合 Gemini,提升用户智能搜索体验。
?? Gemini 支持用户理解网页内容,跨选项卡工作和安排任务。
?? 企业用户也将享受 Gemini 带来的数据保护和代理功能。
7.Luma AI发布Ray3:以“推理”能力革新视频生成,支持16位色深
Luma AI推出的Ray3视频生成模型凭借其HDR能力和强大的“推理”功能,为视频创作带来了革命性的变化,同时支持高精度的视觉控制和专业工作流程整合。
亮点提要:
?? Ray3支持生成10位、12位乃至16位色深的视频,并可导出为EXR文件格式,便于专业工作流程使用。
?? Ray3具备“推理”能力,能理解复杂指令并自我评估输出质量,实现视频迭代优化。
??? 用户可通过图像绘制草图控制视频内容,提供前所未有的创作自由度。
8.法国AI公司Mistral重磅推出开源推理模型 Magistral Small 1.2
法国公司 Mistral AI 推出了其最新开源推理模型 Magistral Small 1.2,该模型拥有24B参数,并以 Apache2.0 开源许可方式发布。新版本支持高达128k的上下文处理,引入了[THINK]特殊token,增强了模型的表现力和灵活性。同时,Magistral Small 1.2还增加了视觉编码器,兼容多种框架,为开发者提供了更多便利。
亮点提要:
?? Magistral Small 1.2 是一款具有24B参数的开源推理模型,采用 Apache2.0 许可协议发布。
?? 新版本引入了[THINK]特殊token,提升了模型的表现力和灵活性。
??? 增加了视觉编码器,使其在图像和文本综合任务中更具优势。
9.Notion重磅发布AI智能体!自动生成会议笔记、竞品分析,20分钟处理数百页文档
Notion推出了首个AI智能体,能够利用用户所有Notion页面和数据库作为上下文,自动生成会议笔记、分析报告、竞品评估等。该智能体功能强大,可创建或更新页面和数据库,并支持从外部平台触发操作。个性化设置是其亮点,用户可以为智能体设置档案页面,指导其如何引用来源、输出风格等。
亮点提要:
?? AI智能体能自动生成会议笔记、分析报告和竞品评估。
?? 支持从外部平台(如Slack、邮件和Google Drive)触发智能体操作。
?? 用户可自定义智能体的档案页面,指导其行为和输出风格。
10.腾讯混元3D Studio 震撼登场:3D 创作从天级提速至分钟级
腾讯混元3D Studio的发布标志着3D创作效率的革命性提升,为设计师、游戏开发者和建模师提供了强大的AI工作台,显著缩短了3D资产生产周期。
亮点提要:
?? 原生3D分割算法实现模型部件的自动拆分,支持独立编辑角色配饰和服装。
?? AI语义UV展开技术在1-2分钟内生成符合美术标准的UV图,提升工作效率。
?? 智能材质编辑支持通过文本或图片输入生成高质量PBR质感纹理,实现精准材质控制。
详情入口:
?? https://3d.hunyuan.tencent.com/studio
↓点击阅读原文,进AIbase官网.
阅读原文
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线