全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-05-06_AI日报:苹果AI国行版或随iOS 18.6月底上线;Suno v4.5正式上线;Runway发布图像一致性参考功能

您的位置:首页 >> 新闻 >> 行业资讯

AI日报:苹果AI国行版或随iOS 18.6月底上线;Suno v4.5正式上线;Runway发布图像一致性参考功能 AI日报 5月6日?AIbase1、英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升 2、Suno v4.5 正式上线,仅限付费用户使用,生成歌曲延长至8分钟 3、Runway发布图像一致性参考功能 Gen-4 References 支持提取人物、场景或风格特征及多图混合 4、Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活 5、Claude AI将升级:网页版酝酿支持MCP定制链接 6、iOS18.6或为中国用户启用AI功能 国行苹果AI或由阿里百度技术支持 7、OpenAI 重返非营利模式,终止营利性实体控制机制 8、Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型 9、OpenAI同意以30亿美元收购AI编码助Windsurf 10、谷歌Gemini聊天机器人全新升级:支持多图上传和图像编辑功能 11、ChatGPT 访问量激增,4 月总计达47.86亿次、首次超越 X 12、Excel MCP Server上线 可通过Claude等客户端直接操作Excel文件 13、Claude 移动应用即将推出语音模式,支持多种声音选项 14、新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题 1.英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升 英伟达推出的Parakeet-TDT-0.6B-V2模型在自动语音识别领域取得了显著进展。该模型结合开源理念与商业应用,提升了转录效率,能够在一秒内完成60分钟音频的转录,且其词错误率接近市场领先水平。 亮点提要: ? 超强转录能力:该模型能在一秒内完成60分钟音频的转录,显著提高语音处理速度。 ?? 技术参数:拥有6亿个参数,结合FastConformer编码器和TDT解码器,词错误率仅为6.05%。 ?? 广泛应用场景:支持多种应用,包括转录服务、语音助手等,兼容Python和PyTorch等开发环境。 详情入口: ?? https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 2.Suno v4.5 正式上线,仅限付费用户使用,生成歌曲延长至8分钟 Suno音乐生成平台推出了其最新模型v4.5,专为Pro和Premier付费用户设计,显著提升了音质、风格多样性和用户体验。新版本支持更广泛的音乐风格,增强了声线表现和音效层次,同时延长了歌曲生成时长至8分钟。 亮点提要: ?? v4.5支持更广泛的音乐风格,具备智能混搭能力,提升创作自由度。 ?? 声线表现更为饱满,情感表达精准,音域和情感深度显著提升。 ? 歌曲生成时长从4分钟扩展至8分钟,用户可创作更长的音乐作品。 3.Runway发布图像一致性参考功能 Gen-4 References 支持提取人物、场景或风格特征及多图混合 Runway最近推出的Gen-4References功能为其AI视频生成模型增添了图像一致性参考能力,使创作者能够通过上传参考图像来提取人物、场景或风格特征,从而在生成内容中保持高度一致性。 亮点提要: ??? Gen-4References允许用户上传多张参考图像,确保生成内容在不同场景中的一致性。 ?? 该功能支持从电影制作到广告设计等多种创作场景,提升了视觉连贯性。 ?? Runway计划进一步增强该功能,推动AI视频生成技术的成熟与应用。 4.Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活 Midjourney最近推出的“Omni-Reference”功能为图像生成带来了革命性的变化。它允许用户对图像元素进行精确控制,支持多种对象生成和灵活的权重调整,从而提升创作的自由度和一致性。 亮点提要: ?? Omni-Reference功能提供精准的图像元素控制,用户可上传参考图像以生成高度匹配的结果。 ?? 支持多种对象生成,用户可以在单张图像中包含多个对象,适合复杂场景的创作。 ?? 通过动态权重调整,用户可控制参考图像的影响强度,确保细节的一致性与风格的灵活性。 5.Claude AI将升级:网页版酝酿支持MCP定制链接 近日,科技媒体TestingCatalog报道,Anthropic旗下的Claude网页应用将通过引入Model Context Protocol(MCP)进行重大升级。这一新协议旨在打破Claude在谷歌服务方面的限制,预计将为用户提供更灵活的使用体验。 亮点提要: ?? 预计Claude AI将通过MCP标准实现更灵活的第三方服务集成。 ?? MCP标准如同“USB-C接口”,将简化AI与外部工具的连接方式。 ?? 用户可通过网页直接访问第三方工具,提升工作效率,降低本地部署需求。 6.iOS18.6或为中国用户启用AI功能 国行苹果AI或由阿里百度技术支持 近日,苹果AI将在iOS18.6系统中首次启用部分功能,背后有阿里巴巴和百度的技术支持。由于政策限制,海外大模型无法在中国提供服务,百度的文心一言大模型将成为国行版苹果AI的核心引擎。同时,为确保内容合规,苹果引入阿里巴巴的审查机制。 亮点提要: ??? 苹果AI将在iOS18.6中首次启用,背后有阿里和百度的技术支持。 ?? 百度的文心一言大模型将作为国行版苹果AI的核心智能引擎。 ?? 阿里巴巴将提供审查机制,确保AI生成内容符合国内法规要求。 7.OpenAI 重返非营利模式,终止营利性实体控制机制 OpenAI 宣布重返非营利模式,结束营利性实体的控制,重组为公益公司。这一变动回应了外界对其商业化的担忧,尤其是来自埃隆·马斯克的批评。新的治理结构将确保社会效益透明,同时允许继续吸引风险投资。 亮点提要: ?? OpenAI 宣布重返非营利模式,终止营利性实体控制机制。 ?? 新设公益公司仍在非营利组织监督下,目标成为全球最大慈善实体之一。 ?? 调整后的架构将确保社会效益指标的透明度,同时保持商业运作空间。 8.Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型 Freepik最近推出了其文本到图像生成模型“F Lite”,旨在为因版权问题而备受争议的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商业授权图像库进行训练,拥有约100亿个参数。尽管在生成插图和矢量风格作品方面表现出色,但在生成照片级逼真图像时仍存在不足。 亮点提要: ??? F Lite是Freepik推出的文本到图像生成模型,旨在提供版权安全的替代方案。 ?? 该模型基于Freepik自有图像库训练,拥有约100亿个参数,强调合法审查数据的重要性。 ?? 尽管在插图生成方面表现优异,但F Lite在生成照片级图像时仍面临细节缺失等挑战。 9.OpenAI同意以30亿美元收购AI编码助Windsurf OpenAI近期宣布以约30亿美元收购人工智能编码助手Windsurf,此交易是其迄今为止最大的一笔收购,显示出其在AI领域的雄心和实力。Windsurf的技术在开发者社区中备受推崇,此次收购可能会引发行业内的广泛讨论,尤其是在OpenAI与其他AI编码助手之间的竞争关系上。 亮点提要: ?? OpenAI以约30亿美元收购人工智能编码助手Windsurf,标志着其最大收购案。 ?? 收购引发对OpenAI与其他AI编码助手竞争关系的担忧。 ?? OpenAI缩减转型计划,面临法律挑战和外界批评。 10.谷歌Gemini聊天机器人全新升级:支持多图上传和图像编辑功能 谷歌的Gemini聊天机器人最近进行了重要的更新,新增了多图上传和AI图像编辑功能。该更新目前已向部分用户开放,允许在网页端同时上传多张图片,并对AI生成的图像进行编辑。尽管这些功能尚未在所有账户中完全开放,但它们为用户提供了更大的创作灵活性,提升了整体用户体验。 亮点提要: ??? 新增多图上传功能,部分用户已可同时上传多张图片。 ?? 引入AI图像编辑功能,用户可更改背景和替换物体。 ?? 用户需遵循谷歌使用条款,确保合规性。 11.ChatGPT 访问量激增,4 月总计达47.86亿次、首次超越 X 根据Similarweb发布的2025年4月网站流量报告,ChatGPT的访问量达到了47.86亿次,首次超过社交媒体平台X的40.28亿次,显示出生成式AI工具的快速普及。ChatGPT在工作日的访问量接近2亿次,反映出其作为生产力工具的广泛应用。 亮点提要: ?? ChatGPT在2025年4月的访问量达47.86亿次,首次超过社交媒体平台X的40.28亿次。 ?? 工作日访问量接近2亿次,表明ChatGPT作为生产力工具的广泛应用。 ?? ChatGPT的用户基础在全球范围内持续扩大,尤其是在移动端的强劲增长。 12.Excel MCP Server上线 可通过Claude等客户端直接操作Excel文件 Excel MCP Server是一款开源工具,基于模型上下文协议(MCP)开发,允许用户通过AI助手直接操作Excel文件,无需安装微软Excel软件。该工具功能强大,支持创建、读取、修改Excel数据,生成图表和透视表,极大地方便了用户的表格处理工作。 亮点提要: ??? Excel MCP Server允许用户通过AI助手直接操作Excel,无需安装微软Excel软件。 ?? 该工具支持创建、读取、修改Excel数据,生成图表和透视表,功能全面。 ?? 作为开源项目,Excel MCP Server促进了社区开发,支持多种AI客户端的无缝集成。 详情入口: ?? https://top.aibase.com/tool/excel-mcp-server 13.Claude 移动应用即将推出语音模式,支持多种声音选项 Claude 移动应用即将进行重要升级,推出备受期待的语音模式功能。该模式采用推按式对话,支持多种声音选项,并具备网页搜索能力,搜索结果以要点形式呈现,便于用户理解和跟进。此外,用户可以上传文件作为上下文参考,提升了交互体验。 亮点提要: ?? Claude 移动应用即将上线语音模式,采用推按式对话并支持多种声音选项。 ?? 语音模式支持网页搜索,输出结果以要点形式呈现,用户可方便浏览。 ?? 该功能还支持文件上传,让用户可以在对话中使用图片或文档作为上下文参考。 14.新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题 KeySync是一款创新的唇形同步工具,成功解决了AI唇形同步中的表情泄漏和嘴部遮挡问题。其独特的两阶段框架设计使得唇部动作更加自然和精准,适用于影视制作、动画、虚拟主播等多个领域。 亮点提要: ?? KeySync通过创新算法解决了表情泄漏和嘴部遮挡问题,提升了唇形同步的精准性和自然度。 ?? 该工具支持高分辨率视频处理,优化了时间连贯性,确保唇部动作流畅自然,避免了传统工具的常见问题。 ?? KeySync的广泛应用前景为影视、动画、虚拟主播等行业带来了新的机遇,提升了多语言视频的质量和制作效率。 详情入口: ?? https://github.com/antonibigata/keysync ↓点击阅读原文,进AIbase官网. 阅读原文

上一篇:2024-11-26_轮番轰炸!AI圈真的太卷了!Luma推出全新Dream Machine,交互更简单,文字、图像、视频一条龙服务 下一篇:2025-03-20_「转」DeepSeek+AI论文写作系统,帮学生快速拿捏论文初稿!

TAG标签:

21
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价