全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-03-12_AI日报:阿里通义开源R1-Omni模型;DeepSeek-R1 批量推理价格暴降 75%;OpenAI发布智能体API

您的位置:首页 >> 新闻 >> 行业资讯

AI日报:阿里通义开源R1-Omni模型;DeepSeek-R1 批量推理价格暴降 75%;OpenAI发布智能体API AI日报 3月12日?AIbase1、阿里通义宣布开源R1-Omni模型 可提升多模态情感识别能力 2、OpenAI推出新工具,助力AI智能体从“回答问题”跨越到“执行任务” 3、百度AI开源表格识别模型PP-TableMagic 4、Manus与阿里云通义千问达成合作,共推国产AI智能体产品 5、告别平面!MIDI:可提取图片元素生成360度3D场景 6、视频局部编辑技术VideoPainter:输入提示词自动识别修改,支持长视频 7、开源版OpenAI Operator来了! 8、Luma AI 开源的图像预训练技术IMM实现图像生成十倍提速 9、硅基流动宣布DeepSeek-R1&V3 API支持批量推理 价格暴降75% 10、全国第二例判决AIGC版权案:法院确认作者享有著作权 11、重生之我在小红书给AI当老板 元宝动不动崩溃,DeepSeek天天摸鱼 12、Domo AI 发布 i2v 模型升级:稳定性与提示词理解能力显著提升 1.阿里通义宣布开源R1-Omni模型 可提升多模态情感识别能力 通义实验室团队于3月11日开源了R1-Omni模型,标志着全模态模型的发展取得了重要进展。该模型通过结合强化学习与可验证奖励的方法,显著提升了多模态情感识别的推理能力和泛化性能。训练过程分为冷启动和RLVR两个阶段,确保了模型在多模态情感识别任务中的稳定性和效率。 亮点提要: ?? R1-Omni模型结合强化学习与可验证奖励,专注于多模态情感识别的推理能力提升。 ?? 在冷启动阶段,模型通过580条视频数据进行微调,为后续训练打下基础。 ?? 实验结果显示,R1-Omni在多个测试集上相较于基线模型提升超过35%,展现出卓越的泛化能力。 详情入口: ?? https://arxiv.org/abs/2503.05379 2.OpenAI推出新工具,助力AI智能体从“回答问题”跨越到“执行任务” OpenAI最近发布了一系列新工具,旨在简化AI智能体的开发流程并增强其功能。这些工具包括Responses API、Agents SDK和计算机使用工具,标志着AI从单纯回答问题向实际执行任务的转变。 亮点提要: ?? 新推出的Responses API结合聊天功能与多种集成工具,提供实时信息和引用来源,提升开发灵活性。 ?? Agents SDK作为开源框架,协调多个智能体之间的复杂工作流程,提高信息检索效率。 ?? 计算机使用工具使AI能够直接在计算机上执行任务,标志着AI功能的重大升级。 3.百度AI开源表格识别模型PP-TableMagic 百度AI推出了PP-TableMagic,一个开源的表格识别解决方案,标志着表格结构化信息提取领域的重大进步。该技术通过创新的多模型组网架构,克服了传统表格识别在复杂场景下的局限性,实现了高精度的端到端表格识别,并支持模型的高定制化微调。 亮点提要: ??? PP-TableMagic采用多模型串联架构,提升了表格识别的精度和适应性。 ?? 该模型支持定制化微调,能够满足不同场景的需求,减少数据标注工作量。 ?? 提供详细的安装指南和使用教程,支持高性能推理和服务化部署。 详情入口: ?? https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md 4.Manus与阿里云通义千问达成合作,共推国产AI智能体产品 人工智能Agent产品新秀Manus与阿里云旗下大语言模型通义千问达成战略合作,双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能。此举旨在为中国用户打造更具创造力的通用智能体产品。 亮点提要: ?? Manus与阿里云通义千问达成战略合作,推动国产AI智能体产品的发展。 ?? 双方将基于通义千问开源模型,实现Manus的全部功能,提升用户体验。 ?? Manus展示了自动执行复杂任务的能力,标志着全球首款通用智能体产品的发布。 5.告别平面!MIDI:可提取图片元素生成360度3D场景 MIDI技术的出现为我们带来了从单张2D图像生成360度3D场景的可能性。通过智能分割和多实例同步扩散,MIDI能够高效地构建出细致入微的3D环境,极大地提升了虚拟现实、游戏开发和室内设计等领域的内容创作效率。 亮点提要: ??? MIDI通过智能分割技术,能够识别并提取2D图像中的独立元素,为3D场景构建提供基础。 ?? 采用多实例同步扩散,MIDI可同时对多个物体进行建模,提升了3D生成的效率与协调性。 ?? MIDI在有限数据下展现出强大的泛化能力,生成的3D场景纹理细腻,效果真实。 详情入口: ?? https://huanngzh.github.io/MIDI-Page/ 6.视频局部编辑技术VideoPainter:输入提示词自动识别修改,支持长视频 VideoPainter是一款基于深度学习的视频编辑工具,能够通过简单的提示词自动识别并修改视频内容,尤其适合长视频处理。用户只需输入简短的指令,系统便能快速完成编辑,极大提升了视频制作的效率。 亮点提要: ? 通过简单的提示词,VideoPainter能够自动识别并修改视频内容,提升编辑效率。 ?? 适合长视频处理,用户可以快速找到并修改特定片段,避免繁琐的传统编辑流程。 ?? 基于先进的DiT模型,VideoPainter提供高准确性和灵活性,让创意转化为现实变得简单。 详情入口: ?? https://yxbian23.github.io/project/video-painter/ 7.开源版OpenAI Operator来了!Nanobrowser浏览器的免费AI自动化超人 Nanobrowser是一款完全免费的开源工具,旨在为用户提供高效的网页自动化功能,同时确保数据安全和隐私。用户只需安装扩展程序并配置自己的LLM API密钥,即可享受顶级的自动化体验。与传统的RPA工具相比,Nanobrowser以其直观的操作界面和多代理系统,使得即使是小白用户也能轻松上手。 亮点提要: ?? Nanobrowser是完全免费的开源工具,无需订阅费用,用户可自主配置LLM API密钥。 ?? 所有操作在本地浏览器中进行,确保用户隐私和数据安全,避免敏感信息泄露。 ?? 支持OpenAI、Anthropic和Google等主流AI模型,提供直观的操作界面,适合不同层次的用户。 详情入口: ?? https://github.com/nanobrowser/nanobrowser 8.Luma AI 开源的图像预训练技术IMM实现图像生成十倍提速 Luma AI 最近开源的 Inductive Moment Matching (IMM) 技术,显著提升了图像生成的速度和质量。通过创新的预训练算法,IMM 能够在推理阶段实现灵活跳跃,减少生成步骤,从而突破了生成式预训练的瓶颈。 亮点提要: ? IMM 技术通过反向设计预训练算法,显著提升推理效率。 ?? 在 ImageNet 和 CIFAR-10 数据集上,IMM 实现了前所未有的高质量生成。 ?? IMM 训练稳定性强,适应性好,突破了传统模型的限制。 详情入口: ?? https://github.com/lumalabs/imm 9.硅基流动宣布DeepSeek-R1&V3 API支持批量推理 价格暴降75% 硅基流动的 SiliconCloud 平台推出 DeepSeek-R1&V3 API 批量推理功能,价格大幅下调,可帮助用户低成本处理大批量数据任务。 亮点提要: ??硅基流动 SiliconCloud 平台推出 DeepSeek-R1&V3 API 批量推理功能。 ??DeepSeek-V3 批量推理价降 50%,DeepSeek-R1 限时降 75%。 ??批量推理助力低成本处理数据任务,适用于多场景。 10.全国第二例判决 AI 版权案:法院确认作者享有著作权 江苏省苏州市常熟市人民法院于3月7日宣判了一起备受瞩目的AI生成内容著作权纠纷案,标志着江苏省首例、全国第二例涉及AI生成内容的著作权案件。法院确认林某使用Midjourney软件生成的图片作品享有著作权,并指出其创作过程具有独创性,符合著作权法的保护要求。 亮点提要: ?? 江苏省首例AI著作权纠纷案宣判,法院确认作者享有著作权。 ??? 常熟市人民法院认为,林某对作品的创作具有独创性,构成著作权保护。 ?? 法院判决侵权方公开道歉并赔偿1万元,未提出上诉,判决生效。 11.重生之我在小红书给AI当老板 元宝动不动崩溃,DeepSeek天天摸鱼 在小红书上,网友们化身AI公司的“霸道总裁”,在群聊中调侃和指挥各种AI模型,展现出一场幽默的AI职场闹剧。起初由网友Komorebi发起,随后引发广泛参与,大家分享了与AI打工仔的搞笑互动。尽管目前的BotGroup平台功能尚显简陋,但其新奇的玩法和AI的拟人化表现让人忍俊不禁,成为社交媒体的新热点。 亮点提要: ?? 网友们在小红书上化身AI公司的“霸道总裁”,调侃和指挥AI模型,形成一场幽默的职场闹剧。 ?? BotGroup网页应用让不同AI模型进入同一群聊,用户可以与AI互动并参与各种游戏,体验当老板的乐趣。 ?? 尽管功能简陋,AI员工们的搞笑表现和互动仍然吸引了大量网友参与,成为社交媒体的新热点。 12.Domo AI 发布 i2v 模型升级:稳定性与提示词理解能力显著提升 Domo AI 最近对其图像到视频(i2v)模型进行了重大升级,提升了模型的稳定性和生成速度,同时增强了对用户提示词的理解能力。新模型可更准确地将静态图像转化为流畅动画,并支持多种风格转换,极大提高了内容创作者的创作效率和灵活性。 亮点提要: ? Meta正在测试自家研发的AI训练芯片,以降低对Nvidia的依赖。 ?? 该芯片是与台湾TSMC合作制造,专门处理AI特定工作负载。 ?? Meta预计今年将花费650亿美元,若成功转向自家芯片,将节省一部分成本。 ↓点击阅读原文,进AIbase官网. 阅读原文

上一篇:2024-12-04_AI日报:字节AI助手豆包上线图片理解功能;亚马逊推Nova系列AI生成模型;文心一言上线“深度写作”专业版功能 下一篇:2024-11-23_HeyGen App:打造 AI 数字人的终极神器,支持 175 种以上视频语言翻译

TAG标签:

20
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价