小米多模态大模型开源!MiMo-VL:通向Agent时代的推理基座!
来源:Xiaomi MiMo
Xiaomi MiMo-VL 接过 MiMo-7B 的接力棒,在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型,为Agent时代而来!
MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时,在多模态推理任务上,仅用7B参数规模,在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)大幅领先10倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。
在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 超越 GPT-4o,成为开源模型第一!
整体而言,虽是“以小搏大”,在实测场景中,MiMo-VL-7B 在复杂图片推理和问答上表现不凡:向下滑动查看
在长达10多步的GUI操作上,MiMo-VL-7B 也展示了不错的潜力,甚至能帮你加购小米SU7至心愿单!
向下滑动查看
预训练 + RL 双发力MiMo-VL-7B 全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法(Mixed On-policy Reinforcement Learning, MORL):
多阶段预训练:
收集、清洗、合成了高质量的预训练多模态数据,涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型,总计2.4T tokens。通过分阶段调整不同类型数据的比例,强化长程多模态推理的能力。
混合在线强化学习:
混合文本推理、多模态感知 + 推理、RLHF 等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升模型推理、感知性能和用户体验。
技术报告、模型权重、评估框架均开源MiMo-VL-7B 已开源RL前后两个模型至:https://huggingface.co/XiaomiMiMo
MiMo-VL-7B系列模型RL起点高、潜力足,完全可以替代主流开源7B~72B多模态模型,作为研究多模态RL和Agentic训练的全新基座模型。
相关技术报告也第一时间公开,全面展示了 MiMo-VL-7B 的训练细节:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf
同时,为了促进更加透明且适合推理模型的评估,MiMo-VL-7B 支持50+测评任务的框架也已经开源至 GitHub:https://github.com/XiaomiMiMo/lmms-eval
语言模型 MiMo-7B 持续迭代开源距离MiMo-7B首次开源后仅一个月,模型经过持续 RL,推理和通用能力又大幅提升。
在多个数学代码竞赛中,新版本模型 MiMo-7B-RL-0530 已经与最强开源推理模型 DeepSeek R1 和 OpenAI 闭源推理模型 o1、o3-mini 相差无几。
在 RL 训练过程中,通过不断扩充训练窗口大小(32K-48K),MiMo-7B-RL-0530 的 AIME24 效果可以持续提升,并超过 DeepSeek R1。
我们相信,具备Reasoning能力的小模型,可以靠SFT/RFT创造一个更高的起点,并通过RL最终无限逼近大模型效果。
模型已开源至 HuggingFace:https://huggingface.co/XiaomiMiMo/MiMo-7B-RL-0530
What's Next从 Generative AI 到 Agentic AI,是25年正在发生的主旋律,MiMo-VL 只是我们刚刚迈出的第一步。
端午安康 粽情飘香
分享
收藏
点赞
在看
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线