2024-05-21_面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4V，图像编码快150倍！-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4V，图像编码快150倍！整理 | 褚杏娟 5 月 20 日，面壁智能小钢炮 MiniCPM 系列推出端侧多模态模型 MiniCPM-Llama3-V 2.5 并开源。据悉，该模型且支持 30+ 多种语言，并且具有以下特性：最强端侧多模态综合性能：超越多模态巨无霸 Gemini Pro 、GPT-4V； OCR 能力 SOTA！9 倍像素更清晰，难图长图长文本精准识别；图像编码快 150 倍！首次端侧系统级多模态加速。 MiniCPM-Llama3-V 2.5 开源地址： https://github.com/OpenBMB/MiniCPM-V MiniCPM 系列开源地址： https://github.com/OpenBMB/MiniCPM Hugging Face 下载地址： https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5 8 B 端侧模型，超越 GPT-4V、Gemini ProMiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级，贡献了惊艳的 OCR（光学字符识别）SOTA 成绩，以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。模型雷达图在综合评测权威平台 OpenCompass 上，MiniCPM-Llama3-V 2.5 以小博大，综合性能超越多模态“巨无霸” GPT-4V 和 Gemini Pro。 OCR（光学字符识别）是多模态大模型最重要的能力之一，也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5 在 OCR 综合能?权威榜单 OCRBench 上，越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型，实现了性能 SOTA。在评估多模态大模型性能可靠性的重要指标——幻觉能力上，MiniCPM-Llama3-V 2.5 在 Object HalBench 榜单上超越了 GPT-4V 等众多模型（注：目标幻觉率应为 0）。在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上，MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro，这对 8B 模型而言难能可贵。榜单成绩：OpenCompass | OCRBench | Object HalBench | RealWorldQA 快 150 倍！首次端侧系统级多模态加速面壁智能首次进行端侧系统加速，MiniCPM-Llama3-V 2.5 目前已可以高效部署在手机端。在图像编码方面，面壁首次整合 NPU 和 CPU 加速框架，并结合显存管理、编译优化技术，在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。在语言模型推理方面，目前开源社区的报告结果中，Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下，相比之下，多模态大模型的端侧运行面临着更大的效率挑战，经过 CPU、编译优化、显存管理等优化方式，将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。有别于常见的中英双语模型，MiniCPM-Llama3-V2.5 可支持 30+ 多种语言，包括德语、法语、西班牙语、意大利语、俄语等主流语言，基本覆盖一带一路国家。基于自研的跨语言泛化技术，仅通过少量翻译的多模态数据的指令微调，就可对多语言多模态对话性能高效泛化。多语言版本 LLaVABench 评测结果 9 倍像素更清晰，难图长图长文本精准识别OCR 技术进一步打磨，复杂推理与多模态识别能力再进化，MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别，再度带来出众表现。面壁自研了高清图像高效编码技术，可以高效编码及无损识别 180 万高清像素图片，并且支持任意长宽比，包括 1:9 极限比例，突破了传统技术仅能识别 20 万像素小图的瓶颈。另外，MiniCPM-Llama3-V 2.5 在复杂推理能力上进一步突破：可更好地深入洞察图像，在更复杂、更接近人类的水平上进行思考和解决问题。该模型不仅能理解单一文本或图像等模态信息，还能跨越不同模态间的综合信息，做出更准确和深入的分析。比如，给定一张充满繁密字迹的建筑风景图，人眼难以辨别，但 MiniCPM-Llama3-V 2.5 能够一眼看懂其中的《三体》主题，还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计：把同样的问题抛给 GPT-4 V ，结果并不理想：另外，识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现，MiniCPM-Llama3-V 2.5 不仅能够看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系，还能给出清晰易懂的解释说明：全文 OCR 能力方面，输入一张手机拍摄的火车票，MiniCPM-Llama3-V 2.5 也能准确提取信息，给出无误的"json"格式输出：报告推荐AGI 概念引发热议。那么 AGI 究竟是什么？技术架构来看又包括哪些？AI Agent 如何助力人工智能走向 AGI 时代？现阶段营销、金融、教育、零售、企服等行业场景下，AGI 应用程度如何？有哪些典型应用案例了吗？以上问题的回答尽在《中国 AGI 市场发展研究报告 2024》，欢迎大家扫码关注「AI 前线」公众号，回复「AGI」领取。活动推荐本届 ArchSummit 会议上，重点聚焦 AI 大模型技术在各行业的落地实践，顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果。会议上还设置了大模型应用、架构升级、智算平台、AI 编程、成本优化等专题和话题内容。如您感兴趣，可点击「阅读原文」查看更多详情。目前会议进入 9 折购票阶段，可以联系票务经理 17310043226 , 锁定最新优惠。今日荐文 26岁带着百人团队冲刺大模型，面壁智能天才CTO：高效比参数更重要 OpenAI 联创 Ilya 离职内幕曝光；微软中国AI团队集体打包去美国？最新回应；华为回应大模型发布会演示造假 | AI周报 AICon 2024 重磅开幕！60 余位大咖干货集结：20 年来云首次革命性变化、大模型才刚刚开始…… 老便宜了！字节跳动豆包大模型开始营业，一元钱能买125万Tokens，月活用户量达2600万 OpenAI 官宣旗舰模型 GPT-4o，完全免费、无障碍与人交谈！奥特曼：这是我们最好的模型你也「在看」吗？?? 阅读原文

上一篇：2019-02-15_超级围棋AI ELF OpenGo全面开源！FAIR田渊栋揭秘训练过程

下一篇：2024-11-19_独家｜腾讯杰出科学家、混元大模型技术负责人之一刘威离职

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系