全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-10-03_新SOTA来了:国产多模态9B模型位居第一

您的位置:首页 >> 新闻 >> 行业资讯

新SOTA来了:国产多模态9B模型位居第一 来源:量子位阿里开源,又拿第一了。 这次是在多模态领域: 就在刚刚,阿里国际AI团队开源多模态大模型Ovis1.6。在多模态权威综合评测基准OpenCompass上,Ovis1.6-Gemma2-9B版本综合得分超越Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型,在300亿以下参数开源模型中位居第一。 在数学推理和视觉理解等多项任务中,得分甚至超过了闭源的GPT-4o-mini。 具体来说,Ovis1.6能胜任视觉感知推理、数学和科学、生活场景等多种多模态任务。 拿大家伙儿都很关注的数理能力举个,Ovis1.6的表现是酱婶的: 妈妈再也不用担心我学不明白大学数学。 用来辅助读读论文: 分析财报,效果也相当不错。 还能当场看图教你做一道经典的炸鱼薯条(手动狗头)。 值得一提的是,阿里国际的Ovis系列多模态大模型,遵循的是Apache 2.0开源协议。也就是说,协议很宽松,商用很友好。 从结构上对齐视觉和文本嵌入话不多说,我们照例来拆解一下Ovis这个新科第一背后的技术细节。 根据OpenCompass评测基准,Ovis1.6-Gemma2-9B超过了Qwen2-VL-7B、MiniCPM-V-2.6等一众相同参数量级的知名多模态模型。 在数学等推理任务中,甚至有媲美70B参数模型的表现。 Ovis1.6的幻觉现象和错误率也低于同级别模型,展现了更高的文本质量和准确率。 如何做到?阿里国际AI团队的核心思路是:从结构上对齐视觉和文本嵌入。 当前,多数开源多模态大语言模型(MLLM)并非从头训练整个模型,而是通过像多层感知机(MLP)这样的连接器,将预训练的大语言模型(LLM)和视觉Transformer集成起来,给LLM装上“眼睛”。 这样一来,就导致了一个问题:MLLM的文本和视觉模块采用不同的嵌入策略,使得视觉和文本信息没办法无缝融合,限制了模型性能的进一步提升。 针对这个问题,Ovis采用了视觉tokenizer+视觉嵌入表+大语言模型的架构。 Ovis借鉴了大语言模型中的文本嵌入策略,引入了可学习的视觉嵌入表,将连续的视觉特征先转换为概率化的视觉token,再经由视觉嵌入表多次索引加权得到结构化的视觉嵌入。 文本方面,Ovis沿用当前大语言模型的处理方式,文本tokenizer将输入文本转化为one-hot token,并根据文本嵌入表查找到每个文本token对应的嵌入向量。 最后,Ovis将所有视觉嵌入向量与文本嵌入向量拼接起来,经由Transformer处理,完成多模态任务。 此次开源的Ovis1.6,相较于前代Ovis1.5,还在架构、数据、训练策略等方面做出了进一步优化。 架构方面,采用动态子图方案,能灵活应对不同分辨率图像特征,提升了模型处理复杂视觉任务的能力。 数据方面,Ovis1.6在训练中涵盖了多种类型的数据集,包括Caption、OCR、Table、Chart、Math等,确保模型在广泛的应用场景中都有出色表现。 训练策略方面,采用DPO等方案持续优化模型性能,增强了模型在生成文本和理解复杂指令方面的能力,使得模型在复杂任务上的表现进一步提升。 消融实验的结果还显示,在训练数据、模型参数、LLM和视觉底座都保持相同的情况下,与基于MLP连接器的多模态大模型架构相比,Ovis性能整体提升了8.8%。 量子位还了解到,作为一项基础研究,Ovis目前已经被广泛应用到了阿里国际的实际业务中。 AI能力变革出海电商正如大家所知,阿里国际是一家AI驱动的、拥有多个全球知名电商的公司。 而事实上,出海电商这个场景,早已第一批被AIGC“渗透”。 原因很直接:做出海生意,往往面临海外市场复杂、成本和竞争压力大、跨境人才短缺等等共性问题,而多模态大模型这样的AIGC技术,恰恰能在这些问题上,提供适配的降本增效方案。 举个例子,在跨境电商领域,退货退款一直是影响用户体验的重要因素。 传统方案是人工进行退款退货的审核和判责。这不仅需要大量审核人力和较久的审核时间,还会因为人工主观的评判标准不一,导致判罚的不稳定性较高。多数平台为了保证用户体验,倾向于给消费者更多的倾斜,但这也伤害了部分商家和平台的权益。 现在,基于Ovis,阿里国际融合过去积累的大量电商知识,上线了智能退款系统。 相比于人工,Ovis针对用户提供的退货退款图文和视频详情,可以提供秒级的审核服务,且具有高度稳定的一致性。这就在保证消费者和商家公平权益的同时,实现了快速低成本的退货退款方案。 另外,在商品属性提取、生成卖点等场景中,Ovis也已落地应用。 阿里国际AI团队,正是在如此预判下成立试跑的。而就在成立这一年多时间里,阿里国际已经实现AI能力在跨境电商领域的规模化应用: AI发布商品达到百万规模,并且通过AI优化,这些产品在海外的搜索量提升了37%。 AI能力覆盖营销、客户服务、商品发布、设计、合规等40+应用场景,服务全球50万商家。 阿里国际AI能力日均超5千万次调用,规模每两月翻番。 …… Ovis之外,阿里国际还构建了多语言增强大模型Marco,电商版多模态大模型MarcoVL,提供的MaaS服务包括: 多语言文本生成技术:为商品详情描述适配当地语言,让AI为商品介绍改写优化多语言标题,突破语言和文化壁垒。 AI图片处理,比如一键生成多张虚拟试衣效果。 以及智能消除、智能抠图等图像设计类能力。 可以说,从创立店铺到市场营销,再到售前售后,在出海电商的各个环节,阿里国际都已提供相应的AI技术予以辅助—— 潜移默化中,AI已经完全改变商家的工作方式和生产效率。 △店铺设计来自AI大模型之所以能在各行各业掀起惊涛骇浪,核心原因就是对生产力的解放和降本增效。 在这一波变革之中,对于阿里国际这样的平台而言,AI技术能力再次成为最受关注的核心竞争力。 而借助平台之力,出海电商商家已经开始第一批享受拥抱AI的红利。 对于广大开发者而言,来自于实干家们的开源贡献,亦是福音。 Ovis1.6开源地址和Demo: arXiv:https://arxiv.org/abs/2405.20797 Github:https://github.com/AIDC-AI/Ovis Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B 推荐阅读 MIT新晋副教授何恺明《计算机视觉进展》课程,附Slides与资料下载 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研奖金675万!3位科学家,斩获“中国诺贝尔奖”!最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-计算机视觉技术交流群! 大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明) ??长按识别,邀请您进群!

上一篇:2023-08-23_倒计时3天,熟读这份参会攻略,为你的大模型技术升级做好准备! 下一篇:2024-02-24_雨水海报合集,静候春暖花开

TAG标签:

19
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价