全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-07-08_9B小模型也能打,智谱GLM-4.1V-Thinking让我的抖音助手直接起飞

您的位置:首页 >> 新闻 >> 行业资讯

9B小模型也能打,智谱GLM-4.1V-Thinking让我的抖音助手直接起飞 AI圈今年有个明显趋势,所有新发的模型都集体进入了多模态时代。 智谱作为AI六小龙领头羊,前阵子又放了一个大招:发布GLM-4.1V-9B-Thinking模型。不仅完全开源,还引入了"思考范式",通过课程采样强化学习(RLCS)让模型具备了真正的视觉推理能力。 我看到数据的时候整个人都懵了:这个9B参数的"小模型",在18个榜单任务中竟然能持平甚至超过8倍参数量的Qwen-2.5-VL-72B! 从这个能力雷达图可以看出,GLM-4.1V-9B-Thinking虽然只有9B参数,但综合能力领先许多同类模型,尤其在OCR & Chart、GUI Agents、Coding这几项能力上表现突出。 更让我关注的是,GLM-4.1V-Thinking在视频理解上的表现也相当不错,在同类大小的模型中指标领先。 说实话,我之前一直想给抖音助手加视频分析功能,但视频处理本身就慢,再过一层大模型就更慢了。我想用小模型吧,性能又不够用,一直很纠结。 现在有了GLM-4.1V-Thinking,终于有了性价比更合适的选择。 GLM-4.1V-Thinking终于解决了我的痛点当我看到GLM-4.1V-Thinking的表现,第一时间就想着能不能用它来增加原生的视频分析能力。 最让我头疼的就是视频分析这个老大难问题。之前我的抖音助手只能"听"不能"看"——只能从音频提取文案脚本,遇到需要分析视频画面、复杂场景的需求时,完全做不了,就像盲人摸象一样。 直到GLM-4.1V-Thinking的出现,我觉得终于可以为我的助手插上眼睛了。 我最关心的还是GLM-4.1V-Thinking的视频分析能力。智谱的bigmodel平台现在支持直接分析视频,正好可以测试一下实际效果。 我去抖音上找了智谱官方的视频来检测GLM-4.1V-Thinking的视频分析能力: 智谱AI视频用我的抖音助手把视频下载下来后,让GLM-4.1V-Thinking逐秒分析视频内容。效果超出了我的预期——它能够精细分析每一秒的内容,图中的文字精准获取,整个画面中的气泡、图标等元素都分析得非常准确。 分析视频更厉害的是,GLM-4.1V-Thinking还能轻松分析视频的整体结构: 视频结构现在,在GLM-4.1V-Thinking的加持下,我的抖音助手终于可以实现从文字、声音,到能够理解图像、视频的全方位AI助手。 9B模型到底有多强?我还测了这三个能力除了视频理解外,这个模型在其它方面到底有多强?我专门测试了三个核心能力。 1. 网页重构能力:一张截图就能还原整个网站我随手截了个网页,让GLM-4.1V-Thinking帮我重新实现。结果让我震惊——整体还原度高得吓人!风格一模一样,位置还原度也很高。 原网页: GLM-4.1V-Thinking分析过程: 复现效果: 看到这个效果,我的第一反应是:前端开发者要失业了吗? 2. 空间定位能力:精准得像GPS一样接下来测试GLM-4.1V-Thinking的空间理解能力。我打开小红书界面,这个能力主要用在GUI操作上,看能否精准定位元素。 我问它「彩妆」在图片中的位置,GLM-4.1V-Thinking不仅准确找到了,还能理解文字之间的空间关系。这种细致入微的观察力,真的让我叹为观止。 原图视觉分析3. 地理识别:一眼认出法国古城堡最让我惊艳的测试来了:我随便找了张城堡图片,GLM-4.1V-Thinking竟然准确识别出是法国卡尔卡松古城堡! 原图视觉定位这种把图像语义理解和世界知识完美结合的能力,真的让我看到了多模态AI的无限可能。 智谱这次真的给力智谱这次的开源力度让我很意外,直接全套开源,提供了多种使用方式: 模型下载: Github:https://github.com/THUDM/GLM-4.1V-ThinkingModelScope:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49Hugging Face:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d在线体验:不想部署的话,可以在开源社区直接体验 HuggingFace Demo:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo魔搭社区:https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-DemoAPI接入:需要集成到产品中的话,也可以通过API直接调用 使用指南:https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking接口文档:https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking写在最后坦白说,给抖音助手添加原生视频分析能力后,功能是强大了,但升级后算力成本也是坐火箭般上升。存储、视频图像处理、下载上传等等都带来了新问题。 涉及到图像、视频处理后,每次分析的成本都让我心疼。所以我还在做最后的成本优化——毕竟做个人开发者不容易,要让更多朋友都用得起才行。 如果你们真的需要这个全新的视频分析能力,请在评论区让我知道! 你们的支持就是我继续优化的动力。人多的话,我就咬咬牙尽快发布正式版。 想深入了解GLM-4.1V-Thinking视觉大模型的核心技术?锁定今晚的技术分享直播。 最后,我是「云中江树」,这里每周为你分享AI工具、方法和观点。 ??点赞、在看、分享三连支持,关注「云中江树」,深度驾驭AI!

上一篇:2018-05-05_入门 | 极致的优化:智能手机是如何处理大型神经网络的 下一篇:2024-12-18_Scaling Law撞墙?预训练终结?亚马逊云科技为什么还在做基础大模型

TAG标签:

19
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价