凌晨 2 点 25 分，作者顶着熊猫眼，把智谱最新开源的 GLM-4.5V 大模型狠狠测了一遍,结论是——这 106B 参数的多模态“怪兽”不仅看得懂、算得快，还干得漂亮。保姆级教程、安装包、API 白嫖指南全打包，5 分钟让你的电脑也长出 AI 眼睛和大脑。

我真是有点服，智谱又又又发布了新模型。

然后又给开源了。生产队的驴都不带这么卷的，我都怀疑智谱是不是嗑药了。

7 月初开源 GLM-4.1V-Thinking，上周开源 GLM-4.5 和 GLM-4.5-Air，今天又开源了个 GLM-4.5 V。

晚上我听了他们的直播发布会，几个青涩的年轻人给介绍了这次发布的模型，时间很短，但却不简单。

我想第二天一定会有超级多的人来测，来玩，导致卡的无法使用。基于前车之鉴，我还是打算今晚就给测完，痛快的体验下它的能力，

现在是凌晨 2 点 25，终于测完了，还好，这次没到五点，说明有进步，不然明天去上海怕是顶不住。

先说我测试下来的结论吧：GLM-4.5V 模型在多模态能力上表现很好，特别是在图像/视频理解、视觉定位上表现优异。

现在同样可以在 z.ai 体验，但作为开发者，我更倾向于用 API 方式来验证一些东西。

恰好他们开源了个桌面助手 vlm-helper，于是以下我所有的测评都基于该桌面助手。

我也会在文章后面给出该桌面助手的安装包以及教程。

当然，按照惯例，在放真实测评前，还是要放一放模型的跑分情况（虽然大家都看麻了）

可以看出在 42 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能，涵盖图像、视频、文档理解及 GUI 任务等常见任务。

据官方介绍，GLM-4.5V 是基于智谱新一代旗舰文本基座模型 GLM-4.5-Air，延续 GLM-4.1V-Thinking 技术路线，是一个拥有106B总参数，12B激活的视觉推理模型。

但口说无凭，真实体验如何，还得实际测试。下面开整。

前端复刻

官方直播的视频放出了复刻带有交互的知乎网站。而且是通过录屏的方式，看着挺厉害的。

但像这类公开的网站早就不知道被大模型训练了多少次了，参考意义不大。

于是，我灵机一动，何不复刻下我的开源项目 PmHub？这够小众吧。

于是，我也对着 PmHub 录了个屏，也就是正常点击页面的功能。然后吧视频丢给 vlm-helper，GLM-4.5 V 识别理解视频内容和操作，然后按照要求输出代码。

我的提示词是这个：

请根据提供的多张网页 UI 截图，复刻出完整的交互式网页，实现整个网页的点击、跳转、交互等功能，请注意，每一张UI截图都会对应某个操作，请务必实现点击、跳转等交互操作，不要在thinking过程中思考html code怎么写。最终返回一个完整html code。

我把前端效果做了个对比：

就单单从前端复刻能力上，没啥意思，因为像 Weavefox 和same.new 这样的工具做的细节会更到位。

但就从视频理解整个页面交互，这个就很吊了。这种感觉就好像 GLM-4.5 V 长了个眼镜，又带了个大脑，能看能理解，最后还能咔咔一顿编码输出。

图像理解

下面是对多模态能力进行测试，但因为是 AI 桌面助手，我觉得在我们的测评中还是要以实际的工作学习场景展开。

所以以下 case，均模拟真实需求场景。

1、找出性价比最高的商品

最近在厦门抽了中了个手机，一直想着买个手机壳，但一搜，就蹦出一堆出来，容易让人挑花了眼。

我其实就一个需求，选个性价比高的，就够了。

于是我一截图，输入需求然后一回车，GLM-4.5 V 就给我推了个最具性价比的手机壳。

这里考察的是模型对图片的理解能力，以及逻辑计算能力。GLM-4.5 V 表现不错。

2、微信回复

我每天对着电脑要花费非常多的时间在微信上，有时候是工作，有时候是摸鱼吹水。

就比如在吹水群，好朋友 kk 碰到奇葩的抱怨，作为钢铁直男，我一时不知道该怎么回复好。

于是我让桌面助手捕捉我的屏幕中微信聊天记录，它就给了我一个没那么尴尬的回复。

讲真，如果我要回，我估计是先破口大骂帮问候一下这奇葩，但 GLM-4.5 V 理解到了，此时，kk 或许更需要的是共情以及安慰。

虽然它还没法直接帮我发消息，但这个情商是比大多数直男都高的（包括老苍何）

3、朋友圈旅游照定位

朋友圈经常会看到旅游照，有时候除了羡慕之外，也特别想知道这是去的哪儿耍呀，但又不好意思评论区或者私信直接问。

生怕暴露了自己穷屌丝的本质，现在，我将朋友圈共享给 GLM-4.5 V，然后问它：这是哪儿。

GLM-4.5 V 凭借对图片特征的提取，能给出是哪里。

不瞒你说，就 kk 发的这个图，我一时还真没想到会是在青岛，虽然，我在青岛呆了 4 年。。。

顺带，让懂事的 GLM-4.5 V 给 kk 来个回复评论吧，真好，有了 AI，倒是省去了很多我不必要的思考。

4、验证码任务完成

虽然我是做软件的，我能理解很多网站为了安全加固，会喜欢搞比较麻烦的验证，来证明自己是个人。

就比如智谱他们自家的这个登录验证：

对于我这眼神不好的来说，每次还是挺费劲的。

现在好了，把这个丢给 GLM-4.5 V，它直接把答案给你标注出来，这家伙，配合上 Agent，不是全自动化绕过验证？

你感受一下：

真实道高一尺魔高一丈，估计智谱法务得好好加班研究研究应对之策了，不然像 12306 这种最痛苦的验证方式，不也能分分钟破解？

你还别说，基于此，我还真就做了个小工具，让你绕过所有的强制性验证。

视频理解

除了图片理解，我觉得更难的是视频的理解能力，而最为重要的也是视频理解的能力。

因为我们的物理世界是三维的，而非二维的，对视频的理解，是通过 AGI 的重要手段。

下面看几个比较有用的 case：

1、视频课程学习

上传一个 7 分多钟，大小 19.7 M 的 java 学习视频，来拷打一下：

让它帮我梳理总结下这个课程的内容：

总结的不错，可惜我当年学习 Java，没这方便。这个场景在学习办公下都非常有用。

我们可以总结会议内容，电视剧剧情，电影经典场面等。

3、GitHub 项目学习

我经常会逛 GitHub 充电学习，但很多的开源项目都是英文的，看起来不顺畅，就比如 GLM-4.5 V 这个开源项目，默认也是英文。

现在，我让桌面助手中的 GLM-4.5 V 直接帮我介绍这个项目，非常实用。

翻译

当然还有个场景就是翻译，对于非网页类的场景，翻译起来还真不容易，需要先截图，然后 OCR 识别，最后再找翻译工具。

这个过程一度很痛苦，现在不用，直接让桌面助手来处理，分分钟翻译好了。

表格/图表转换

我觉得还比较实用的场景是做表格/图表转换。

基于 GLM-4.5 V 的图像理解能力，能准确识别表格和图表信息，然后按照指定格式输出。

非常方便，而且不用工具切来切去，就用桌面助手就 OK。

视觉定位

GLM-4.5 V 的视觉定位能力很强，而且这个的应用场景会非常多。

比如我要在众多复杂的场景中，精确找到符合的人物：找到桥下的一条船，船上有两个人

反正这，我要找，确实得找半天。

再比如，在人多的商场，找到背着双肩包穿灰色短袖的年轻男子。

感觉 GLM-4.5 V 接入安防监控，会是非常好的场景啊。

我想 GLM-4.5 V 开源后，一堆的硬件落地产品又会出来了。

而且为了考考 GLM-4.5V 看图猜位置的能力，智谱让 GLM-4.5V 参加了图寻游戏的全球积分赛，和国内最顶尖的两万多名人类玩家真实对战。

GLM-4.5V 就击败了 99% 的玩家。

GUI Agent

这个能力感觉是为了之后的 AutoGLM 铺垫的，也就是能通过看到的 GUI，配合 Agent，完胜指定的操作。

我录了个官方的视频介绍，不得不说，期待性直接拉满。

好啦，测评就结束了，你可以看到，这次 GLM-4.5 V 的更新，也同样的有点超出预期了。

下面，是如何部署 AI 桌面助手的教程，主打一个有手就行。

部署教程

打开安装包直接安装。

安装包可以后台留言下载：vlm-helper

打第一次开会报这个错：

没关系，终端中输入以下命令执⾏安全限制解除命令，然后重启应用就好。xattr -rd com.apple.quarantine
/Applications/vlm-helper.app

接下来，配置一下 API，点击右上角的设置，选择模型设置。(这里有个小 tips，一定要开启「智谱 Mass 模式」，当然默认就是开启的，不要手滑关掉就好啦)

点击右侧的获取 API Key，就会跳转到智谱的 BigModel 平台。

现在新用户可以免费领取 2000 万 tokens 体验包，够玩一阵了。

把新建的 API Key 复制到 Vlm-helper 客户端, 点击保存就算完成。

除此还可以进行应用设置和系统提示词设置。有不少快捷键还是很有帮助的。

先试试是否生效：

该说不说，回复真的好快。

这样就生效啦。

在 AI 的路上，有些人，用力的冲了。

但因为没短期获得他们想要的，他们又撤了。

但有另外一群人，他们从一开始就在冲。

不管外面的风雨如何变化，

他们始终相信 AGI 会到来，并为之不断努力。

我觉得智谱这帮人就是这样一群人。

当然，我也希望屏幕前的你和我同样也是这类人。

我们始终相信：AGI 一定会到来的。

本文由人人都是产品经理作者【汪仔6818】，微信公众号：【苍何】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

登录账号

保姆级教程：部署你的AI桌面助手

前端复刻

图像理解

1、找出性价比最高的商品

2、微信回复

3、朋友圈旅游照定位

4、验证码任务完成

视频理解

1、视频课程学习

3、GitHub 项目学习

翻译

表格/图表转换

视觉定位

GUI Agent

部署教程

教程评分

学习讨论 (42)

初学者

AI导师李明作者

文章章节

推荐文章

速抢（2核2G）77元/年香港免备案服务器

WMS 系统「入库管理」功能详解

0代码经验，半天时间，我用Cursor从0到1开发了微信小程序并上线，附教程+提示词

协作机器人HMI优化指南：从示教器到控制软件的可用性与性能升级

我用一张表格，把带娃从“鸡飞狗跳”变成“母慈子孝”！

我用腾讯3D Studio让原神的芙宁娜活了，能跑还能打

WMS系统从入门到精通（十一）-原型图设计及逻辑实战-复核打包

别再花钱去拍形象照了，教你一键制作大师级人物摄影照

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

登录账号

保姆级教程：部署你的AI桌面助手

前端复刻

图像理解

1、找出性价比最高的商品

2、微信回复

3、朋友圈旅游照定位

4、验证码任务完成

视频理解

1、视频课程学习

3、GitHub 项目学习

翻译

表格/图表转换

视觉定位

GUI Agent

部署教程

教程评分

学习讨论 (42)

初学者

AI导师李明 作者

文章章节

推荐文章

速抢（2核2G）77元/年香港免备案服务器

WMS 系统「入库管理」功能详解

0代码经验，半天时间，我用Cursor从0到1开发了微信小程序并上线，附教程+提示词

协作机器人HMI优化指南：从示教器到控制软件的可用性与性能升级

我用一张表格，把带娃从“鸡飞狗跳”变成“母慈子孝”！

我用腾讯3D Studio让原神的芙宁娜活了，能跑还能打

WMS系统从入门到精通（十一）-原型图设计及逻辑实战-复核打包

别再花钱去拍形象照了，教你一键制作大师级人物摄影照

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

AI导师李明作者