产品评测 22小时前 108 阅读 0 评论

一手实测GLM4.5满血版Claude Code,可算有将推理/代码/Agent融为一体的大模型了!

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

又一家支持Claude Code的模型登场!


GLM-4.5


在推理、代码、Agent(智能体)综合能力都达到了开源模型Top1水准,在单个模型中实现了推理、代码、Agentic等能力原生融合。




采用的是混合专家(MoE)架构、混合推理模式(思考/非思考);总参数355B,激活参数32B,是 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3。


同系列的GLM-4.5-Air,总参数量106B,激活参数12B,在SWE-Bench Verified(真实世界软件工程能力测试)达到最佳性能



越往左边走模型越小,越往上边走性能越高。


两个都是开源的,用的还是MIT License,主打走过路过,每个人都能带走。


又到了最关心的API价格环节,


很离谱,输入0.8元/百万tokens、输出2元/百万tokens,隔壁DeepSeek R1输入1元/百万tokens、输出16元/百万tokens。高速版的生成速度超过100 tokens/秒。新用户还送两千万tokens,这下Claude Code总能爽玩了吧。我先来个100块跑跑案例。



创建一个梦幻的低多边形漂浮岛屿场景,带有动态光照和柔和的动画,在一个单一的HTML文件中。


01|可互动网页生成


🔗 chat.z.ai


建议先用z.ai体验一下再换Claude Code,Full-Stack模式下已经幻视代码版Manus了



能执行命令、创建todos、写入&编辑代码文件、生成后自带部署。



做一个真的用的perplexity AI搜索



做出来的AI搜索有模有样的,有默认的搜索推荐、搜索框、复制、分享、还可以存储和删除搜索历史。


后面我还主动提供了tavily的key,GLM-4.5会把信息搜索的逻辑从 z-ai-web-dev-sdk 切换了Tavily API。


这样的话是不是我可以把这段时间配各种MCP拿到的AI搜索Key做成一个混合搜索引擎。


做一个文字版小某书 , 允许双瀑布流滑动, 需要支持点开帖子、发帖、 点赞、 评论的功能。



完成度很高,虽然我没要求,但帖子也能配图,也知道区分不同的人、标题,点赞评论的UI都有做出来,小可惜的是点击后不是实时刷新的。所以后面发布新笔记的时候我刷新了一下,帖子本体也能正常展示出来了。


GLM-4.5在full stack模式下生成的代码都是项目形式的,数据库、前后端通信、网页组件等等都挺全的,代码都可以下载,生成出来的网页可以自己预览,也能直接发布出来。


🔗 m0aav6keycn1-deploy.space.z.ai/



比较可惜的是目前Work空间数量限制是两个,创建更多的就要替换了。


02|PPT & 信息搜索


虽然我很想一句飞到Claude Code的配置,但是z.ai还可以切换不同的模式,


每一个模式会自带1-3个工具,每个模式都可以开启联网搜索,ppt有图片搜索和ppt制作,刚刚测试的全栈开发模式自带的是workspace,我猜是云环境。我还蛮好奇GLM-4.5在PPT制作的表现的,不会学太多代码学傻了吧。


帮我做一份《走进一级方程式赛车(英语:Formula One) 》的PPT



说实话,ppt这个赛道太卷了,不管是通用Agent、办公Agent、设计Agent都做ppt,GLM-4.5在色系上保持比较好,搜索到的信息是没问题的,但是文字排版有点密,部分页面的尺寸不太一致,


好就好在,GLM-4.5采用的方法是写HTML网页,而且每一页都可以单独编辑,加上生成速度很快,我这里更换页面的配色方案用了20秒。



还在举办的2025年WAIC世界人工智能大会里,


AI教父Hinton演讲了《数字智能是否会取代生物智能》,我让GLM4.5做成ppt了,还是老规矩,公众号发glm 就可以拿到手啦



03|GLM-4.5版Claude Code


迭代到现在,我都快成半个Claude Code区的了,光是我用的就是有三种Claude的变体:


Kimi K2、Qwen3 Coder,和今天的GLM-4.5。之前的吐槽我也都收集起来了,主要还是价格贵、上下文短、以及切换模式带来的配置错误。


Claude Code接入GLM-4.5的过程相当丝滑:


🔗 open.bigmodel.cn/usercenter/proj-mgmt/apikeys



顺带一提,在沉浸式翻译可以免费用智谱的GLM-4-flash模型,支持30个并发,我从4月份开始每天都用,用到现在都没掉线过。


Claude Code还是那两个安装命令:


安装:npm install -g @anthropic-ai/claude-code


运行:claude


然后将Anthropic的BASE_URL和AUTH_TOKEN替换成下面的部分:


export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic


export ANTHROPIC_AUTH_TOKEN="your bigmodel API keys"



看到这个画面就意味着成功啦!


使用three.js 生成一个由立方体组成的猫咪,然后猫咪在一个平面上原地奔跑的动画,所有代码放在一个html文件里面



花了1.9K tokens(0.0008元),也就60s,会原地踏步和转尾巴的3D猫咪来了,GLM4.5还给它加上了可转动尾巴。。。



因为GLM-4.5是混合推理模式,这样的话就可以不用Claude Code的plan模式了,


在单次生成的时候就可以通过think关键词来控制模型思考的成本,


"think" < "think hard" < "think harder" < "ultrathink."


先试试看ultrathink版本的3D银河,


创建一个 3D 粒子银河,包含旋转的星云和动态光照效果,ultrathink!



花了5k tokens,(0.0004元),带三个方向旋转的星云花得值吗?



隔壁Cursor上用Claude4跑了一个,


虽然控制按键多了,但是展示的效果多少有点抽象了,



再来一个复杂的3D实验吧,


来自@karminski-牙医的大象牙膏"化学实验“,完整的提示语非常长,我就跟上面的PPT打包一起了。



喷发的效果、泡沫的状态、落在平面渐渐消失,大家觉得还原了百分之多少?


3D测差不多了,可交互网页和PPT也测过了,按照惯例来单独看看UI设计,看看GLM-4.5的美感。


从零打造一款 广 告 投放智能仪表盘,支持实时刷新、自由配置与多图表联动展示。


  • 核心数据用超大号中文粗体数字呈现,打造一眼可识别的视觉锚点


  • 整体采用中英文混排风格:中文主导、英文作点缀,增强国际化科技氛围


  • 页面布局强调视觉对比——重点内容用巨型数字、图形强化,次要信息则以细节形式缩小呈现


  • 支持多种图表类型(柱状、折线、饼图等),实时变动的数据可用伪造数据模拟


  • 数据视觉风格采用简洁线条构图,既突出信息,又保持界面清爽


  • 利用高亮纯色 + 透明度渐变制造科技感,避免不同色之间渐变混色


  • 页面滚动联动Apple 风格动效,每次向下滑动皆有过渡或内容浮现,基于 Framer Motion CDN 实现


  • 全站构建技术栈为 HTML5 + Tailwind CSS 3.0+ + JavaScript,界面风格需保持统一性


  • 所有图表组件(如 Chart.js 或 ECharts)必须融合整体视觉语言,不跳脱


  • 图标统一引入自 Font Awesome / Material Icons,通过 CDN 方式加载使用



做网页类真的是GLM-4.5的舒适区,


基本的审美和交互动画都不差。


写在最后


打脸了打脸了,


一周前刚说完开源赛道是Qwen、Kimi、DeepSeek三个在打,


没想到GLM系列强势回归了,


出手就是单个模型里实现推理、代码、Agentic等多能力融合,


这不是一件简单的事,大模型训练的过程中会出现跷跷板负迁移,


跷跷板也就是提高其中一个任务的效果,其他任务效果就可能下降,


负迁移意味着多任务学习的效果不如单独训练各个任务,


在线催更技术报告啊!


所以,智谱,这家中国版OpenAI,


不会提前一步把 GPT5 GLM5 开源了吧。


文章来自于微信公众号“卡尔的AI沃茨”,作者是“AI沃茨”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!