开源项目 8月前 • 220 阅读 • 0 评论

智谱开源全球100B级效果最佳的开源视觉推理模型：GLM-4.5V！

作者头像

AI中国

AI技术专栏作家 | 发布了 246 篇文章

今日，智谱AI正式推出并开源全球首个100B级开源视觉推理模型GLM-4.5V（总参数106B，激活参数12B）。

作为多模态通用人工智能（AGI）的核心突破，该模型在41个公开视觉多模态榜单中综合性能达到同级别开源模型SOTA，覆盖图像、视频、文档解析及GUI Agent等全场景任务，同步开源于魔搭社区、Hugging Face及GitHub。

全场景视觉推理

图像推理：场景理解、复杂多图分析、位置识别

视频理解：长视频分镜分析、事件识别

GUI 任务：屏幕读取、图标识别、桌面操作辅助

复杂图表与长文档解析：研报分析、信息提取

Grounding 能力：精准定位视觉元素

案例演示

视觉定位：GLM-4.5V 能够根据用户提问，精准识别、分析、定位目标物体并输出其坐标框。该能力在现实世界拥有广阔的应用场景，例如安全与质量检查、高空遥感监测分析。

前端复刻：GLM-4.5V具备强大的推理与代码生成能力，能够对上传的网页截图进行分析，并将其转化为结构化的网页代码。

图像识别与推理：GLM-4.5V具备强大的感知与推理能力。一个典型应用是：在不依赖搜索工具的情况下，模型能通过图像中的细微线索推理出背景信息。

为验证视觉定位能力，GLM-4.5V参与全球图寻积分赛，与两万多名顶尖玩家同台竞技，通过分析街景图片在限定时间内推测拍摄地经纬度，最终以超越99%人类玩家的成绩登顶全球榜单。

参赛16小时：GLM-4.5V击败99%的人类玩家

参赛7天：模型攀升至全球第66名

这一结果充分证明了GLM-4.5V在复杂视觉推理任务中的卓越表现。

复杂文档深度解读：GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本，能够对文本进行总结、翻译、图表提取等操作；此外，还能在给定信息的基础上输出自己的"观点"。

强大的 GUI Agent 能力:GLM-4.5V 能够识别和处理电子屏幕画面，在 GUI 环境中进行对话问答、图标定位等任务。

GLM-4.5V不仅展现出强悍性能，更以"快而有趣"为核心亮点，多项任务实现秒级响应。

通过上述案例已直观印证其完全跻身视觉推理领域的全球第一梯队。

在线体验：前往 z.ai，选择 GLM-4.5V 模型，上传图片或视频，即刻体验

Github :https://github.com/zai-org/GLM-V

#AI开源项目推荐##github##AI技术##AI推理##智谱AI

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

北京人形开源最新VLM模型，推动具身智能再迈关键一步 !

北京人形开源最新VLM模型，推动具身智能再迈关键一步 !

5月前 • 开源项目

超大参数量具身VLM开源：首创DPPO训练范式，模型性价比天花板

超大参数量具身VLM开源：首创DPPO训练范式，模型性价比天花板

5月前 • 开源项目

用了Rust，谷歌实测：Android上内存漏洞率比C/C++低1000倍！

用了Rust，谷歌实测：Android上内存漏洞率比C/C++低1000倍！

5月前 • 开源项目

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 开源项目

刚刚，华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

刚刚，华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

5月前 • 开源项目

AI的开源战略

AI的开源战略

5月前 • 开源项目

开源即爆火！英伟达重磅推出OmniVinci全模态大模型

开源即爆火！英伟达重磅推出OmniVinci全模态大模型

5月前 • 开源项目

国际刑事法院也“踢掉”了微软Office！因邮箱一度“被封”，决定改为开源替代品openDesk

国际刑事法院也“踢掉”了微软Office！因邮箱一度“被封”，决定改为开源替代品openDesk

5月前 • 开源项目

热门标签

摄影器材编曲 AI学习平台机器人开发面壁智能最新科技多模型协同创作结局亮了围棋人机大战百度世界2025大会

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝