产品评测 13小时前 203 阅读 0 评论

面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

近日 Kimi 也开始小规模内测一个 Agent 新品,名称在一众 Agent 友商中,很有人文味与自信,


叫做:「OK Computer」



不同于此前 Kimi 发布的 Researcher 专精 Deep Research 任务,「OK Computer」则是Kimi 模型的通用 Agent 模式,配备了单独虚拟电脑,支持更多工具调用,能够完成 网站开发、PPT 设计、数据可视化分析、深度研究、方案策划 等任务。


自然,从 25 年 3 月 Manus 发布以来,我们已经见过了层出不穷的通用 Agent 产品,如 Claude Code、扣子空间、Skywork、Lovable 等等……


阅尽千帆,本文仍想通过一系列典型 Agent 任务实测,为你解析 Kimi OK Computer 的真实水平。


我也会将它的表现,和过往深度体验的 Manus 等顶尖 Agent 进行参照,


来看这个以 90 年代最伟大的摇滚专辑之一命名的 Agent,能否如其名般地带来惊喜


📬 写在测试之前


与先前已发布的 Kimi Researcher 一脉相承,OK Computer 与已有通用 Agent 产品不同,继续延续了端到端强化学习的训练路线:模型即 Agent


为了能够更好地真实探究 OK Computer 的水平,我已将测试设计为三部分:


1.网页应用开发:从 0-1 设计、开发 Html 宝可梦养成与对战游戏,考察 Agent 自主深度规划与长程执行


2.复杂数据可视化:给定数千条表格数据,呈现可视化分析


3.其他 case 展示,包括绘制 AI PPT、制作个人博客等


并适当选择同类任务下备受用户好评的友商 Agent 进行参照,校准它当下的行业身位。


你可以带着对 Kimi Agent 的好奇,在实测中找到答案。


文末我将向你分享我理解的,OK Computer 对于 Kimi 的特殊意义。


👉 真实实测表现


1️⃣ 网页应用开发:宝可梦网页游戏


要测试一个 Agent 的极限,比较好的方式就是给它足够复杂、多步骤、开放式的项目。


我选择让 Agent 从 0-1 自主设计 Html 版宝可梦养成对战游戏,并选择了擅长构建 Web 应用的 Manus、Lovable 作为参照对比。


此题难度在于,考验 Agent 的 Coding 能力外,更考验 Agent 自主规划的完整性,以及长程任务中的 推理-执行-反馈 的循环质量。


测试 Prompt 如下:


我想做一个 Html 版宝可梦养成与对战游戏,能够基于宝可梦游戏的主要玩法,设计一套完整、适合在 Html 游玩的游戏内容,请仔细推敲游戏玩法,使用合适的像素风格宝可梦素材,设计对应游戏 UI 与内容,并完成开发上线。要求实现移动端兼容。


我录了一下各个 Agent 生成的网页游戏的效果,你可以自行来看看效果:


1)Kimi - OK Computer:


OK Computer 独立设计了一个适配 Web 玩法的全新 UI。生成的游戏系统更为完整,比起 Manus、Lovable,多了大厅、宝可梦图鉴,物品背包界面。


对战系统基本实现,但不能更换上阵宝可梦。另外还能查看宝可梦的详细属性,有丰富的疗伤物品、精灵球等不同物品的管理系统


不过,虽然规划了区域探索、商店、成就系统的功能入口,但并没有一次完成开发,还是有些遗憾。


应用整体无恶性 bug,作为 one prompt 结果相当完整与稳定,在游戏方案的规划上给出了惊喜


2)Manus:


Manus 作为我的老朋友厂商,表现一如既往的亮眼。虽然首页略微粗糙,但整个游戏的加载过场却是最为接近原版。


另外,Manus 唯一实现了地图探险功能(但地图显示有明显显示 Bug)


不过你可以看到随着我点击方向键,是能触发出“草丛遇怪”的逻辑。也是唯一一个直接使用了外网宝可梦图像资源,作为游戏贴图的 Agent。


但比起 Kimi,其游戏性功能的实现熟练就少了许多,没有实现背包,也没有宝可梦栏管理等,算是各有侧重。


3)Lovable:


Lovable 在初始界面上给到了最风格化的效果。


但整体实现的玩法实现的是三者最少:仅支持选择宝可梦进行战斗。


战斗系统,比起其他家,还少了道具使用、逃跑等基础功能。从这次测试来看,Agent 可能存在规划不足,执行轮次过少的问题。


另外,下图为移动端兼容效果对比:



BTW:关于各家选择的 UI 风格,我倒是觉得不算决定性差异,因为也没有规定 UI 风格要求 100% 复刻原版游戏,只要 UI 与玩法系统自洽,能稳定运行即可。


综合列出效果对比如下:



不难看出 OK Computer 继承了 K2 模型的优秀 Coding 能力,在另外两家使用 Claude 模型的情况下,仅凭自有国产模型,网页开发效果不弱下风。


另外,可能是得益于端到端强化学习路线,Kimi 也确实展现出 One prompt 下,极为优秀的 Agent 自主规划与多轮执行能力,以及熟练使用图片生成等工具能力


2️⃣ 复杂数据可视化:洞察数千条 IMDB 剧集数据


在 OK Computer 的宣传视频中,着重宣传了支持海量数据上传,单次处理百万行数据的可视化分析能力


为了能够测试 Agent 的复杂数据的关联洞察效果,我选择了让 AI 们,来尝试处理来自 IMDb 的数据集,每个数据表包含上千条电影和电视剧数据。


测试 Prompt 如下:


请基于我提供的5份IMDb数据(涵盖电影、电视剧与电子游戏),交付一份独立的HTML深度可视化分析报告。你的任务是超越数据本身,洞察其背后反映的文化趋势和社会现象,并形成一套完整、深刻的分析结论。请自主设计分析框架,运用具有顶级美感的多维信息图表,构建出逻辑清晰的报告结构和解读,最终呈现一份兼具专业深度与视觉冲击力的作品。


共找了 5 份数据集:



每一份数据表内容大概是这样的,以独立剧集的最小粒度数据组成:



在接到任务后,Kimi 首先规划了任务执行的环节:



随后,自行编写了 python 脚本,对数据进行清洗和处理(嗯,不是直接用 LLM 文本能力读取,有效避免幻觉问题,还是很聪明的)



在自主连续运行长达 31 步子任务后,OK Computer 输出了以下可视化数据分析页面:


能够看出分析维度非常多元。


特别棒的是, OK Computer 能够根据分析数据的类型,自主选择太阳图、雷达图、三维散点图、小提琴图等不同合适的图表,来展项数据趋势。


这一点倒是在用过的 Agent 里,会更具有主动性。



另外,这是同提示下 Manus 的效果:


必须声明,Manus 在同类产品中,产出的质量已经是大幅领先。


但仅论可视化的数据呈现,Kimi OK Computer 明显在该类任务中,能够提供更加复杂、多维的效果。


值得一提的是,在测试本轮任务中,我发现不同 Agent 产品对上传文件数量有着不同的控制


实测中 Kimi、Manus、Skywork 没有限制文件上传数量,而 Minimax Agent、扣子空间 均限制上传数量为 10 个以内。


这项区别也会影响部分用户的选择。


💡 其他的一些 Case


另外也跑了一些零散、但效果都挺不错的 Case,与你分享 Kimi OK Computer 的各项表现:


1)PPT 设计,样式美观,自由编辑


基于上面的 IMDb 剧集数据,我又新开对话,让其生成主题数据洞察 PPT。


阅读附件中的5份IMDb数据(涵盖电影、电视剧与电子游戏),洞察这些数据背后反映的文化趋势与大众品味的变迁,设计一份 20 页的汇报 PPT。要求:1. 只允许使用附件中的数据,不得胡编乱造。2. 尽可能呈现 PPT 的全部要点、关键数据3. 使用 chart 呈现图表,不要用 AI 图片生成来呈现图表4. PPT 美观有设计感


OK Computer 效果如下:



整体来说,OK Computer 所输出的 PPT 设计不错,图文并茂,设计符合主题风格。部分元素会超出页面,需要和 Agent 沟通修改要求后,进行一次修复。


同 Prompt 任务下,对比精通 PPT 的 Skywork 的效果:



结论是,从设计角度来看 Kimi 胜出,幻灯片高度更一致,适合演讲呈现;


而内容丰富度 Skywork 则更胜一筹,更适合内部汇报。


强调一个特别好用的点,对于用户真实使用时,OK Computer 还支持了高自由度的编辑,不仅是文本替换,还支持更改格式、添加图片、流程图、新幻灯片,基本与完整 Office 功能等同。这一点在其他友商 Agent 中格外少见。



导出到本地后,样式与网页 Html 版 PPT 基本一致,不会产生常见的排版变形问题。



2)个人博客开发,设计效果非常 ok



请为我的个人博客「一泽的沉思录」创建一个三栏式布局的网站原型。风格: 我想要一种极简、沉静的黑白风格,字体要优雅。内容:左栏是导航,包含 首页、文章、关于我;中栏是文章列表;右栏放一张能体现‘思考与科技’的黑白摄影风格的图片,请你帮我生成。请确保整个网站的视觉风格高度统一。


诚然在测试过程中,我还是能观察到 OK Computer 待改进的一些问题。


譬如:


暂时还不支持用户接管 Browser,所以无法让 Kimi 替自己调研一些需要登录的网站内容;


在给 PPT 配图时,有时也会过度依赖 AI 生图,而不是正确使用网页图表组件,创建数据图。


这些问题我也一一反馈给了在 Kimi 的朋友,期待他们的改进。


但我们回过头来不能忽略的一点是:


与全球化 Agent 产品不同,Kimi OK Computer 始终使用的都只是 Kimi K2 这款自研 LLM 模型


不依靠 Claude 的 Coding 能力、不使用 Gemini 的分析规划能力,OK Computer 在众多友商 Agent 之中,依然能展示出其独到的优势。


不得不说,在测试过程中,还是令我感到诧异与惊喜,也值得国内用户试用。


🎐 写在最后:OK Computer 于 Kimi 的特殊意义


此前,Kimi 早就发布了 Researcher 产品。


当时我就评论,Kimi Researcher 达到了国内最佳的 Deep Research 效果(非常长且细致的研究过程,以及相对可控的幻觉水平,时常能关联分析出意外的好观点)


将其大量推荐给了我所认识的 AI 从业者、投资人、学生朋友:


“如果对国外资料检索没有诉求,Kimi Researcher 很可能就是国内研究质量最佳,分析结论常有意外惊喜的 Deep Research 产品”



⬆️ 余杭水质问题发生时,曾用 Researcher 进行事件分析,体感效果仅次于 Gemini DR,为国内最佳


月之暗面研究员 @冯一尘 此前在知乎,公开分享了内部洞察:


Researcher 研发过程中,Kimi 团队内部对于 Agent 保持了两个关键信念,一是要做“能长思考”的Agent,二要用端到端强化学习


他们认为,区别于传统 Agent 的 Workflow 拼装 或 SFT 训练方案, Kimi 通过端到端 RL 所训练的 Agent 模型,能够挣脱“固定提示”的束缚,更加灵活通用,具备更好的主动反思,多轮行动的积极效果。


(此文不论两种技术线路的终局优劣,但这条路线下的 Kimi Researcher,也确实在用户群体中备受好评)


时至今日,Kimi 推出的「OK Computer」新 Agent 模式,依然遵循着这些理念


借助端到端强化学习技术,将 Kimi K2 模型训练为原生 Agent,让模型学会了 文件系统、浏览器、终端、代码/图片/音频生成 等 20 多种工具的使用方式,自然涌现出「完成一项复杂 Agent 任务」的内在知识。


实测下来,OK Computer 也确实兼具了 K2 模型与模型即 Agent 路线的优势,包括:



1. 继承 K2 的优秀 Coding 能力:生成具备强美观度的前端产物(网页、PPT 等)


2. One prompt 下更好的规划执行:发挥端到端强化学习的优势,在单一提示下,实现更多、更全面的推理,执行轮次更多、报错更少


3. 丰富的工具能力:图片、音频生成;浏览器使用;使用虚拟电脑作为响应环境等


但,如果仅仅将这三点看作孤立的优势,我们就错过了 OK Computer 真正想讲述的故事。


这个故事的核心,是 Kimi 对模型智能的又一次扩展


从文本模型,扩展为能「拆解目标、规划长程任务、通过行动-反馈达成更优结果」的全能型 Agent。


又名——模型即 Agent。


对于我们用户,尤其是非技术的普通 AI 使用者而言,


则是国内多了一个在轻量网页开发、PPT 设计、数据分析等复杂任务中,表现都相当不错的,全新的全栈 AI 助理。


希望一泽的文章对你有所启发。


如果觉得这波内容不错,希望帮忙点个赞,分享给你身边有趣的朋友们~


Ref:冯一尘,知乎下的 Kimi Researcher 回答:https://www.zhihu.com/question/1919712376204256921/answer/1920925901035644513



文章来自于微信公众号 “一泽Eze”,作者 “一泽Eze”

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!