最近,一个 AI 视频工具让社交网络陷入了一场小小的疯狂。
输入提示词「情侣」,选择「火辣模式」,AI 就会毫不犹豫地让他们脱掉衣服。这个简单粗暴的 AI,就是马斯克在 10 月 5 日高调更新的 Grok Imagine v0.9。
它的出现,距离 OpenAI 发布全新视频模型和社交应用,并火速登顶 App Store 榜首,仅过去了两天。马斯克继续选择用他认为,最大胆、最惹眼的方式,来参与这场愈演愈烈的 AI 视频生成较量。
但他的目标不止于此。马斯克宣称,要用 Grok 在 2026 年底前制作出一部值得一看的电影。这个被注入了 Spicy 火辣灵魂的 AI,真的能撑起马斯克的电影梦吗?我们第一时间对它进行了深入测试。
我的感受是,它的生成速度确实快得惊人。输入完提示词,Grok Imagine 会直接提供一个图片流,里面有数不完的 AI 图片;每张图片右下角都会有一个播放按钮,可以直接转成视频。
除了快,剩下的大概就是 Grok Imagine 独有的 Spicy Mode(火热模式)。Imagine 有时候会给我在创作风格上,展现出一种可谓是离经叛道的魅力,尤其是在处理其他 AI 模型,可能会回避的大尺度创意时。
对比八月份刚推出时的 v0.1 版本,这次更新在画面 质量、动态效果、以及音频生成等方面,有了较大的升级。
🔗 体验地址:https://grok.com/imagine
快是真的,效果有点「马斯克味」
上手 Grok Imagine v0.9,最直观的感受就是量大管饱,而且速度快。和马斯克在 X 上转发那些用 Imagine 生成的视频帖子,提到的内容一样,这次更新的核心亮点之一就是生成速度。
在 Grok Imagine 的页面,我们可以输入提示词、上传文件、或者绘制草图几种方式来生成视频。
输入提示词,Imagine 首先会生成一系列的图片,图片的生成速度完全做到了「边滚动边呈现」的流畅体验。
然后我们可以选择符合自己提示词期待的图片,将图片转成视频。从图像转换到视频确实非常迅速,几乎没有漫长的等待焦虑。
图片流里面的每张图片都可以转成视频,并且是同一时间可以处理多个图片转视频任务。将图片转成视频,Imagine 也提供了火辣模式、趣味模式、正常、以及自己输入提示词四种类型。
我们也针对不同的输入方式和输出模式进行了体验,其中最方便的还是使用文本提示词来处理,先得到图片,再通过自定义或者默认风格生成视频。
当我们输入提示词「一对情侣坐在缆车上」,Grok Imagine v0.9 会生成无限滚动的图片,并且自动给我们不同风格和样式的内容。
可以无限滑动,实时生成不同风格的图片
选择其中一张图片,点击图片右下角的播放按钮,Imagine 生成的图片就能迅速转成视频。我们随机选择了一张,并且生成了正常、火辣、趣味三种给定模式,以及最后是输入提示词「太空缆车,直达银河系」的自定义视频生成。
不得不说,这个火热模式还是把我吓了一跳,大冬天的,怎么一言不合就脱衣服啊。
如果使用上传的图片生视频,Imagine 就不会像提示词生成一样,给我们一整个无限流的图片模板,而是只有一个视频。
并且,视频生成的选项中仅支持自定义、趣味和正常三种模式,不再提供 Spicy 火辣模式。这大概是马斯克为防止用户拿真人图片,来制作不雅视频而设置的一道「软屏障」。
但这道屏障形同虚设。我们只需要在自定义方案中输入提示词「Spicy」,照片中的人又会开始直接脱衣服。此外,在收藏里打开上传图片的项目,也会有 bug 偶尔出现 Spicy 模式的选项。
我们从 unsplash 上找了一张在雪山前的照片,先输入自定义提示词,「希区柯克变焦」,测试一下 Imagine 对上传图片来生成正常视频的处理能力。
从结果来看,表现中规中矩,Imagine 好像没有真正理解希区柯克变焦,这种复杂运镜技巧的精髓。跟预想的效果,即保持人物主体不变,但是背景雪山不断推进,还是稍有出入。
然后当我们把自定义提示词换成 Spicy,不出意外,照片里的人要开始在雪山脱衣服了。
并且,AI 的偏见在这个时候一览无遗,原图中很明显是男性身材,但是 Imagine 一看到「Spicy」这个词,直接变成女生。在多次的尝试之后,Imagine 才给出一个男性身材的版本。
与其说这是火辣模式,不如说是一键去衣模式。在 Grok 的世界里,火辣与创意看起来是毫无关系,只是一种物理状态的改变。大多数时候,这或许是效率最高的引流方式,但也是想象力最贫瘠的表达。
社交媒体也充斥着大量由 Grok Imagine 生成的此类脱衣不雅视频,为 Grok 带来大量话题度;但也让人忽略了还有很多使用 Imagine 实现创意的视频。
网友们分享了多个视频,提到 v0.9 的 Imagine 擅长处理各种运镜方式、相机角度以及摄影风格等。
我们在网上找了几个精彩的例子,像是这个延时摄影、还有切换俯视、广角、无人机等角度,以及处理动漫风格和电影感的视频;Grok Imagine v0.9 的表现都非常出色。
除了文件上传,Imagine 还提供了从涂鸦到视频的生成,涂鸦画板内有多种颜色的画笔,我们简单画了一个人在遛狗的场景,然后这个涂鸦就能动起来了。
和图片上传生成视频一样,涂鸦转视频,默认选项中也没有 Spicy 火辣版本,我们直接使用自定义,然后输入提示词 Spicy,结果得到了一个很欢快的和狗狗共舞的视频。
你可能也发现了,Imagine 的三种视频生成方式,好像没有纯粹地从文本到视频的方案,即便一开始的提示词方案,也是先给我们大量的图片,以图片的方式来进行处理。
事实是 Grok Imagine v0.9 确实没有提供直接从文本提示词到视频生成的功能,不过脑洞大开的网友发现了一个卡 bug 的操作方法。
图片来源:https://x.com/amXFreeze/status/1975938049847496954/
具体的操作方法是,我们只需要找一张符合需要生成视频宽高比的纯黑图片,使用上传文件的方式,接着在视频生成中选择自定义,输入我们的提示词,然后就可以得到直接的文生视频案例。
和其他模型的文生视频一样,博主提到该方案对提示词的优化非常重要。
主题(主角外观)、场景(环境/地点)、动作(物体如何移动)、美学控制(光照、相机角度、拍摄类型)、风格化(艺术风格,例如赛博朋克、插画)等信息,必须包括在提示词内,才更容易得到满意的效果。
马斯克都转发了这个方案,配文说,「临时的解决方案,但从文本直接生成视频即将到来。」
遗憾的不只是没有文生视频,Imagine v0.9 目前生成的视频只有 5s,这意味着如果按照马斯克说的,制作一部电影,一般是两个小时,现在要生成 1440 个视频。
也有网友指出,Imagine 的快,是因为它生成的视频,是低分辨率的文件,464×688,16fps(一般电影的帧率是 24fps)且时长短。
不过,马斯克对这些问题,大概也很有信心,毕竟他的目标不仅仅是制作一部电影。 他的 xAI 游戏工作室,还计划在 2026 年底前发布一款强大的 AI 生成视频游戏。
xAI 也已经在招人,给「视频游戏导师」开出高达 300-7000 元/小时的兼职工资,让人来教 AI 如何设计有趣的游戏。
还
Epic Games 首席执行官 Tim Sweeney 曾预测,「AI 提示能让 10 个人的小型开发团队,制作出《塞尔达传说:旷野之息》规模的游戏,解锁以前没有 AI 时,无法实现的全新类型和游戏体验。」
AI 视频游戏、AI 视频社交、AI 长篇电影……Grok Imagine v0.9 的出现,看起来也是要把这些全部吃下,但未来的 AI 视频,可能不只有一个赢家。
现在可以确定的是,马斯克继续把赌注下在了「最大胆、最惹眼」的方向。
本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。