AI 大模型应用探索3——国内文生图工具(即梦、可灵、豆包等)对比、文生图提示词方法论、使用场景
AI AI工具集合

AI 大模型应用探索3——国内文生图工具(即梦、可灵、豆包等)对比、文生图提示词方法论、使用场景

作者头像 人人都是产品经理 8小时前 96 阅读
4.8 (1280评分)
15,328人已学习

AI 大模型文生图的出现,为文章配图、宣传活动、短视频封面等提供了全新的解决方案,极大地提高了效率和便捷性。本文将对国内主流文生图工具如即梦、可灵、豆包等进行对比,探讨文生图提示词的方法论,并展示不同工具在相同提示词下的生成效果。

之前没有大模型生图的时候,为了给文章找一个好的封面配图,我需要在浏览器中逐步查看搜索出来的图片,翻找半天,有时候看到一张合适的图,但图片的清晰度又很差,为文章配图真的很难搞定。如果是说给活动做宣传图,这种图基本不可能从网上找到,只有求助于平面设计师,或者花钱到网上找人做。

如果设计师手上有活,还要排时间,这已沟通,一等待时间也比较久了。但是现在有了大模型文生图之后,对于文章封面,文章配图,宣传活动,logo,简单的图片编辑都可以直接使用AI来完成。我最近几个月的文章封面和文章内的配图都是用AI完成的。

另外我最近也在做短视频,短视频的封面也是AI生成,而且在短视频封面上还有相关的文字,

还有商业宣传的图文

我自己做的智能体所需要的数字人的图片,背景图片,这些人像基本很难判断是真实照片还是AI生成的。

其它的各种场景还在不断探索中,比如用户商品头图,给模特换衣服的等等。

那我们接下来:

a、就给大家讲讲国内有哪些比较常见的文生图工具,他们的优劣点是怎样的;

b、之后我们对文生图的提示词方法论进行一个简单梳理;

c、最后我们再用同样提示词在各个工具生成一下图片,看看效果。

一、国内

最新评测的国内主流文生图工具对比表,综合生成质量、功能特色、使用成本及适用场景等维度分析:

免费策略‌:多数工具提供基础免费额度(如即梦积分制、通义灵感值),但商用高频需求需订阅‌电商运营‌:通义万相(淘宝数据支持)、可灵AI(虚拟试穿)

二、提示词

文生图提示词的构建需系统性地考虑多个维度,以下是根据业界主流实践总结的核心要素

1、内容描述维度

‌主体(Subject)‌

*示例:一位身着汉服的少女,手持油纸伞核心对象:明确人物、动物或物体的具体特征(如年龄、服饰、姿态)细节强化:包含材质(陶瓷杯)、状态(热气腾腾)、纹理(毛茸茸)等

‌环境与背景(Environment)‌

*示例:晨曦中的雪山之巅,冰晶覆盖松枝物理场景:室内/室外、自然景观(雪山/森林)、城市街景等动态元素:天气(暴雨/晴天)、光线(霓虹反射/晨光)

‌情感与氛围(Mood)‌

*示例:幽蓝色调,天地苍茫的孤寂氛围抽象意境:孤寂感、梦幻感、赛博朋克式的未来压抑感

2、艺术控制维度

‌风格(Style)‌

*示例:水墨画风格,皮克斯动画质感艺术流派:水墨画、浮世绘、赛博朋克、吉卜力风格媒介形式:油画、水彩、3D渲染、摄影写实

‌构图与视角(Composition)‌

*示例:鸟瞰视角,动态构图,留白20%镜头语言:广角/微距/俯拍、中心对称/三分法构图主体比例:全身像/半身特写、留白空间控制

‌画质与细节(Quality)‌

*示例:超写实细节,焦点锐利,自然光晕技术参数:8K超清、电影级光影、细腻纹理光影效果:体积光、丁达尔效应、HDR3、技术优化维度权重控制(Weighting) 增强符号:[关键词]提升重要性 减弱符号:[关键词] 降低存在感

反向提示词(Negative Prompt)‌排除元素:模糊、畸变手、多余肢体、文字 *示例:避免水印、低分辨率、4、结构化公式(万能框架)[主体]+[细节描述] | [环境背景] | [艺术风格] | [情感氛围] | [技术参数] 注意点简洁精准‌:避免冗余词,核心词靠前描述清晰:将模糊描述转为具体的特征*示例:错误❌“一杯咖啡” → 正确✅“陶瓷杯装拿铁,表面麦穗拉花,热气升腾”

三、生成效果

我们使用同一的提示词:

一位年轻貌美的女士,穿着休闲,坐在一个复古风格的咖啡馆木凳上,她身前的榆木桌上的有一杯陶瓷杯装拿铁,表面麦穗拉花,热气升腾,她微微偏头望向玻璃窗外,窗外的夕阳正在下落,阳光透过窗户照在她的脸上,可以清晰的看到她脸上纤细的毫毛。

百度打开百度,点击顶部的“AI”,然后在输入框上面选择“AI生图”,在输入框输入提示词就可以,等待几秒

下面是效果图

可灵AI打开可灵AI的官网
https://app.klingai.com/cn,进入之后看左侧,找到图片生成,然后进入选择左上角顶部的“文生图”,把提示词复制进去

豆包打开豆包官网,新建一个对话,然后选择对话框下的“图片生成”

生成效果图,生成的效果图还可以进一步的进行编辑

即梦AI打开即梦AI官网,在顶部选择文成图,将提示词复制进去,点击生成

生成效果图

腾讯元宝进入腾讯元宝的官网,点击腾讯元宝,在右侧的输入框中输入提示词,效果如途中所示,这个确实不太好,环境是真实的,但是任务是卡通的

通义万相

进入通义万相官网
https://tongyi.aliyun.com/

在左侧找到生成的图标,然后再输入框下左侧要切换为图像,之后输入提示词,效果如下。

这里面第二章图片的咖啡杯与提示词不一致,另外好几张图片的凳子不是木凳子,也有问题,另外这个也是要收费的,注册的时候会送一些积分。

总的来说,几个模型生成的图片大部分能用,但有些模型对提示词的生成效果不一样。免费的百度和豆包相对都还不错。

本文由人人都是产品经理作者【markzou】,微信公众号:【markzou的笔记】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

教程评分

4.8 (1280 人评分)

学习讨论 (42)

用户头像

初学者

2天前

非常棒的教程!

作者头像

AI导师李明 作者

1天前

多谢