昆仑万维于8月13日推出全新开源框架Skywork UniPic 2.0。

作为SkyWork AI技术发布周的第三弹,该模型以轻量化架构实现多模态理解、生图与编辑能力统一,首次通过渐进式强化学习解决生成与编辑任务协同优化的行业难题,为开发者提供高效开源工具。

技术创新
UniPic 2.0的核心创新在于三大模块的协同设计:
生图编辑模块
基于SD3.5-Medium架构(2B参数),将文本输入扩展为“文本+图像”双输入模式,通过高质量数据训练同时支持文生图(T2I)和图像编辑(I2I)任务。轻量化设计下,其性能超越12B参数的Flux.dev等模型。

统一能力整合
冻结生图模块后,连接多模态模型Qwen2.5-VL-7B与轻量连接器,通过联合训练实现理解、生成、编辑一体化。用户可灵活切换功能,例如:输入图片与文本指令,模型精准识别内容(如景点名称、鸟类物种)。

强化学习优化
首创Flow-GRPO渐进式双任务强化策略,在生图与编辑任务间动态分配奖励信号,避免互相干扰。例如:将跑车图片转换为冰河世纪风格:

功能亮点
图像生成:根据用户输入的文字描述,生成高质量的图像,支持多种风格和场景。

图像编辑:对现有图像进行内容修改、风格转换等操作,满足多样化的编辑需求。

多模态理解:能够理解图像内容并回答相关问题,支持复杂指令的执行和内容修改。

并且Skywork UniPic 2.02B参数碾压12B巨无霸,开源生态赋能开发者!

应用场景
创意设计:广告公司输入文案秒出海报初稿,插画师通过指令生成灵感构图,效率提升超80%。
影视游戏开发:生成角色原画、场景概念图,缩短前期设计周期。

电商与工业设计:一键生成商品海报,家具品牌快速迭代包装设计。
Skywork UniPic 2.0以轻量化+一体化重新定义多模态模型边界,其开源策略将进一步加速AI创作工具普及。
GitHub:https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
#AI开源项目推荐##github##昆仑万维##AI图像理解#AI图像编辑#多模态模型#