来源:科普时报作者:刘延嘉
AI制图
ChatGPT之后,AI(人工智能)生图工具如雨后春笋般涌现。从专业的StableDiffusion(AI绘画生成工具),到大众化的文心一言、即梦,AI绘图越来越没有“门槛”了。当然,也有不少人发现,输入相同指令AI生成的图片却千差万别,甚至同一个人在同一个平台重复相同命令,结果也可能天壤之别。
AI绘图为何如此“任性”?其背后有什么技术原理呢?
从“复印机”到“艺术家”的演变
要理解AI的“任性”,得先了解其技术发展历程。
早期的AI生图技术就像高级复印机,只能复制已有图像,缺乏真正的创造力。如今主流技术基于“扩散模型”,让AI有了“创意生成”的能力。这就像从一团随机彩色噪点开始,经过无数次去噪和优化,最终“雕琢”出一幅完整图像。而且每次生成图片时,系统会以“随机种子”为起点,不同的种子会生成不同图像,就像种花时不同种子开出不同花朵。
AI模型学习的是数据的概率分布,而不是确定性的映射关系。当输入“一只可爱的小猫”,AI激活的不是某张特定的猫咪图片,而是关于“可爱小猫”的无数种可能性,然后从中随机选择一个方向创作。
这种随机性并不是技术缺陷,反而是AI技术的核心优势。也正是这种不可预测性,让AI有了无限的创意,成为创作者的伙伴。
给“任性”的AI套上可控缰绳
虽然随机性是AI创作的特色,但用户可以通过一些技巧让结果更可控。
精确化提示词是直接的办法。与其输入“一个美丽的风景”,不如详细描述为“阳光明媚的春日午后,樱花盛开的公园小径,水彩画风格”。越具体的描述,AI理解越准确,生成结果就越接近期望的样子。
参数调优能显著改善结果。通过调整采样步数、引导强度等参数,用户可以在创意性和可控性之间找到平衡。引导强度越高,AI就越严格遵循提示词,但可能会损失一些创意。
选择合适的采样器也很重要,不同采样器就像不同画笔,有的追求速度,有的追求质量,有的则在两者之间平衡;迭代优化是专业用户的常用策略,能基于初始生成结果,不断调整提示词和参数,往往能获得出色结果。
对于想要更精确控制的用户,还有一些高级技巧。比如ControlNet(控制扩散模型生成结果)技术,可以像给AI提供“设计图纸”一样,通过草图、人体姿态图或深度图精确控制生成结果的构图和布局。图生图功能则让用户基于现有图片修改和优化,既保持原有基础结构,又能加入新元素……
此外,实际使用中还有一些容易被忽视的细节。不同显卡和内存配置可能对生成结果产生细微影响;同一AI工具的不同版本可能产生不同结果;有时调整描述词的先后顺序也会影响最终效果;逗号、句号等标点符号在某些情况下也会影响AI的理解。
跟AI的“创造性偶然”共舞
随着技术进步,AI图像生成正朝着更可控的方向发展。
未来,我们或许能看到更智能的AI助手,它们不仅能生成图像,还能主动建议优化方案。基于大语言模型的提示词优化工具也会不断完善,帮助用户更好地与AI沟通。
但我们也必须明白,AI的“任性”特质,反映了AI的一个重要特征:它不是简单的工具,而是具有创造性的伙伴。
最好的AI艺术作品,往往来自人类创意想法与AI随机创造力的完美结合。学会与AI的“任性”共舞,才能在充满可能性的创作世界中发现独特风格。
(作者系中国科学院计算技术研究所工程师)