欢迎光临散文网 会员登陆 & 注册

DALL·E 2体验报告——基于文本的大模型AI图像生成产品

2023-03-01 23:43 作者:zwquq  | 我要投稿

体验报告将从功能和交互感受两个方面展开。

一、功能

-功能涵盖
根据官方对DALL·E2的定义——一个可以根据自然语言的描述创建逼真的图像和艺术作品的人工智能系统,在实际使用中,可见DALL·E2网站上的具体功能包括:

1.输入描述性文本句子,生成对应图像。
2.点击“Surprise me”获得系统自动生成的例子语句,生成对应图像。
3.点击下方图片例子,进入对应语句和生成界面。
4.上传图片,可以进行简单的擦除,或添加生成框和描述性语句扩展图像。
5.将自己生成的画作分享给官方,可能将进入官方的例子库。

-生成质量
接下来将通过几个简短的横向测试看看DALL·E2以下几个方面的能力:

“一副描绘痛苦的设计师正在进行批判性设计的梵高风格画”

内容表现上,我尝试用同一句指定风格、含有人物感情指令的描述文本,同步在同类图片生成平台(Stable Deffusion与Runway)上测试,三者都基本满足了文本中的客观描述,但能从画面明显看出文本中要求的“痛苦的”感受的似乎只有DALL·E2,同时,另外两者还出现了一些小意外:七指怪人和手部扭曲。


画面表现上,从官方给予的案例图中,大概可以看出DALL·E2能够实现的几类画面风格:
1.写实类(包括真实感照片、超写实绘画、写实风格渲染图)
2.绘画感强类(包括油画、蜡笔画、素描、板绘等)
3.介于两者之间的非真实效果

“一张描绘痛苦的设计师正在进行批判性设计的电子绘画”

“一张描绘痛苦的设计师正在进行批判性设计的照片”


从效果丰富度上可以看出DALL·E2确实基本涵盖了从照片到绘画的绝大部分图片风格。我尝试用同一句描述文本配合具体的画面风格指令,并同步在同类图片生成平台(Stable Deffusion与Runway)上测试,当指定生成“电子绘画”时,Stable Deffusion 和 DALL·E2都产出了具有风格差异的多种表现形式,但三者之中DALL·E2包函二维表达与三维表达,同时添加的些许魔幻风格背景让我感觉更切合文本描述的期待。

在写实照片指令下,除Runway外的两者都合理地表现了真实场景,更加符合要求。


通过这一测试可以感受到,DALL·E2训练出的风格范围和理解力都相对不错,同时提供4张有风格差异的结果图的形式也让使用者感到有更多选择。


“未来世界的一群信息游牧者身着高技术装备正在穿越信息流”
“一副描绘未来世界的一群信息游牧者身着高技术装备正在穿越信息流的梵高风格画”

预测能力上,我想看看不明确指定画面风格的情况下它们会如何通过描述内容选择合适的画风,结果是DALL·E2选择的未来感抽象漫画风格更符合我编写文本时的预期,Runway的元素拼凑式处理则让人感到些许奇怪和尴尬。


二、交互
-交互体验:当用户直接点击DALL·E2网站,出现的界面中间可见明显的文本框输入处,三处可以点击的生成图像、随机句子引导和上传图片用了不同的方式突出,信息不多,最核心的图片生成操作很明确,左上角的产品/公司介绍信息也遵循常理摆放,页面下部分未完全显示的案例图片引导了下滑浏览动作,鼠标悬停在图片上会出现引导尝试信息,分享作品的操作放置在页面最下方,符合体验流程。

DALL·E2使用界面

-视觉设计
整个页面的设计可以说基本没有无用的装饰信息和多余的颜色,偏白的界面会使注意力更多的放在图像上,可交互的部分也十分有限,感觉对新用户(和极简主义者)比较友好,但过于克制的功能也许不能长期激发用户的探索欲,或是进行更精确更复杂的编辑尝试。

DALL·E 2体验报告——基于文本的大模型AI图像生成产品的评论 (共 条)

分享到微博请遵守国家法律