时尚科技 | 生成式人工智能(GenAI)将具体如何帮助时尚业发展?



▼ 以下的冷芸时尚圈讨论是就行业问题的讨论及总结。这些分享属于集体智慧的结晶。(它们并不代表冷芸个人观点)。希望通过此种方式能让更多行业人士受益!
一、GenAI 相关背景
1.ChatGPT与MidJourney为标志性开端的GenAI浪潮
人们对AI的理解主要集中在人机对话、人脸识别等应用场景上。这些都是AI技术在不同领域的具体应用。然而,AI的核心要素可以概括为三个部分:数据、算法和算力。
当我们谈论AI,可以将其比作烹饪一道美味的菜肴。AI的三大要素就像烹饪中不可或缺的元素一样。
首先,数据就像是食材,是我们开始制作美食的原材料。没有高质量的数据,就像没有新鲜的食材,我们无法制作出口感好的料理。
其次,算法就像是菜谱,它指导我们如何使用这些数据来达到特定的目标。就像一本烹饪书告诉我们应该如何处理食材以制作一道美味佳肴,算法告诉AI如何处理数据以实现特定任务。
最后,算力就像是我们用来烹饪的锅碗瓢盆。它代表了我们需要的计算资源和硬件设备(GPU),以便将算法应用于数据,从而创建出强大的AI系统。
大家刚刚其实也提到了各类 AI 的应用场景,那里面哪些算是生成式 AI 呢?
生成式 AI(Generative AI,简称 GenAI) , GenAI 是 AI 的子集,同样也是由三要素组成的:
1)数据上:
- AI:传统AI算法通常需要大量标记好的数据来进行监督学习或其他类型的学习。这些数据通常需要专家手动标注,这使得数据获取和准备成本较高。
- GenAI:生成式AI也需要大量数据,但它通常更侧重于无监督学习,自监督学习或强化学习。这意味着生成式AI可以从更多类型的数据中学习,包括未标记的数据,图片、文本等。
2)算法上:
- AI:传统AI算法包括决策树、支持向量机、神经网络等,通常是手工设计的特征和模型结构。
- GenAI:生成式 AI 往往使用深度神经网络模型(很多层、参数量庞大的神经网络),如目前图像生成采用的主流算法是扩散模型(Diffusion)、目前文本生成上的主流模型是 Transformer。这些模型可以自动从海量数据中提取特征,因此不需要手动设计特征。
3)算力上:
- AI:传统AI算法通常可以在标准硬件上运行,不需要大规模的计算资源。
- GenAI:生成式AI,特别是大型模型如GPT-3,需要大规模的计算资源,通常在分布式系统上运行,使用多个GPU或TPU进行训练和推理。
GenAI 的特点主要有产品的使用门槛低、可用性高、通用性强。
1)低门槛:MJ、ChatGPT等产品拥有庞大的用户群体,这得益于其用户友好的界面和易用性。无需深入的技术背景,普通用户也能够轻松使用这些产品来生成文本、图像或音频内容。
2)可用性:生成的内容越来越难以辨别是真人所做还是 AI 所做,也说明这些生成的内容是能够真正可以在各种工作场景中运用,真正提升大家的生产效率。
3)通用性:生成式 AI 产品的用途是非常广泛的,它们能够在多种任务中发挥作用,以 ChatGPT 类的文本生成 AI为例,无论是在商务领域需要回复客户邮件,还是在学术界需要撰写研究论文,生成式AI都能成为你的得力助手。此外,如果你是一名创作者,它还能帮你生成小说、诗歌、歌词等艺术作品。
2.文本生成:ChatGPT 类对话产品与 LLM 大语言模型
除了文本生成的产品之外,当然还有图像生成、音乐生成、视频生成、代码生成等等,当然今天主要是讨论文本生成和图像生成这两类最为广泛的应用。
首先 ChatGPT 是产品,Chat 是指交互方式,GPT 则是指这款产品背后的模型。
当我们谈到GPT(Generative Pre-trained Transformer)时,它其实是建立在一个非常强大的算法框架上的,那就是Transformer。Transformer 这个框架是由Google于2017年提出的,它的应用领域非常广泛,不仅仅是在自然语言处理中,还包括计算机视觉和其他领域。所以,当你听到GPT时,不要忘记这个基础,它是让AI变得更智能和强大的关键算法框架之一,而GPT则是在这个基础上进一步发展和优化的。
我们先简要看看GPT的历史:
1)GPT-1:发布于2018年,是GPT系列的第一个模型。它拥有大约125M(M=百万)个参数,使用了较小的文本语料库进行预训练。虽然在当时取得了不错的结果,但参数量相对较小,限制了其性能。
2)GPT-2:于2019年发布,GPT-2拥有大约1.5B(B=十亿)个参数,是GPT-1参数数量的12倍,需要更多的计算资源,包括多个GPU或TPU。它使用大规模的互联网文本数据进行预训练,表现出色,并引发了担忧,因为它有潜力生成误导性信息。
3)GPT-3:在2020年发布,它包含了巨大的参数数量,达到了1750B(B=十亿)个,相较于GPT-2大了1167倍,需要极大的计算资源,在大规模分布式计算环境中进行训练。GPT-3的表现在多种自然语言处理任务上都非常出色,但也引发了有关伦理和安全问题的讨论,因为其能力可能被滥用。
4)ChatGPT(GPT-3.5):于 2022 年发布,它是在 GPT-3 上建立的一款对话机器人产品。借助GPT-3的巨大参数数量和卓越的语言理解能力,ChatGPT能够模拟人类对话,回答问题,提供解释,生成文本以及执行各种自然语言处理任务。它被广泛用于在线聊天机器人、智能助手、客户支持系统等应用中,为用户提供智能而自然的对话体验。
5)GPT-4:于 2023 年发布的一种大规模多模态语言模型,它可以接受图像和文本作为输入,生成文本作为输出。GPT-4相比前一代GPT-3.5,在许多专业和学术的评测上表现出了人类水平的性能,例如在模拟律师考试中得分位于前10%的水平,而GPT-3.5则位于后10%。GPT-4还具有更高的创造力和可靠性,可以处理更复杂和细致的指令,例如写歌词或剧本。GPT-4还通过了对事实、可控性和安全性的测试,虽然仍然不完美,但比以往的模型有了明显的改进。
为什么 GenAI 要单拎出来讲呢?是因为大模型有一些原先小模型不具备的能力。比如大型语言模型(LLM,Large Language Models)具有三个主要特点,包括规模定律、涌现能力和工具调用能力。
1)规模定律:即其性能随着参数数量的增加而逐渐提高。这意味着增加模型的参数量通常会导致更好的性能,例如更准确的文本生成和自然语言处理任务执行。然而,这种提升并非线性的,而是递减的,因此在性能和计算成本之间需要权衡。
可以想象一辆汽车的油箱。初始时,每增加一加仑的汽油,你的车可以行驶更远的距离,性能逐渐提高。然而,随着汽油的不断添加,每加仑所能行驶的额外距离逐渐减小。
2)涌现能力:模型在规模达到一定程度时,表现出一些较小的模型不具备的能力,例如在复杂的语言理解、生成、推理等任务上有显著的提升。这种能力可以看作是由模型中的大量参数和数据相互作用,在宏观层面上产生的一种特殊现象,类似于自然界中的涌现现象。
就像人脑中的神经元在互相连接和相互作用时,产生了智力和创造力,大型语言模型中的数百万(甚至数十亿)参数互相作用,产生了出人意料的文本和任务执行能力。这些出人意料的结果是模型内部复杂性的产物,就像人脑中的思维和创意也是神经元相互作用的产物。
3)工具调用能力:大模型的工具调用能力是指大模型可以通过调用外部的 API 或服务,来实现一些自身无法完成的功能,如图像处理、语音识别、数据分析等。这种能力可以让大模型扩展自己的应用范围,提高自己的效率和效果。调用外部工具、并且拥有记忆机制的 LLM 也被称作 AI Agent(智能体)。
3.图像生成:MidJourney 类产品与模型
主流的图像生成产品 MJ、SD 和 DALL·E:
MJ(MidJourney)是于2022 年 7 月12 日进入公开测试的产品,由于是商业软件,背后算法没有开源。
SD(Stable Diffusion)最开始是 Stability 公司赞助的开源模型 Latent Diffusion。这个模型是由慕尼黑工业大学团队发表在 CVPR 2022(计算机视觉相关的人工智能顶级会议)2022 年 6 月的论文,而通常大家使用的 SD WebUI 则是一位社区开发者基于这个模型设计了一个开源的 UI 让大家更好使用这个模型。
DALL·E 最初于 2021年1月5日由OpenAI发布,它是基于GPT-3的多模态语言模型,共拥有120亿个参数,使用从网络上收集的文本和图像对进行训练。然后 DALL·E 2 在2022年4月发布,但是一直没有公开使用,它是基于GPT-4的多模态语言模型,声称它可以从文本描述中生成照片般逼真的图像,另外还有一个允许对输出进行简单修改的编辑器。DALL·E 3在2023年9月21日发布,并与ChatGPT集成,基于用户提供的自然语言文本来生成图像。由于也是商业软件,并没有开源。
图像生成的 GenAI 产品的特点是极大降低创作门槛,目前的趋势是可控性逐步增强、使用门槛还会进一步降低。
1)低门槛:
- 根据用户的输入或指令,生成新的图像的产品。这些产品可以让用户无需具备专业的绘画技能或软件工具,就可以轻松地创造出想象中的画面,或者对现有的图像进行修改和优化。这些产品在艺术、设计、娱乐等领域有广泛的应用。
- 个人感觉很类似于智能手机让人人都可以摄影。像手机的拍照功能越来越强大、越来越低门槛一样,人人都可以随时随地拍摄和编辑自己喜欢的照片。这类创意工具的普及和发展,也是科技进步和文化变革的体现之一。
2)可控性逐步增强:
- 通过使用 ControlNet、Lora 等插件模型作为图像生成模型的辅助工具,用户可以对生成结果进行更细致和灵活的控制。
- 例如,ControlNet 可以让输入一些特定条件图,这些控制单纯通过文本很难被精细化描述。

3)门槛还将进一步降低
OpenAI 官网的介绍:DALL·E 3 比我们以前的系统了解更多的细微差别和细节,使您能够轻松地将您的想法转化为异常准确的图像,也就是文本到图像模型的提示词跟随能力大幅改善,目前已对 ChatGPT Plus 和企业版用户开放使用。
个人认为DALL·E3 约等于 LLM(文本生成模型) + SD(图像生成模型),其中 LLM 帮用户将更加自然的需求转化为 SD 更好理解的 prompt。DALL·E3的优点是可以结合 GPT-4 的多模态能力和SD的快速采样能力,让用户无需等待长时间,就可以得到满意的生成结果。

二、GenAI在时尚行业的应用案例
1.时尚设计与产品开发
接下来和大家一起讨论 GenAI 在时尚行业里有哪些具体的应用案例、产品,我们先从3个应用较多的方向来讨论。我个人看到的 GenAI 主要应用在:
1)创意灵感图生成
2)款式设计(成衣、鞋子、包袋、配饰等等)
3)印花设计
后面两类会要求较高的精准度、可用性,创意灵感图生成则会需要较好的发散性、创意性。就“时尚设计、产品开发”这个应用场景,大家有没有想到或者看到一些别的细分应用环节呢?
GenAI 在服装设计上的优缺点
缺点:
1)精细化的修改仍需大量手工调整;
2)只能生成二维图像而非完整服装(版型、工艺);
3)好的生成效果非常依赖于提示词。
优点:
1)优化流程,先预订再生产;
2)可以快速创造大量的新颖设计。
GenAI 在设计上的案例(国外):
AI Fashion Week 是由Maison Meta举办的时尚活动(2023年4月于纽约举办),它展示了各类由人工智能技术生成的服装设计。AI Fashion Week的目的是通过鼓励设计师使用新的工具和方法,来突破时尚界的可能性和创新性。
AI Fashion Week 同时也是比赛,参赛者的作品不仅仅存在于虚拟世界中,也将会通过观众投票和专家评审,来决定最终的三名获胜者。这些获胜者的作品将由电子商务平台 Revolve 实际生产并销售。

线上零售商 Revolve 发布了由 AI 生成的限量胶囊系列及单品该活动开始接受预订,为消费者提供了机会购买由生成式人工智能设计的衣服。此外,国内的针对时尚行业的 MJ 已经出来了很多家产品,包括不限于(欢迎大家补充):POP趋势的AI智绘,蝶讯AI设计师,知衣科技的fashion diffusion,Style3d的AI功能,Fabrie的AI功能等等…
2.市场营销,视觉与文案内容
GenAI在市场营销上的细分应用场景是视觉广告、广告文案、产品文案等等。芸友Iyrin认为产品文案比较合适,因为一般的产品文案都相对客观和具体。但是广告文案就需要更多的场景参与情绪参与以及个性卖点价值观的输出,这个感觉现有的AI独立比较难完成。的确,GenAI在这一场景下应用的缺点在于生成内容可能存在数据偏见,导致缺乏多样性和包容性;其优点主要在于可大大节省降低人力成本、时间成本。
下面我提供了一个GenAI在时尚营销上的营销案例:GUCCI与佳士得在 2023 年 6 月共同启动了“未来频率:生成艺术与时尚的探索”,委托了来自多位 AI 艺术创作者的 21 件艺术作品,以 NFT 藏品的形式登上了拍卖界巨头佳士得的拍卖台。根据GUCCI官网介绍,每位艺术家的任务是“创造不同生态的融合”——即,将服装设计和制造的工业领域与生成艺术和人工智能的科技世界融合在一起。

3.电子商务和消费者体验
GenAI在消费者体验上的主要细分应用场景:AI 模特、个性化 AI 客服、虚拟试衣。
1)优点:降低成本,提升效率。
2)缺点:生成的图像和实际产品之间可能存在偏差。
AI 模特案例:


个性化客服案例:
2023年4月欧洲的知名时尚电商平台 zalando 在其应用程序和网络平台上推出由 ChatGPT 支持的时尚助手。时尚助手可以根据具体的应用场景进行推荐商品、基于商品推荐搭配、基于需求重新推荐商品等等个性化服务。

图片里的内容有应用场景进行推荐商品:用户说自己在7月要在圣托尼亚参加婚礼,然后 AI会根据时间地点,推理出相应的天气情况,再推荐服装款式。

庄主总结
一、GenAI相关背景
1.ChatGPT与MidJourney为标志性开端的GenAI浪潮
GenAI更侧重于使用更多类型的数据进行无监督学习,采用深度神经网络模型(Diffusion、Transformer)来自动提取特征,但需要更大规模的计算资源。GenAI 的特点是使用门槛低、可用性高、通用性强。
2.文本生成:ChatGPT类对话产品与LLM大语言模型
大型语言模型(LLM,Large Language Models)具有三个主要特点,包括规模定律、涌现能力和工具调用能力。
3.图像生成:MidJourney类产品与模型
图像生成的GenAI产品的特点是极大降低创作门槛,目前的趋势是可控性逐步增强、使用门槛还会进一步降低。
二、GenAI在时尚行业的应用
1.时尚设计与产品开发
主要应用在:创意灵感图生成、款式设计(成衣、鞋子、包袋、配饰等等)和印花设计,后面两类会要求较高的精准度、可用性,创意灵感图生成则会需要较好的发散性、创意性。
2.市场营销,视觉与文案内容
市场营销上的细分应用场景是视觉广告、广告文案、产品文案等等。
3.电子商务和消费者体验
消费者体验上的主要细分应用场景:AI 模特、个性化 AI 客服、虚拟试衣。
文字整理:张怀楷
文字编辑:陈畅
美术编辑:李宁