kaggle Stable Diffusion数据分析与baseline分享

2023-06-16 17:55 作者:深度之眼官方账号 0人读过 | 我要投稿

来源：投稿作者：echo

编辑：学姐

你的目的是来预测我们生成图像的提示词

1.比赛目标

这个竞赛的目标不是从文本提示生成图像，而是创建一个模型，可以在给定生成图像的情况下预测文本提示（你有一堆提示词，你预测是否该提示词参与了图像的生成）?您将在包含由Stable Diffusion 2.0生成的各种(提示，图像)对的数据集上进行预测，以了解潜在关系的可逆程度。

2.内容

文本到图像模型的流行已经摒弃了提示工程的一个全新领域。一部分是艺术，一部分是悬而未决的科学，ML从业者和研究人员正在迅速努力理解提示和它们生成的图像之间的关系。在提示符上添加“4k”是使其更逼真的最佳方法吗?提示中的小扰动会导致高度发散的图像吗?提示关键字的顺序如何影响生成的场景?这个竞赛的任务是创建一个模型，可以可靠地反转生成给定图像的扩散过程。

为了以一种稳健的方式计算提示的相似性——这意味着“史诗猫”的得分与“威严的小猫”相似（meaning that "epic cat" is scored as similar to "majestic kitten" in spite of character-level differences），尽管它们在字符级别上存在差异——你将提交你预测的提示的嵌入。是直接建模嵌入，还是先预测提示，然后转换为嵌入，都取决于您!祝你好运，并愿你在此创建“高质量、锐利焦点、复杂、详细、不真实的健壮交叉验证风格”的模型。

3.评价指标

使用预测和实际提示嵌入向量之间的平均余弦相似度评分来评估提交。如何为groundtruth提示计算嵌入的精确细节见

数据

images/ - 是一些从提示词中产生的图像;你的任务是预测是哪些提示词用来产生这个图像.隐藏的测试数据集包含大约16000张图片。
prompts.csv - 用来产生图像的提示词。These are provided as illustrative examples only. It is up to each competitor to develop their own strategy of creating a training set of images, using pre-trained models, etc. Note that this file is not contained in the re-run test set, and thus referencing it in a Notebook submission will result in a failure.
sample_submission.csv - 一个正确的示范 The values found in this file are embeddings of the prompts in the prompts.csv file and thus can be used validate your embedding pipeline. This notebook（https://www.kaggle.com/code/inversion/calculating-stable-diffusion-prompt-embeddings） demonstrates how to calculate embeddings.

探索性数据分析（Exploratory Data Analysis，EDA）

图像id转路径

图像展示

左上到右下分别意思为
超级逼真的照片，非常友好和反乌托邦的陨石坑
拉面用分形的玫瑰乌木雕刻而成，以哈德逊河学派的风格
超龙在树林里拿着一个黑豆卷，旁边是一只一模一样的角龙。
一个轰鸣的复古机器人起重机与一只无精打采的法国斗牛犬在羊皮纸上作画!

Config

seed

Dataset

`Train`

Train

准备训练数据

训练

模型推理

dataset

inference

关注“学姐带你玩AI”公众号

回复“all in”免费领取

kaggle往期赛baseline代码数据集合集+新赛汇总

标签：baseline kaggle竞赛 stable diffusion kaggle