飞搜侠

从图像生成prompt CLIP Stable Diffusion原理解读中说过CLIP是模型中的一部分，其实CLIP并不只是把文本输入转换成机器能理解的张量输入，而是可以描述文本和图片之间关系 ...

创新框架：我们提出了图像文本化框架，利用多模态大模型的的粗粒度图像理解能力，视觉专家模型的精细感知能力，以及纯文本大语言的模型的推理能力去自动生成细节丰富且语言表达 ...

OpenAI 的文本到图像模型是在大量(t, i) 对组成的数据集上进行训练的，其中i 是图像，t 是描述图像的文本。在大规模数据集中，t 通常源于人类作者，他们主要对图像中的对象进行 ...

Joy Caption 模型(由Fancy Feast 研发) 在SigLIP 和Llama3.1 的基础之上，使用Adapter 模式，训练出更好的描述图像的模型，需要与SigLIP 和Llama3.1 混合使用，输入图像，输出 ...

GPT、GPT-4、LLM、 GPT是一种基于深度学习的自然语言生成模型，可以根据输入的文本生成各种类型的文本输出，如对话、摘要、文章等。 GPT-4是多模态大模型，即支持图像和 ...

Stable Diffusion是一种以“文本生成图像”的AI绘画技术，也就是使用“文字”来控制AI生成图像。以此类推，“图生图”的意思就是“使用某张特定的图片，来控制AI生成新的图像”，是 ...

接着来到“图生图”界面，重绘幅度(Denoising strength)设置到1（否则原本的img2img就会起作用），在没有prompt情况下就可开始使用，CLIP会通过读取图片的描述信息当成prompt来用 ...

最近，AI 图像生成引人注目，它能够根据文字描述生成精美图像，这极大地改变了人们的图像创作方式。Stable Diffusion 作为一款高性能模型，它生成的图像质量更高、运行速度更快 ...

在参考图基础上，选择“图生图”，通过调整图片重绘幅度来控制（幅度越强，画面变化越大），然后输入描述词，如“刺绣，龙”，即可生成AI绘画作品。 2.2.2 局部绘制. 在参考图基础上， ...

描述词（Prompt）是一种用于与AI 人工智能模型交互的语言，它可以用来告诉模型需要生成什么样的内容。大多数模型师也会称呼Prompt 为“咒语”，它就像神奇咒语，不同的咒语内容 ...