[linux-sd-webui]图生文，blip/deepbooru

2023-10-27

GitHub - pharmapsychotic/clip-interrogator: Image to prompt with BLIP and CLIPImage to prompt with BLIP and CLIP. Contribute to pharmapsychotic/clip-interrogator development by creating an account on GitHub.https://github.com/pharmapsychotic/clip-interrogator GitHub - salesforce/LAVIS: LAVIS - A One-stop Library for Language-Vision IntelligenceLAVIS - A One-stop Library for Language-Vision Intelligence - GitHub - salesforce/LAVIS: LAVIS - A One-stop Library for Language-Vision Intelligencehttps://github.com/salesforce/LAVIS clip_interrogator教程 - 知乎同步发布在我的博客 https://blog.thisis.plus/2023/04/22/clip_interrogator%E6%95%99%E7%A8%8B/文字生成图片是近年来多模态和大模型研究的热门方向，openai提出的CLIP提供了一个方法建立起了图片和文字的联系，…https://zhuanlan.zhihu.com/p/624066332 模型方法---图像生成文字clip-interrogator - 知乎前言最近大火的方法stable-diffusion方法，将文字转成图片。那么有没有相反的方法，有了图片给一段文字描述？其实这个类似Clip里的相似度，但那个还是需要提供几个一段文字描述，而不能智能化的自动生成。但新的…https://zhuanlan.zhihu.com/p/578505705 scripts/clip_interrogator_ext.py · db/clip-interrogator-ext - Gitee.comhttps://gitee.com/dbscholar0/clip-interrogator-ext/blob/main/scripts/clip_interrogator_ext.pyblip是个多模态的视觉-语言模型，在webui中使用了blipv1，目前blip已经有v2版本了，deepbooru适合二次元的场景，除此之外的场景建议使用blip，blip有两个版本，GitHub - pharmapsychotic/clip-interrogator: Image to prompt with BLIP and CLIP，还有一个原作者团队整合的GitHub - salesforce/LAVIS: LAVIS - A One-stop Library for Language-Vision Intelligence，就是把训练的代码都放在这个库里面了，包含了blipv1/v2。

1.GitHub - pharmapsychotic/clip-interrogator: Image to prompt with BLIP and CLIP

这个库也支持blipv1/v2，对齐sd中的功能，纯推理，其中核心用的是hugging face中transformers库的BlipForConditionalGeneration，Blip2ForConditionalGeneration。

config=Config->
ci=Interrogator(config)->clip_interrogator.clip_interrogator->load_caption_model()->load_clip_model()->
- tokenize=open_clip.get_tokenizer(clip_model_name)->
inference(ci,image,mode)->
Interrogator.interrogate()->
caption=caption or self.generate_caption(image)->
- self._prepare_caption()->
- self.caption_model=self.caption_model()->
inputs=self.caption_processor(pil_image)->
- transformers.models.blip.processing_blip.BlipProcessor.__call__->
- encoding_image_processor=self.image_processor(images)->
tokens=self.caption_model.generate(inputs[1,3,384,384],self.config.caption_max_length)[BlipForConditioalGeneration].generate()->
- vision_outputs=self.vision_model(pixel_values)->
- image_embeds=vision_outputs[0](1,577,1024)->
- outputs=self.text_decoder.generate()[transformers.generation.utils.py->GenerationMaxin]->
-- model_kwargd['attention_mask']=self._prepare_attention_mask_for_generation(input)->
-- logits_processor=self._get_logits_processor()->
-- stopping_criteria=self._get_stopping_crireria()->
-- return self.greedy_search()->
--- outputs=self(**model_inputs,...)->
--- blip.modeling_blip_text.BlipTextLMHeadModel.forward()->
--- outputs=self.bert()->outputs:[last_hidden_state,past_key_values]->
--- sequence_output=outputs[0] [1,1,768]->
--- prediction_scores=self.cls(sequence_output)->
---- BlipTextOnlyMLMHead.forward()->
---- BlipTextLMPredictionHead().forward()->transformer->decoder->
---- prediction_scores [1,1,30524]
--- blip.modeling_outputs.CausalLMOutputWithCrossAttention()->
-- next_token_logitrs=output.logits[:,-1,:]->
-- next_tokens_scores=logits_processor(input_ids,next_token_logits)->
-- next_tokens=torch.argmax(next_tokens_scores,dim=-1) [1] ->
-- input_ids [1,11]->
-self.caption_processor.batch_decode(tokens)->
-- blip.processing_blip.BlipProcessor.batch_decode()->
-- tokenization_utils_base.PreTrainedTokenizerBase().batch_decode()->
-- tokenization_utils_fast.PretrainedTokenizerFast()._decode()->
--- text=self._tokenizer.decode()->
image_features=self.image_to_features(image)->

模型的输出包括多个方面：

people walking around a building with a glass facade, rendering of the windigo, stroopwaffel, grand library, inspired by Peter Fiore, detailled light, h 1024, archviz, inspired by Lodewijk Bruckman, the photo shows a large, librarian, soft curvy shape, phase 2, clogs

在上面大段的描述中，除了第一逗号之前的通过图像上物体和位置信息生成的，后面的描述都是通过四个数据集中筛选出与图的特征相似度很高的结果进行排序的，具体数据集合有：

artists flavors mediums movements

其中artists里面都是画家、mediums和movements就是属于那种画风种类，和那种派别的。

而flavors中有很多描述的信息，可以快速找到合适的信息做CLIP计算获得最佳结果。第一句是blip生成的。

上面这些在stable-diffusion-webui中是没有的，webui中只到LMmodel生成的promot就结束，不会在用clip计算相似度找5个类别的词了。

install

主要还是open_clip_torch这个库的问题

cp -r /home/sniss/.local/lib/python3.7/site-packages/open_clip_torch-2.16.0-py3.7.egg/open_clip/openai.py /home/sniss/local_disk/

在57行改下：

#     if get_pretrained_url(name, 'openai'):
#         model_path = download_pretrained_from_url(get_pretrained_url(name, 'openai'), cache_dir=cache_dir)
#     elif os.path.isfile(name):
#         model_path = name
#     else:
#         raise RuntimeError(f"Model {name} not found; available models = {list_openai_models()}")
    model_path = cache_dir

cp -r openai.py /home/sniss/.local/lib/python3.7/site-packages/open_clip_torch-2.16.0-py3.7.egg/open_clip/openai.py

2.deepdanbooru

# from AUTOMATC1111
# maybe modified by Nyanko Lepsoni
# modified by crosstyan
import os.path
import re
import tempfile
import argparse
import glob
import zipfile
import deepdanbooru as dd
import tensorflow as tf
import numpy as np

from basicsr.utils.download_util import load_file_from_url
from PIL import Image
from tqdm import tqdm

re_special = re.compile(r"([\\()])")

def get_deepbooru_tags_model(model_path: str):
    if not os.path.exists(os.path.join(model_path, "project.json")):
        is_abs = os.path.isabs(model_path)
        if not is_abs:
            model_path = os.path.abspath(model_path)
            
        load_file_from_url(
            r"https://github.com/KichangKim/DeepDanbooru/releases/download/v3-20211112-sgd-e28/deepdanbooru-v3-20211112-sgd-e28.zip",
            model_path,
        )
        with zipfile.ZipFile(
            os.path.join(model_path, "deepdanbooru-v3-20211112-sgd-e28.zip"), "r"
        ) as zip_ref:
            zip_ref.extractall(model_path)
        os.remove(os.path.join(model_path, "deepdanbooru-v3-20211112-sgd-e28.zip"))

    tags = dd.project.load_tags_from_project(model_path)
    model = dd.project.load_model_from_project(model_path, compile_model=False)
    return model, tags


def get_deepbooru_tags_from_model(
    model,
    tags,
    pil_image,
    threshold,
    alpha_sort=False,
    use_spaces=True,
    use_escape=True,
    include_ranks=False,
):
    width = model.input_shape[2]
    height = model.input_shape[1]
    image = np.array(pil_image)
    image = tf.image.resize(
        image,
        size=(height, width),
        method=tf.image.ResizeMethod.AREA,
        preserve_aspect_ratio=True,
    )
    image = image.numpy()  # EagerTensor to np.array
    image = dd.image.transform_and_pad_image(image, width, height)
    image = image / 255.0
    image_shape = image.shape
    image = image.reshape((1, image_shape[0], image_shape[1], image_shape[2]))

    y = model.predict(image)[0]

    result_dict = {}

    for i, tag in enumerate(tags):
        result_dict[tag] = y[i]

    unsorted_tags_in_theshold = []
    result_tags_print = []
    for tag in tags:
        if result_dict[tag] >= threshold:
            if tag.startswith("rating:"):
                continue
            unsorted_tags_in_theshold.append((result_dict[tag], tag))
            result_tags_print.append(f"{result_dict[tag]} {tag}")

    # sort tags
    result_tags_out = []
    sort_ndx = 0
    if alpha_sort:
        sort_ndx = 1

    # sort by reverse by likelihood and normal for alpha, and format tag text as requested
    unsorted_tags_in_theshold.sort(key=lambda y: y[sort_ndx], reverse=(not alpha_sort))
    for weight, tag in unsorted_tags_in_theshold:
        tag_outformat = tag
        if use_spaces:
            tag_outformat = tag_outformat.replace("_", " ")
        if use_escape:
            tag_outformat = re.sub(re_special, r"\\\1", tag_outformat)
        if include_ranks:
            tag_outformat = f"({tag_outformat}:{weight:.3f})"

        result_tags_out.append(tag_outformat)

    # print("\n".join(sorted(result_tags_print, reverse=True)))

    return ", ".join(result_tags_out)


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--path", type=str, default="./images/")
    parser.add_argument("--threshold", type=int, default=0.75)
    parser.add_argument("--alpha_sort", type=bool, default=False)
    parser.add_argument("--use_spaces", type=bool, default=True)
    parser.add_argument("--use_escape", type=bool, default=True)
    parser.add_argument("--model_path", type=str, default="./deepdanbooru-models")
    parser.add_argument("--include_ranks", type=bool, default=False)

    args = parser.parse_args()

#     global model_path
#     model_path:str
    if args.model_path == "":
        script_path = os.path.realpath(__file__)
        default_model_path = os.path.join(os.path.dirname(script_path), "deepdanbooru-models")
        # print("No model path specified, using default model path: {}".format(default_model_path))
        model_path = default_model_path
    else:
        model_path = args.model_path

    types = ('*.jpg', '*.png', '*.jpeg', '*.gif', '*.webp', '*.bmp') 
    files_grabbed = []
    for files in types:
        files_grabbed.extend(glob.glob(os.path.join(args.path, files)))
        # print(glob.glob(args.path + files))
        
    model, tags = get_deepbooru_tags_model(model_path)
    for image_path in tqdm(files_grabbed, desc="Processing"):
        image = Image.open(image_path).convert("RGB")
        prompt = get_deepbooru_tags_from_model(
            model,
            tags,
            image,
            args.threshold,
            alpha_sort=args.alpha_sort,
            use_spaces=args.use_spaces,
            use_escape=args.use_escape,
            include_ranks=args.include_ranks,
        )
        image_name = os.path.splitext(os.path.basename(image_path))[0]
        txt_filename = os.path.join(args.path, f"{image_name}.txt")
        # print(f"writing {txt_filename}: {prompt}")
        with open(txt_filename, 'w') as f:
            f.write(prompt)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大模型多模态和生成

人工智能

[linux-sd-webui]图生文，blip/deepbooru 的相关文章

概述：利用大模型 (LLMs) 解决信息抽取任务

论文标题 Large Language Models for Generative Information Extraction A Survey 论文链接 https arxiv org pdf 2312 17617 pdf 论文主要探讨
AAAI 2024 一作讲者招募 | 持续报名中

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入我们诚挚地邀请您来AI TIME分享您发表在AAAI 2024的工作请您扫码填写以下问卷如内容合适我们将会与您沟通相关分享事宜 AAAI 2024预讲会计划时间 2024年1
2024年华数杯国际赛B题：光伏发电功率思路模型代码解析

2024年华数杯国际赛B题光伏发电功率 Photovoltaic Power 一问题描述中国的电力构成包括传统能源发电如煤油和天然气可再生能源发电如水电风能太阳能和核能以及其他形式的电力这些发电模式在满足中国对电力的巨
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

GIS_开源GIS

GIS 开源GIS 图文 QGIS QGIS是一个开放源码的地理信息系统该项目诞生于2002年5月并于同年6月作为SourceForge上的一个项目建立我们一直在努力使GIS软件传统上是昂贵的专有软件成为任何人都可以使用个人电脑
python ADF检验

前言本文对ADF检验进行研究 python示例代码不对概念进行分析介绍 Code import numpy as np import matplotlib pyplot as plt from statsmodels tsa statt
EPOLLRDHUP EPOLLHUP 事件

EPOLLRDHUP是从Linux内核2 6 17开始由GNU引入的事件对端正常关闭程序里close shell下kill或ctr c 触发EPOLLIN和EPOLLRDHUP 但是不触发EPOLLERR 和EPOLLHUP 再man
最新物联网毕设100例(一)

单片机毕业设计项目分享系列这里是DD学长单片机毕业设计及享100例系列的第一篇目的是分享高质量的毕设作品给大家包含全面内容源码原理图 PCB 实物演示论文这两年开始毕业设计和毕业答辩的要求和难度不断提升传统的单片机项目缺少
图像分割套件PaddleSeg全面解析（八）预测代码解读

训练完成模型之后可以对图片进行预测还可以实现模型结果可视化查看分割效果运行命令如下 python predict py config configs quick start bisenet optic disc 512x512 1k
C# ListView用法详解

拖控件 listView 控件到新建form中并添加相应的button lable和textbox 如下图 1 点击表格右上角的三角形添加表头信息 2 Name 程序里调用的名称 Text 表格里显示的信息其它可以设置大小等信息 3
视频托管--七牛云

目录 vue video player 视频托管 vue video player 安装 npm install vue video player S 在main js导入 vue video播放器 require video js dis
npm登录：忘记了用户名和密码，通过邮箱找回流程

登录npm时发现用户名和密码我都忘了幸好绑定了邮箱通过邮箱重设密码与登录 1 在npm官网sign in界面点击Forgot password 2 输入邮箱发送email 3 邮件中会给出你的用户名和一个地址跳转链接点击跳转链接 4
查看docker运行中的命令行输出

访问本站观看效果更佳当我在用docker跑pytorch时因为训练时间长网络不好的时候终端会停止输出命令行结果为了查看命令行的输出结果我们可以运行如下命令 docker logs ID或者名字可以查看容器内部的标准输出下面再
cmmi实践访谈测试ppt_汽车嵌入式软件测试——软件质量度量评价指标

在上一期中介绍了常见的软件质量度量模型 McCall Boehm ISO 9126模型通过这些模型可以对软件质量进行科学的评价在本期中主要介绍 7个软件质量的评价指标编码规范源代码行千行代码bug率圈复杂度代码覆盖率扇入
Tensorflow Lite之编译生成tflite文件

这是tensorflow生成的各种模型文件 GraphDef pb a protobuf that represents the TensorFlow training and or computation graph This conta
web开发中的四个域对象生命周期作用域详细介绍

Web开发中的四个域对象有范围小到大 page jsp有效 request 一次请求 session 一次会话 application 当前web应用 page域指的是pageContext request域指的是HttpServletR
forEach 中的 return 到底有效吗？如何优雅地中断 forEach 循环？

在JavaScript中 forEach是一个常用的数组遍历方法然而很多人可能误解了forEach中的return语句的作用本文将详细解释forEach中的return是否有效以及如何优雅地中断forEach循环 forEach 中的
swagger主页访问报错500

背景有一天前端给我要接口文档我给发了个接口文档路径结果直接报错500 截图如下原因分析 500报错看后台日志 java lang NullPointerException null at springfox documentati
R语言之函数调用

处理数据对象的实用函数函数功能 length object 显示对象中元素成分的数量 dim object 显示对象的维度 str object 显示对象的结构 class object 显示对象的类型 mode object 显
还在为数据清洗抓狂？这里有一个简单实用的清洗代码集

选自towardsdatascience 作者 Admond Lee 机器之心编译参与 Geek AI 张倩数据清洗是数据科学家逃不掉的一份苦差事为了让这项工作不那么痛苦本文作者分享了自己的数据清洗代码集现实世界中的数据通常质量不
听说你还不知道什么是 python？带你深入理解什么是 python

文章目录前言什么是python python的由来我们为什么要学习python 帮助python学习的网站前言各位朋友们大家好在之后的时间里我将陆续为大家分享我在python学习过程中学习到的知识点如果你也对python感
【随机过程】 17 -离散时间马氏链典型应用

离散时间马尔科夫链的典型应用文章目录离散时间马尔科夫链的典型应用 0 概述 1 Page Rank 1 1 背景 1 2 模型建立 1 3 模型求解 2 MCMC 2 1 概述 2 2 实现思路 2 3 具体实现 2 3 1 第一步细
Qt基础之五：使用invokeMethod异步调用函数

在主线程中如果执行比较耗时的任务但是又不想单独开子线程来处理不妨试试Qt中提供QMetaObject invokeMethod方法该方法支持函数的异步调用这样就会在界面显示后去执行而不会卡主主界面 QMetaObject invo
[linux-sd-webui]图生文，blip/deepbooru

GitHub pharmapsychotic clip interrogator Image to prompt with BLIP and CLIPImage to prompt with BLIP and CLIP Contribute

[linux-sd-webui]图生文，blip/deepbooru

[linux-sd-webui]图生文，blip/deepbooru 的相关文章

随机推荐

热门标签