【精华】AIGC专栏-Text/Img/Video/audio

2023-10-31

(一)LLM专栏

大模型相关技术原理以及实战经验:liguodongiot/llm-action

1 ColossalAI

图片

(1)参考资料700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

(2)开源地址https://github.com/hpcaitech/ColossalAI

(3)描述

  • Colossal-AI提供开箱即用的 8 到 512 卡 LLaMA2 训练、微调、推理方案
  • 对 700 亿参数训练加速 195%,并提供一站式云平台解决方案,极大降低大模型开发和落地应用成本。

(二)文生图

1 Stable Diffusion

img

(1)参考资料Stable Diffusion导论/安装教程

万字保姆级教程!Stable Diffusion完整入门指南

(2)开源地址https://github.com/AUTOMATIC1111/stable-diffusion-webui

(3)描述

Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它是一种潜在扩散模型,它由创业公司Stability AI与多个学术研究者和非营利组织合作开发。目前的SD的源代码和模型都已经开源,在Github上由AUTOMATIC1111维护了一个完整的项目,正在由全世界的开发者共同维护。由于完整版对网络有一些众所周知的需求,国内有多位开发者维护着一些不同版本的封装包。开源社区为SD的普及做出了难以磨灭的贡献。

2 InvokeAI

img

(1)参考资料集多个AI绘画开源模型于一体的工作台#invokeAI使用测评

(2)开源地址https://github.com/invoke-ai/InvokeAI

(3)描述

invokeAI是一个在网页上使用的AI绘画生成界面,通俗点讲,它其实是嵌套在生成模型上的一个网页外观。不同的生成模型例如stable diffusion和Dream booth等,通过导入invokeAI内,可以将不同模型的界面替换成invokeAI的界面,从而统一工作环境。

3 Fooocus

img

(1)参考资料重磅开源工具Fooocus!让SD跟Midjourney一样简单易用!

(2)开源地址https://github.com/lllyasviel/Fooocus

(3)描述

基于SDXL模型在SDwebui的基础上进行了改进,提供了一系列强大功能,并提供直观易懂的界面。这款开源免费软件自动化了许多内部优化和质量改进,无需用户处理繁琐的技术参数,使得用户可以全情投入到绘图交互中。

(4)使用教程:

4 HCP-Diffusion-webui

图片

(1)参考资料中山大学开源Diffusion模型统一代码框架,推动AIGC规模化应用

(2)开源地址https://github.com/7eu7d7/HCP-Diffusion-webui

(3)描述

  • 统一架构:搭建 Diffusion 系列模型统一代码框架
  • 算子插件:支持数据、训练、推理、性能优化等算子算法,如 deepspeed, colossal-AI 和 offload 等加速优化
  • 一键配置:Diffusion 系列模型可通过高灵活度地修改配置文件即可完成模型实现
  • 一键训练:提供 Web UI,一键训练、推理

(三)文生视频

文生视频: 任务、挑战及现状

1 Gen-2

img

(1)参考资料Gen2:一个可以用文本、图像或视频片段生成新视频的多模态AI系统

(2)开源地址:/

(3)描述

Gen2支持多种模式,让你可以根据不同的需求和创意生成不同风格的视频。比如:

  • 文本到视频:只用文本提示就能生成任何风格的视频。
  • 文本+图像到视频:用一张图像和一段文本提示生成视频。
  • 图像到视频:只用一张图像就能生成视频(变化模式)。
  • 风格化:将任何图像或文本提示的风格转移到你的视频上。
  • 故事板:将草图变成完全风格化和动画化的渲染。
  • 遮罩:在你的视频中隔离主题,并用简单的文本提示修改它们。
  • 渲染:将未纹理的渲染变成逼真的输出,通过应用一个输入图像或文本提示。
  • 定制:通过定制模型来释放Gen2的全部力量,获得更高保真度的结果。

2 Text2Video-Zero

(1)参考资料【AIGC-AI视频生成系列-文章1】Text2Video-Zero

(2)开源地址https://github.com/Picsart-AI-Research/Text2Video-Zero

(3)描述

  • zero-shot 实现文本-视频生成扩散模型,仅仅使用现有的扩散模型如Stable-Diffusion。
  • 丰富了基于生成的图像帧的latent 特征空间进行运动动态编码,并使用跨帧注意力来重新编程帧级别的Self-Attention,以保持生成场景和背景的一致性。
  • 该方法并不局限于文本到视频的合成,而是也适用于其他任务,例如条件和内容专用的视频生成,以及pix2pix,文本引导的视频编辑。

体验Demo:ModelScope Text To Video Synthesis

(四)文生音乐

举世无双语音合成系统 VITS 发展历程

1 Retrieval-based-Voice-Conversion

(1)参考资料

(2)开源地址https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

(3)描述

  • 一个基于VITS的简单易用的语音转换(变声器)框架
  • 一种利用专门的神经网络将一个人的声音转换为另一个人的声音的方法。该方法依赖于先进的VITS模型,它是一种用于将文本转换为语音的尖端系统。即使在数据和计算能力有限的情况下,Retrieval-based Voice Conversion也能够创建逼真且富有表现力的语音转换。

2 Grad-SVC

(1)参考资料https://www.bilibili.com/video/BV1pu4y1C7YC/

(2)开源地址https://github.com/PlayVoice/Grad-SVC

(3)描述
在这里插入图片描述

3 dc-comix-tts

(1)参考资料:/

(2)开源地址https://github.com/lakahaga/dc-comix-tts

(3)描述

  • 端到端的离散代码表达TTS与Mixer的协作
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【精华】AIGC专栏-Text/Img/Video/audio 的相关文章

  • Python的PIL库

    Python图像库PIL Python Image Library 是python的第三方图像处理库 图像类Image class Image类是PIL中的核心类 比如从文件中加载一张图像 处理其他形式的图像 或者是从头创造一张图像等 Im
  • opencv畸变校正的两种方法

    opencv中畸变校正有两种方法 1 undistort 直接进行畸变校正 void cv undistort InputArray src 原始图像 OutputArray dst 矫正图像 InputArray cameraMatrix
  • GPT系列训练与部署——GPT2环境配置与模型训练

    本文为博主原创文章 未经博主允许不得转载 本文为专栏 Python从零开始进行AIGC大模型训练与推理 系列文章 地址为 https blog csdn net suiyingy article details 130169592 Colo
  • OpenCV 笔记(9):常用的边缘检测算子—— Roberts、Prewitt、Sobel

    在本文开始之前 我们先了解一下算子的概念 算子 英语是 Operator 它是一个函数空间到函数空间上的映射 O X X 广义上的算子可以推广到任何空间 函数 是从数到数的映射 泛函 是从函数到数的映射 算子 是从函数到函数的映射 算子不等
  • 人工智能机器人:未来生活的智能伙伴

    导言 随着人工智能的不断进步 智能机器人正逐渐走入人们的日常生活 成为了生活和工作中的得力助手 本文将深入探讨人工智能机器人的发展趋势 关键技术以及对未来生活的影响 人工智能和机器人技术的迅猛发展正在深刻地改变我们的生活和工作方式 本文将深
  • 软件测试/人工智能丨常见的计算机视觉的业务场景有哪些?计算原理和测试指标

    计算机视觉在各种业务场景中都有广泛的应用 以下是一些常见的计算机视觉的业务场景 以及与之相关的计算原理和测试指标 图像识别和分类 业务场景 识别图像中的对象 场景或模式 如物体识别 人脸识别 计算原理 使用卷积神经网络 CNN 等深度学习模
  • 软件测试/人工智能丨计算机视觉常见业务场景,计算原理和测试指标

    计算机视觉是利用计算机系统对图像 视频或其他视觉数据进行解释和处理的领域 在各个行业中 计算机视觉被广泛应用 以下是一些常见的计算机视觉的业务场景 计算原理以及相关的测试指标 1 人脸识别 业务场景 安防系统 通过人脸识别技术进行门禁控制
  • 人工智能与底层架构:构建智能引擎的技术支柱

    导言 人工智能与底层架构的交融塑造了智能系统的基石 是推动智能时代发展的关键动力 本文将深入研究人工智能在底层架构中的关键作用 以及它对智能引擎的技术支持 探讨人工智能在计算机底层架构中的作用 以及这一融合如何塑造数字化未来 1 人工智能与
  • 目标检测深度学习的anchor

    在目标检测深度学习中 Anchor是一种预定义的框 用于在图像中采样不同位置 尺度和长宽比例的区域 作为目标检测模型的候选区域 Anchor是Faster R CNN等基于Anchor的目标检测算法的核心概念 具体来说 Anchor有以下几
  • 深度学习目标检测全连接层什么意思

    在深度学习目标检测中 通常我们使用卷积神经网络 Convolutional Neural Network CNN 进行特征提取 CNN 的主要结构包括卷积层和池化层 用于从输入图像中提取特征 然而 为了最终输出目标的类别和位置信息 通常在网
  • 得帆信息创始人-张桐,受邀出席 BV百度风投AIGC主题论坛

    近日 得帆信息创始人兼CEO张桐 作为百度风投被投代表企业创始人受邀出席 向未来 共成长 BV百度风投AIGC主题论坛 与包括上海市徐汇区相关部门领导 百度集团相关事业部负责人及代表 以及来自国寿资本 中网投 麦顿投资的投资人 BV百度风投
  • 新书推介——《AI摄影绘画与PS优化从入门到精通》

    在这个数字化时代的浪潮中 人工智能技术以其惊人的创造力和创新性席卷全球 从智能助手到自动驾驶 从自然语言处理到机器学习 AI正日益成为我们日常生活和各个领域不可或缺的一部分 摄影和绘画领域也不例外 AI技术为我们提供了前所未有的创作和表达方
  • 图像相关知识点及属性介绍

    图像常用属性指标 图像的常用属性指标有以下几个 分辨率 分辨率是指图像中可以显示的水平和垂直像素数 较高的分辨率意味着图像具有更多的细节和更高的清晰度 常用单位有像素 px 或者万像素 MP 色彩深度 色彩深度是指图像中每个像素可以表示的不
  • Learn to Explain: Multimodal Reasoning viaThought Chains for Science Question Answering科学问答的思维链

    关于 ScienceQA 模仿 回答 ScienceQA 问题时的多跳推理过程 ScienceQA 展示了以下功能的实用性 语言模型中的 CoT 因为 CoT 在少样本 GPT 3 中将问答性能提高了 1 20 微调的 UnifiedQA
  • 详解数据科学自动化与机器学习自动化

    过去十年里 人工智能 AI 构建自动化发展迅速并取得了多项成就 在关于AI未来的讨论中 您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语 事实上 这些术语有着不同的定义 如今的自动化机器学习 即 AutoML 特指模型构
  • 图像分割-Grabcut法(C#)

    版权声明 本文为博主原创文章 转载请在显著位置标明本文出处以及作者网名 未经作者允许不得用于商业目的 本文的VB版本请访问 图像分割 Grabcut法 CSDN博客 GrabCut是一种基于图像分割的技术 它可以用于将图像中的前景和背景分离
  • 如何解决Mybatis-plus与Mybatis不兼容的问题:An attempt was made to call a method that does not exist. The attempt

    博主猫头虎的技术世界 欢迎来到 猫头虎的博客 探索技术的无限可能 专栏链接 精选专栏 面试题大全 面试准备的宝典 IDEA开发秘籍 提升你的IDEA技能 100天精通Golang Go语言学习之旅 领域矩阵 猫头虎技术领域矩阵 深入探索各技
  • 文档扫描与矫正-仿射变换

    图像变换是计算机视觉和图像处理中的关键技术之一 它允许我们对图像进行各种形式的变形 调整和校正 其中 仿射变换是一种常见的变换方式 在文档扫描过程中 由于拍摄角度和畸变等原因 文档图像可能存在一定程度的形变 仿射变换可以用于校正文档图像 使
  • 【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 图像 文章
  • 3D点云检测神技 | UFO来了!让PointPillars、PV-RCNN统统涨点!

    作者 AI驾驶员 编辑 智驾实验室 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 3D目标检测 技术交流群 本文只做学术分享 如有侵权 联系删文 在这篇论文中提出了一个关于在3D点云中检测未

随机推荐

  • cadence 介绍

    转载自 SI list 中国 http mp weixin qq com s qsdfzQwIVjvwHXuCdvrPXA 本篇对2017年初版Cadence的全套所有EDA工具的技术特性特点做一深入的分析 并与EDA其它主流厂商的对应工具
  • 用数据库修改服务器的时间格式,如何查询数据库服务器的时间格式

    如何查询数据库服务器的时间格式 内容精选 换一换 CDM支持文件类数据到表的迁移 本章节以OBS gt MySQL为例 介绍如何通过CDM将文件类数据迁移到表中 流程如下 创建CDM集群并绑定EIP创建MySQL连接创建OBS连接创建迁移作
  • JDBC 连接MySQL 数据库并查询数据

    JDBC 连接MySQL 数据库并查询数据 一 Mysql安装 二 JDBC 连接MySQL 一 Eclipse新建项目 二 导入Mysql的包 三 建立数据库并查询数据 一 新建mysql数据库 二 JDBC 连接MySQL 数据库并查询
  • STC15F2K60S2内部EEPROM的读写操作

    一 STC15F2K60S2单片机内部EEPROM的介绍 STC15系列单片机内部集成了大容量的EEPROM 其与程序空间是分开的 利用ISP IAP技术可将内部Date Flash当EEPROM 擦写次数在10万次以上 EEPROM可分为
  • 修复PHP扫描漏洞

    1 TLS 1 0 enabled 报告描述 修复方案 参考网站 https blog csdn net a1368783069 article details 85064682 如果使用chrome浏览器依次打开 右键 gt 审查 ins
  • python paramiko模块sftp异常:paramiko.ssh_exception.SSHException: EOF during negotiation

    python paramiko模块sftp异常 paramiko ssh exception SSHException EOF during negotiation 参考文章 1 python paramiko模块sftp异常 parami
  • 华为云DevCloud让软件开发更加高效智能, DevOps不止于美

    高速的中子撞击U235原子核 使其分裂成两个原子核 释放出巨大能量 同时产生的几个中子再去撞击其它原子核 形成链式反应 使得核裂变会无限的产生巨大的能量 将高速的中子比喻成人类的创新思想 原子核就是我们目前的业务 当创新思想碰撞当前业务 就
  • 矿 第三次数据结构实验

    问题 A 任意二叉树的层次遍历 题目描述 有若干个节点 每个节点上都有编号 把这些节点随意地构成二叉树 请编程输出该二叉树的层次遍历序列 输入 第一行是n n小于100 表示有n个节点 每个节点按从1到n依次编号 第一行后有n行 每行三个正
  • Burp Suite 功能介绍

    Target 获取目标应用程序的详细信息 Proxy Proxy是BurpSuite最核心的部分 通过拦截 查看和修改所有的请求和响应您的浏览器与目标Web服务器之间传递 Spider Burp Spider 能使你清楚地了解到一个 web
  • ps保存html和图像格式不显示,photoshop保存web格式不能显示该怎样解决

    在photoshop里面处理完图片保存有的时候会选择web格式 可是保存完了发现不能显示怎么解决 尝试了多次还没有找到解决方法的你 可以看看小编为你推荐的关于保存web格式不能显示的解决方法 想必会对你有帮助 photoshop保存web格
  • MySQL的安装配置

    在Windows系统上配置MySQL数据库 您可以按照以下步骤进行 下载安装MySQL 在官方网站上下载MySQL安装程序 并按照提示安装MySQL 建议下载最新版本的MySQL 以获取更好的性能和安全性 安装界面选择服务器端 设置MySQ
  • #pragma once 与 #ifndef...#define...#endif的比较

    C 中防止头文件被多次include 的常见方式有 用 ifndef define endif 宏 ifndef MYHEAD H define MYHEAD H Here is my class endif 这个是C 语言相关 这是C 语
  • WebFlux使用ServerHttpRequest出现找不到构造

    使用ServerHttpRequest异常 异常 java lang IllegalStateException No primary or single public constructor found for interface org
  • 掌握Python的X篇_35_用Python为美女打码_图像库Pillow

    本篇将会介绍python中的一个图像库Pillow 文章目录 1 Pillow与PIL的关系 2 调整大小 3 加滤镜 4 剪裁 5 生成验证码 1 Pillow与PIL的关系 我们在网上搜python的图像库的话 可能搜到的时PIL 实际
  • snipaste使用教程介绍

    snipaste是一个简单但强大的截图工具 但是很多用户下载之后都不知道怎么用 今天小编带来的内容就是snipaste使用方法教程 Win10纯净版 Win10 64位纯净版 Win10纯净精简版系统下载 系统部落 1 打开Snipaste
  • zynq开发,在SDK中自动生成的IP核驱动文件出现错误解决办法

    ZYNQ开发 在SDK中自动生成的IP核驱动文件出现错误解决办法 zynq开发 在SDK中出现IP驱动文件报错 寻找错误原因 对比 为什么出现这种情况 Block Design查看问题 最后 zynq开发 在SDK中出现IP驱动文件报错 报
  • STM32CUBEMX+FreeRTOS开发笔记3-----按键选择任务挂起

    按键初始化 和上次一样 复制上次的串口文件 改成keytask 打开cubemx工程 将PA3设置成中断线3模式 并将标签改为key1 使能中断线3 添加按键任务 生成代码即可 进入工程 查看中断线3函数 找到callback函数 因为中断
  • 《ESP32-Arduino》LVGL之输入设备详解及实例(触摸屏,实体按键,编码器,多功能按键)

    前言 好久没写博客了 一方面是平时着实没有时间 另一方面是知识还是欠缺 实在没啥技术拿得出手 其实更主要的还是懒 最近玩的比较多的就是LVGL了 自己也是做了几个小项目 后续考虑开源 考虑到网上LVGL入门教程还是比较少 特此出来写篇博客
  • Android移动开发-在Android项目里调用基于百度地图API实现定位

    基于地理位置服务的Android平台的开发对Android移动开发来说是非常重要的 基于地理位置服务的Android平台的开发是主要用于Android系统作为载体 我们可以利用定位出的位置进行许多丰富多彩的操作 比如说天气预报程序可以根据用
  • 【精华】AIGC专栏-Text/Img/Video/audio

    一 LLM专栏 大模型相关技术原理以及实战经验 liguodongiot llm action 1 ColossalAI 1 参考资料 700 亿参数 LLaMA2 训练加速 195 基础大模型最佳实践再升级 2 开源地址 https gi