每日学术速递5.3

2023-10-27

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Learning Locally Editable Virtual Humans

标题:学习本地可编辑虚拟人

作者:Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges

文章链接:https://arxiv.org/abs/2305.00121

项目代码:https://custom-humans.github.io/

摘要:

        在本文中,我们提出了一种新颖的混合表示和端到端可训练网络架构来对完全可编辑和可定制的神经化身进行建模。我们工作的核心在于将神经场的建模能力与蒙皮网格的易用性和固有 3D 一致性相结合的表示。为此,我们构建了一个可训练的特征码本来存储可变形身体模型顶点上的局部几何和纹理特征,从而利用其在关节下的一致拓扑结构。然后将这种表示用于生成式自动解码器架构,该架构允许适合看不见的扫描和对具有不同外观和几何形状的逼真化身进行采样。此外,我们的表示允许通过在 3D 资产之间交换局部特征来进行局部编辑。为了验证我们的头像创建和编辑方法,我们贡献了一个新的高质量数据集,称为 CustomHumans,用于训练和评估。我们的实验定量和定性地表明,与最先进的方法相比,我们的方法生成了多种详细的化身并实现了更好的模型拟合性能。我们的代码和数据集可在此 https URL 上获得。

2.It is all about where you start: Text-to-image generation with seed selection

标题:这一切都与您的起点有关:通过种子选择生成文本到图像

作者:Dvir Samuel, Rami Ben-Ari, Simon Raviv, Nir Darshan, Gal Chechik

文章链接:https://arxiv.org/abs/2304.14530

项目代码:https://github.com/microsoft/AdaM

v摘要:

        文本到图像的扩散模型可以在新的构图和场景中综合各种概念。然而,他们仍然难以生成不常见的概念、罕见的不寻常组合或像手掌这样的结构化概念。它们的局限性部分是由于其训练数据的长尾性质:网络抓取的数据集非常不平衡,导致模型无法充分代表分布尾部的概念。在这里,我们描述了不平衡训练数据对文本到图像模型的影响,并提供了补救措施。我们表明,通过在噪声空间中仔细选择合适的生成种子,可以正确生成稀有概念,我们称之为 SeedSelect 的技术。SeedSelect 是高效的,不需要重新训练扩散模型。我们评估了 SeedSelect 在一系列问题上的优势。首先,在少样本语义数据增强中,我们为少样本和长尾基准生成语义正确的图像。我们展示了所有类别的分类改进,包括扩散模型训练数据的头部和尾部。我们进一步评估了 SeedSelect 在校正手部图像时的效果,这是当前扩散模型的一个众所周知的缺陷,并表明它显着改善了手部生成。

3.GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation

标题:GeneFace++:通用且稳定的实时音频驱动 3D 说话人脸生成

作者:Zhenhui Ye, Jinzheng He, Ziyue Jiang, Rongjie Huang, Jiawei Huang, Jinglin Liu, Yi Ren, Xiang Yin, Zejun Ma, Zhou Zhao

文章链接:https://arxiv.org/abs/2305.00787

项目代码:https://genefaceplusplus.github.io/

摘要:

        用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。最近,神经辐射场(NeRF)成为该领域流行的渲染技术,因为它可以通过几分钟的训练视频实现高保真和 3D 一致的说话人脸生成。然而,基于 NeRF 的方法仍然存在一些挑战:1)对于口型同步,很难生成具有高时间一致性和音频口型精度的长面部运动序列;2)在视频质量方面,由于用于训练渲染器的数据有限,容易受到域外输入条件的影响,偶尔会产生糟糕的渲染结果;3) 至于系统效率,vanilla NeRF 缓慢的训练和推理速度严重阻碍了它在实际应用中的使用。在本文中,我们提出了 GeneFace++ 来应对这些挑战:1)利用音调轮廓作为辅助特征,并在面部运动预测过程中引入时间损失;2) 提出一种地标局部线性嵌入方法来调节预测运动序列中的异常值,以避免鲁棒性问题;3) 设计一个计算高效的基于 NeRF 的运动到视频渲染器,以实现快速训练和实时推理。通过这些设置,GeneFace++ 成为第一个基于 NeRF 的方法,可以通过广义的音频-嘴唇同步实现稳定和实时的说话人脸生成。大量实验表明,我们的方法在主观和客观评估方面优于最先进的基线。此 https URL 提供了视频示例。

 

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

每日学术速递5.3 的相关文章

随机推荐

  • P1102 A-B 数对

    include
  • 图解python吴灿铭网盘_正版 图解算法 使用Python 吴灿铭 数据结构程序调试方法技巧书数组堆栈链表队列算法书Pytho...

    第1章进入算法的世界1 1 1生活中到处都是算法2 1 1 1算法的定义3 1 1 2算法的条件4 1 1 3时间复杂度O f n 6 1 2常见算法简介7 1 2 1分治法8 1 2 2递归法9 第1章进入算法的世界1 1 1生活中到处都
  • vue后台管理系统(通用模板)

    后台管理通用框架 源码 GitHub 亲测有效 预览地址 目前 包含 动态侧边导航栏渲染 面包屑 通知 主题 富文本等 1 登陆 2 工作台 3 通知 4 主题 5 发邮件 6 通知详情 目前可实现Excel表格下载 请见MarkDown文
  • HoloLens MRTK2.7 Unity2020 URP

    先提供工程下载链接 链接 https pan baidu com s 11LUGRzaTBxWOjUFwjZBKLQ 提取码 8xy6 优点 XR Plugin已经融合了MR AR VR 工程不用修改可以打包不同平台 可以使用ShaderG
  • arm linux ntfs_Linux驱动02

    一 启动过程 上电 gt uboot gt 加载linux内核 gt 挂载根文件系统 gt 执行应用程序 emmm 接下来会对uboot linux内核 跟文件系统分析 二 uboot 1 什么是uboot uboot其实就是一个通用的引导
  • Python打开图像始终提示错误error:(-215) size.width>0 && size.height>0

    用Python打开图像始终提示错误 cv2 error C projects opencv python opencv modules highgui src window cpp 331 error 215 size width gt 0
  • 深度学习之CNN卷积神经网络

    详解卷积神经网络 CNN 卷积神经网络 Convolutional Neural Network CNN 是一种前馈神经网络 它的人工神经元可以响应一部分覆盖范围内的周围单元 对于大型图像处理有出色表现 概揽 卷积神经网络 Convolut
  • DNS over HTTPS来阻止DNS污染

    DNS 域名系统 的主要功能是将域名解析成IP地址 域名的解析工作由DNS服务器完成 从安全角度来看 域名解析的请求传输时通常不进行任何加密 这导致第三方能够很容易拦截用户的DNS 将用户的请求跳转到另一个地址 常见的攻击方法有DNS劫持和
  • 9.多重循环结构和程序调试

    2022 9 3 记录学习java的第九天 今天主要学习了多种循环的嵌套使用和程序调试 1 多重循环 使用方法 1 相同循环可以互相嵌套使用 2 各循环之间可以互相嵌套使用 3 外循环变量改变一次 内循环变量要从头到尾变化一遍 即 内循环是
  • 单链表算法实现, 查找, 删除, 销毁

    从链表的指定位置读取参数 从链表中查找第i个元素 用e来保存查找元素的数据 指定位置读取参数 list 头节点 i 要读取的位置 e 保存读取的元素 bool Link GetElem LinkList list int i int e i
  • 数组的indexOf 方法

    1 数组的indexOf 方法 String 类型的使用 let str orange str indexOf o 0 字符串中出现字母 o 的位置 str indexOf n 3 字符串中出现字母 n 的位置 str indexOf c
  • vue封装公共组件库并发布到npm库详细教程

    vue组件封装的原理 利用vue框架提供的api Vue use plugin 我们需要把封装好组件的项目打包成vue库 并提供install方法 然后发布到npm中 Vue use plugin 的时候会自动执行插件中的install方法
  • STM32CubeMX驱动ADS1118模块

    文章目录 1 前言 2 ADS1118模块简介 3 移植源码到工程 4 驱动源码中函数介绍 4 1 us延时函数 4 2 写入和读取ADS1118配置寄存器 4 3 初始化ADS1118 4 4 测量电压函数 5 实验 5 1 单通道采样
  • 2022年软件测试面试题大全【含答案】

    一 面试基础题 简述测试流程 1 阅读相关技术文档 如产品PRD UI设计 产品流程图等 2 参加需求评审会议 3 根据最终确定的需求文档编写测试计划 4 编写测试用例 等价类划分法 边界值分析法等 5 用例评审 主要参与人员 开发 测试
  • mysql drivermanager_jdbc详解:2、DriverManager管理多个数据库驱动

    先上代码 static String driverName com mysql jdbc Driver static String url jdbc mysql 127 0 0 1 3306 mysql static String user
  • react+ts+vite

    项目结构初始 1 使用vite构建项目 2 script常见用法 host 显示地址 port 端口号 设置端口号 open 编译后自动打开 3 配置 路径 项目路径别名的配置 ts对 指向src的目录提示是不支持的 所以需要手动配置 符号
  • Anaconda 打开时卡在Initializing(打不开)

    找到的一种说法是anaconda有个广告载入功能 这个功能需要联网 但国内网络环境有时候连不上目标网络 所以打开anaconda navigator的时候会因为网络问题一直卡在Initializing 解决的方法 方法一 把网络断开 没有了
  • 进入虚拟机 networkManager is not running 问题

    运行 systemctl restart NetworkManager命令 重启网络管理
  • java--基础--23--接口组成更新

    java 基础 23 接口组成更新 代码 https gitee com DanShenGuiZu learnDemo tree mysql mybaties DB jdk8 learn 1 接口组成更新 常量 public static
  • 每日学术速递5.3

    CV 计算机视觉 ML 机器学习 RL 强化学习 NLP 自然语言处理 Subjects cs CV 1 Learning Locally Editable Virtual Humans 标题 学习本地可编辑虚拟人 作者 Hsuan I H