当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？

2024-01-31

我正在尝试编写一个 OpenGL 包装器，它允许我使用所有现有的图形代码（为 OpenGL 编写），并将 OpenGL 调用路由到 Direct3D 等效项。到目前为止，这种方法的效果出人意料地好，只是性能被证明是一个很大的问题。

现在，我承认我很可能以一种从未设计过的方式使用 D3D。我在每个渲染循环中更新单个顶点缓冲区数千次。每次我绘制一个“精灵”时，我都会向 GPU 发送 4 个带有纹理坐标等的顶点，当屏幕上的“精灵”数量一次达到大约 1k 到 1.5k 时，我的应用程序的 FPS 会下降到低于 10 fps。

使用 VS2012 性能分析（顺便说一句，非常棒），我可以看到 ID3D11DeviceContext->Draw 方法占用了大部分时间：截图在这里 https://i.stack.imgur.com/trHOr.png

在设置顶点缓冲区时或在绘制方法期间是否有某些设置未正确使用？对所有精灵使用相同的顶点缓冲区真的非常糟糕吗？如果是这样，我还有哪些其他选项不会彻底改变我现有图形代码库的架构（围绕 OpenGL 范例构建......每帧将所有内容发送到 GPU！）

游戏中最大的 FPS 杀手是当我在屏幕上显示大量文本时。每个角色都是一个纹理四边形，每个角色都需要单独更新顶点缓冲区并单独调用 Draw。如果 D3D 或硬件不喜欢多次调用 Draw，那么您还能如何一次在屏幕上绘制大量文本呢？

如果您还想查看更多代码来帮助我诊断此问题，请告诉我。

Thanks!

这是我运行的硬件：

酷睿 i7 @ 3.5GHz
16 GB 内存
GeForce GTX 560 Ti

这是我正在运行的软件：

Windows 8 发布预览
VS 2012
DirectX 11

下面是绘制方法：

void OpenGL::Draw(const std::vector<OpenGLVertex>& vertices)
{
   auto matrix = *_matrices.top();
   _constantBufferData.view = DirectX::XMMatrixTranspose(matrix);
   _context->UpdateSubresource(_constantBuffer, 0, NULL, &_constantBufferData, 0, 0);

   _context->IASetInputLayout(_inputLayout);
   _context->VSSetShader(_vertexShader, nullptr, 0);
   _context->VSSetConstantBuffers(0, 1, &_constantBuffer);

   D3D11_PRIMITIVE_TOPOLOGY topology = D3D11_PRIMITIVE_TOPOLOGY_TRIANGLESTRIP;
   ID3D11ShaderResourceView* texture = _textures[_currentTextureId];

   // Set shader texture resource in the pixel shader.
   _context->PSSetShader(_pixelShaderTexture, nullptr, 0);
   _context->PSSetShaderResources(0, 1, &texture);

   D3D11_MAPPED_SUBRESOURCE mappedResource;
   D3D11_MAP mapType = D3D11_MAP::D3D11_MAP_WRITE_DISCARD;
   auto hr = _context->Map(_vertexBuffer, 0, mapType, 0, &mappedResource);
   if (SUCCEEDED(hr))
   {
      OpenGLVertex *pData = reinterpret_cast<OpenGLVertex *>(mappedResource.pData);
      memcpy(&(pData[_currentVertex]), &vertices[0], sizeof(OpenGLVertex) * vertices.size());
      _context->Unmap(_vertexBuffer, 0);
   }

   UINT stride = sizeof(OpenGLVertex);
   UINT offset = 0;
   _context->IASetVertexBuffers(0, 1, &_vertexBuffer, &stride, &offset);
   _context->IASetPrimitiveTopology(topology);
   _context->Draw(vertices.size(), _currentVertex);
   _currentVertex += (int)vertices.size();
}

这是创建顶点缓冲区的方法：

void OpenGL::CreateVertexBuffer()
{
   D3D11_BUFFER_DESC bd;
   ZeroMemory(&bd, sizeof(bd));
   bd.Usage = D3D11_USAGE_DYNAMIC;
   bd.ByteWidth = _maxVertices * sizeof(OpenGLVertex);
   bd.BindFlags = D3D11_BIND_VERTEX_BUFFER;
   bd.CPUAccessFlags = D3D11_CPU_ACCESS_FLAG::D3D11_CPU_ACCESS_WRITE;
   bd.MiscFlags = 0;
   bd.StructureByteStride = 0;
   D3D11_SUBRESOURCE_DATA initData;
   ZeroMemory(&initData, sizeof(initData));
   _device->CreateBuffer(&bd, NULL, &_vertexBuffer);
}

这是我的顶点着色器代码：

cbuffer ModelViewProjectionConstantBuffer : register(b0)
{
    matrix model;
    matrix view;
    matrix projection;
};

struct VertexShaderInput
{
    float3 pos : POSITION;
    float4 color : COLOR0;
    float2 tex : TEXCOORD0;
};

struct VertexShaderOutput
{
    float4 pos : SV_POSITION;
    float4 color : COLOR0;
    float2 tex : TEXCOORD0;
};

VertexShaderOutput main(VertexShaderInput input)
{
    VertexShaderOutput output;
    float4 pos = float4(input.pos, 1.0f);

    // Transform the vertex position into projected space.
    pos = mul(pos, model);
    pos = mul(pos, view);
    pos = mul(pos, projection);
    output.pos = pos;

    // Pass through the color without modification.
    output.color = input.color;
    output.tex = input.tex;

    return output;
}

您需要做的是尽可能积极地批处理顶点，然后绘制大块。我非常幸运地将其改装到旧的即时模式 OpenGL 游戏中。不幸的是，这样做有点痛苦。

最简单的概念解决方案是使用某种设备状态（您可能已经在跟踪）来为特定的顶点集创建唯一的标记。混合模式和绑定纹理之类的东西是一个很好的集合。如果您可以找到一种快速哈希算法来在其中的结构上运行，则可以非常有效地存储它。

接下来，您需要进行顶点缓存。有两种方法可以解决这个问题，两者都有优点。最激进、最复杂，并且在许多具有相似属性的顶点集的情况下，最有效的方法是创建一个设备状态结构，分配一个大的（比如 4KB）缓冲区，然后继续在其中存储具有匹配状态的顶点。大批。然后，您可以将整个数组转储到帧末尾的顶点缓冲区中，并绘制缓冲区的块（以重新创建原始顺序）。然而，跟踪所有缓冲区、状态和顺序很困难。

更简单的方法是在大缓冲区中缓存顶点，直到设备状态发生变化，这种方法可以在良好的情况下提供良好的缓存。在那时候，在实际改变状态之前，将数组转储到顶点缓冲区并绘制。然后重置数组索引，提交状态更改，然后再次进行。

如果您的应用程序有大量相似的顶点，这很可能与精灵一起使用（纹理坐标和颜色可能会改变，但好的精灵将使用单个纹理图集和很少的混合模式），即使是第二种方法也可以带来一些性能提升。

这里的技巧是在系统内存中建立一个缓存，最好是一大块预先分配的内存，然后在绘制之前将其转储到视频内存。这使您可以执行更少的视频内存写入和绘图调用，而这往往很昂贵（尤其是一起）。正如您所看到的，您发出的调用数量会变得很慢，而批处理很有可能会对此有所帮助。诀窍是，如果可以的话，不要为每一帧分配内存，批处理足够大的块是值得的，并为每次绘制维护正确的设备状态和顺序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？的相关文章

PostgreSQL：在所有表字段的长度上创建索引

我有一张桌子叫profile 我想按照填写最多的内容对它们进行排序每列都是 JSONB 列或 TEXT 列我不需要很大程度的确定性所以通常我会按如下方式订购 SELECT FROM profile ORDER BY LENGTH CO
如何在 C++ 中对静态缓冲区执行字符串格式化？

我正在处理一段对性能要求非常高的代码我需要执行一些格式化的字符串操作但我试图避免内存分配甚至是内部库的内存分配在过去我会做类似以下的事情假设是 C 11 constexpr int BUFFER SIZE 200 char bu
加快写入文件的速度

我已经分析了一些我用 cProfile 继承的遗留代码我已经做了很多有帮助的更改例如使用 simplejson 的 C 扩展基本上该脚本将数据从一个系统导出到 ASCII 固定宽度文件每一行都是一条记录并且有许多值每行有 71
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
Xcode“使用性能工具运行”被禁用？

我正在尝试从我的 Xcode 项目中查找内存泄漏我不知道发生了什么我无法选择任何内容Run gt Run with performance tool 事物列表被禁用请帮助我我是初学者问题是我已经删除了构建文件夹并尝试使用性能工具运
为单个方法引用大 DLL

我想在 C 中使用大型类库 dll 中的单个方法是否有性能或其他方面的缺点我应该使用反射工具读取方法代码并将其复制粘贴到我的项目中吗更新硬盘空间不是问题我的应用程序是网络应用程序是否有性能或其他方面的缺点唯一真正重要的是可
有没有办法分析 WCF 应用程序的性能？

我们正在尝试测量我们的系统的性能该系统是一个使用 WCF 调用的 NET 3 5 应用程序问题是到目前为止我们无法分析这些调用中的方法编写了一个 winforms 客户端应用程序来测试我们的系统我们尝试使用ANTS 4 Profi
.NET 图形重影

我正在为我们正在开发的新应用程序制作一个示例 GUI 我已经决定了语言但我可以使用任何第 3 方 DLL 或插件或任何我需要的东西以使 GUI 尽可能无缝地工作他们希望它非常像 mac ubuntu vista Windows 7 所
java charAt() 和startsWith() 哪个更快？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我的问题是如果我想检查特定索引中字符串的一个字符仅检查一个字符哪种方法非常有效charAt or startsWith 我的意思是据我所
R：使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点？

我有一个 R 包它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环很大程度上依赖于 BLAS 和 LAPACK 例程作为 Fortran 的接口我使用 Fortran功能我刚刚读过乔纳森卡拉汉的博客文章 http
为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
时间复杂度和运行时间有什么区别？

时间复杂度和运行时间有什么区别它们是一样的吗运行时间是指程序运行所需的时间时间复杂度是对输入大小趋于无穷大时运行时间渐进行为的描述您可以说运行时间是 O n 2 或其他什么因为这是描述复杂性类和大 O 表示法的惯用方式事实上
通过增加索引之和来生成排序组合的有效方法

对于启发式算法我需要一个接一个地评估特定集合的组合直到达到停止标准由于它们很多目前我正在使用以下内存高效迭代器块生成它们受到 python 的启发 itertools combinations http docs python o
在 C/C++ 中获得正模数的最快方法

通常在我的内部循环中我需要以环绕方式索引数组因此例如如果数组大小为 100 并且我的代码要求元素 2 则应该给它元素 98 高级语言例如 Python 可以简单地使用my array index array size 但由于某
优化 LATERAL join 中的慢速聚合

在我的 PostgreSQL 9 6 2 数据库中我有一个查询该查询根据一些股票数据构建计算字段表它为表中的每一行计算 1 到 10 年的移动平均窗口并将其用于周期性调整具体来说 CAPE CAPB CAPC CAPS 和 CAP
.pdbs 会减慢发布应用程序的速度吗？

如果 dll 中包含 pdb 程序调试文件则行号将出现在引发的任何异常的堆栈跟踪中这会影响应用程序的性能吗这个问题与发布与调试即优化无关这是关于拥有 pdb 文件的性能影响每次抛出异常时都会读取 pdb 文件吗加载程序集时
Paper.js 中的事件处理程序

我是 Paper js 的新手在阅读教程时我对事件系统感到好奇这就是事件处理中描述的方式tutorial http paperjs org tutorials interaction mouse tool events var path
Haskell：IORef 的性能

我一直在尝试在 Haskell 中编码一个需要使用大量可变引用的算法但与纯粹的惰性代码相比它也许并不奇怪非常慢考虑一个非常简单的例子 module Main where import Data IORef import Contr
Pandas hub_table 更快的替代品

我正在使用熊猫pivot table在大型数据集 1000 万行 6 列上运行由于执行时间至关重要因此我尝试加快流程目前处理整个数据集大约需要 8 秒这太慢了我希望找到替代方案来提高速度性能我当前的 Pandas 数据透视
如何用 kevent() 替换 select() 以获得更高的性能？

来自Kqueue 维基百科页面 http en wikipedia org wiki Kqueue Kqueue 在内核和用户空间之间提供高效的输入和输出事件管道因此可以修改事件过滤器以及接收待处理事件同时每次主事件循环迭代仅使用对

随机推荐

jQuery .on keyup 和模糊仅触发 onload

问题这blur and keyup每个事件在 onload 时触发一次并且仅在 onload 时触发我怎样才能让它们正常工作 jQuery function myFunction text alert text input1 on k
根据特定数组的长度对变量进行分组

我在数据集中有一长串变量其中包含多个time不同采样率的通道例如time 1 time 2 TIME Time等等还有多个其他变量取决于这些时间中的任何一个我想列出包含时间的所有可能通道工作区中不区分大小写的部分字符串搜索并
为什么 savefig 和plot 命令必须位于 IPython 笔记本中的同一单元格中？

我试图从 IPython 笔记本中导出一些图搜索我发现这个问题 https stackoverflow com questions 13642528 how to export figures to files from ipython
检测用户是否正在滚动

如何在 javascript 中检测用户是否正在滚动这有效 window onscroll function e called when the window is scrolled edit 你说这是一个 TimeInterval 中的
webpack-dev-server 如何在不刷新页面的情况下重新加载 css

当我更改 vue 文件和 css 文件中的样式时我不希望页面刷新并且希望样式自动更改但现在当我更改样式时页面总是刷新我正在使用 vue cli 生成 webpack 配置文件 as below webpack dev conf js
使用 Meteor.js 进行抓取

我可以使用meteor js 进行抓取吗刚刚发现cheerio结合起来效果很好request 我可以将它们与流星一起使用吗或者有类似的东西吗你有一个可行的例子吗当然很难想象还有什么是流星做不到的首先您需要一些东西来处理远程 h
nuxt.js 文档未定义，pugin 出现问题

我添加了插件 vue burger menu to my nuxt js项目我有一个错误 document is not defined 我知道这个插件仅适用于客户端于是我在vue文档中找到了在此输入链接描述 https nuxtjs
使用 ksoap2-android 时出现异常

我有一个关于 ksoap2 的问题我的问题是该项目曾经运行良好直到我不得不格式化我的电脑并再次设置它我不记得我在应用程序中引用了哪个版本但我尝试了很多版本但问题仍然出现 04 05 13 56 18 289 E dalvikvm
将不相关的存储库导入到另一个存储库分支

我在 stackoverflow 上尝试了很多答案但似乎没有一个能完全按照我想要的方式工作基本上我有一个主存储库我创建了一个分支例如功能并且我需要添加另一个完全不相关的存储库作为此功能分支的文件夹我还需要从导入存储库中获取
双文件类型扩展：Sublime Text 3 中的正确语法突出显示

我正在和一些人一起工作 scss liquid文件它们总是以 HTML Liquid 的形式打开无论我设置语法多少次 Update I tried 打开所有当前扩展名为选项但不幸的是这会影响以下文件 js liquid and htm
如果文本改变了大小，并且小部件改变了大小

第一次尝试 https i stack imgur com kN2RQ gif 在这里您可以看到字体如何更改大小以及文本小部件如何更改大小我需要文本小部件来保持其大小我尝试在框架中创建一个文本小部件并制作frm grid propaga
如何在kubectl部署中传递环境变量？

我正在为 django webapp 设置 kubernetes 设置我在创建部署时传递环境变量如下所示 kubectl create f deployment yml l key1 value1 我收到如下错误 error no ob
如何从 SQL Server 数据库中的表中删除或更改多个数据库的默认约束？

我已经解决了之前的这些问题Q1 https stackoverflow com questions 15547210 modify default value in sql server Q2 https stackoverflow com
为创建的 UIToolbar 设置 UIToolbarPosition

我正在编写仅针对 iOS5 设备的应用程序因此我试图最大限度地利用新的appearance API 我可以改变我的背景UIToolbar用以下方法 UIToolbar appearance setBackgroundImage
通过使用指令调用开始和结束？

既定的调用习惯用法swap is using std swap swap foo bar 这边走 swap可以对外部的用户定义类型进行重载std命名空间我们应该调用begin and end以同样的方式 using std begin u
kubernetes 仪表板（Web ui）没有任何可显示的内容

部署 webui k8s 仪表板后我登录到仪表板但在那里找不到任何内容而是通知中的错误列表 tatefulsets apps is forbidden User system serviceaccount kubernetes da
唯一约束，排除 NULL 值[重复]

这个问题在这里已经有答案了可能的重复在 SQL Server 中实现允许多个 NULL 值的唯一约束的正确方法 https stackoverflow com questions 6088361 the proper way to im
在 Visual Studio 2017 中找不到“选择性粘贴”选项

我看不到Paste Special我的 Visual Studio 2017 专业版中的选项微软 Visual Studio 专业版 2017 版本15 4 5 VisualStudio 15 Release 15 4 5 27004 2
如何解决UnsatisfiedLinkError？

我正在使用 Android Studio 3 并且尝试在我的设备上使用 OpenCL APK 编译并失败于 java lang UnsatisfiedLinkError dlopen失败找不到库 libcutils so 这是我的 bui
当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？

我正在尝试编写一个 OpenGL 包装器它允许我使用所有现有的图形代码为 OpenGL 编写并将 OpenGL 调用路由到 Direct3D 等效项到目前为止这种方法的效果出人意料地好只是性能被证明是一个很大的问题现在我承认

当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？

当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？ 的相关文章

随机推荐

热门标签

当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？的相关文章