为什么一个简单的 get 语句这么慢？

2024-04-24

几年前，我在学校接到一项作业，必须并行化光线追踪器。
这是一项简单的任务，我真的很喜欢做它。

今天，我想对光线追踪器进行分析，看看是否可以让它运行得更快（无需完全修改代码）。在分析过程中，我注意到一些有趣的事情：

    // Sphere.Intersect
    public bool Intersect(Ray ray, Intersection hit)
    {
        double a = ray.Dir.x * ray.Dir.x +
                   ray.Dir.y * ray.Dir.y +
                   ray.Dir.z * ray.Dir.z;
        double b = 2 * (ray.Dir.x * (ray.Pos.x - Center.x) +
                        ray.Dir.y * (ray.Pos.y - Center.y) +
                        ray.Dir.z * (ray.Pos.z - Center.z));
        double c = (ray.Pos.x - Center.x) * (ray.Pos.x - Center.x) +
                   (ray.Pos.y - Center.y) * (ray.Pos.y - Center.y) +
                   (ray.Pos.z - Center.z) * (ray.Pos.z - Center.z) - Radius * Radius;

        // more stuff here
    }

根据分析器，25% 的 CPU 时间花费在get_Dir and get_Pos，这就是为什么，我决定通过以下方式优化代码：

    // Sphere.Intersect
    public bool Intersect(Ray ray, Intersection hit)
    {
        Vector3d dir = ray.Dir, pos = ray.Pos;
        double xDir = dir.x, yDir = dir.y, zDir = dir.z,
               xPos = pos.x, yPos = pos.y, zPos = pos.z,
               xCen = Center.x, yCen = Center.y, zCen = Center.z;

        double a = xDir * xDir +
                   yDir * yDir +
                   zDir * zDir;
        double b = 2 * (xDir * (xPos - xCen) +
                        yDir * (yPos - yCen) +
                        zDir * (zPos - zCen));
        double c = (xPos - xCen) * (xPos - xCen) +
                   (yPos - yCen) * (yPos - yCen) +
                   (zPos - zCen) * (zPos - zCen) - Radius * Radius;

        // more stuff here
    }

取得了惊人的结果。

在原始代码中，使用默认参数运行光线追踪器（创建仅使用直接闪电且没有 AA 的 1024x1024 图像）将需要〜88秒.
在修改后的代码中，同样需要比60秒.
只需对代码进行一点修改，我就实现了约 1.5 的加速。

起初，我以为吸气剂是Ray.Dir and Ray.Pos我们在幕后做一些事情，这会减慢程序的速度。

以下是两者的吸气剂：

    public Vector3d Pos
    {
        get { return _pos; }
    }

    public Vector3d Dir
    {
        get { return _dir; }
    }

所以，两者都返回一个 Vector3D，仅此而已。

我真的很想知道，调用 getter 怎么会比直接访问变量花费更长的时间。

是因为CPU缓存变量吗？或者重复调用这些方法的开销可能会增加？或者也许 JIT 处理后一种情况比前一种情况更好？或者也许还有其他我没有看到的东西？

任何见解将不胜感激。

Edit:

正如@MatthewWatson 所建议的，我使用了StopWatch在调试器之外计时发布版本。为了消除噪音，我多次进行了测试。结果，前面的代码需要〜21秒（20.7 和 20.9 之间）完成，而后者仅〜19秒（19 和 19.2 之间）。
差异已经变得可以忽略不计，但仍然存在。

介绍

我敢打赌，由于 C# 中涉及类型结构属性的怪癖，原始代码要慢得多。这并不完全直观，但这种类型的属性本质上很慢。为什么？因为结构体不是通过引用传递的。所以为了访问ray.Dir.x，你必须

加载局部变量ray.
Call get_Dir并将结果存储在临时变量中。这涉及复制整个结构，即使只使用了字段“x”。
访问字段x从临时副本。

查看原始代码，get 访问器被调用了 18 次。这是一个巨大的浪费，因为这意味着整个结构体总共被复制了 18 次。在您的优化代码中，只有两个副本 -Dir and Pos两者都只被调用一次；进一步访问这些值仅包含上面的第三步：

访问字段x从临时副本。

总而言之，结构和属性不能放在一起。

为什么 C# 对结构体属性有这样的行为？

这与 C# 中结构是值类型这一事实有关。您正在传递值本身，而不是指向该值的指针。

为什么编译器不能识别 get 访问器只是返回一个字段，并完全绕过该属性？

在调试模式下，会跳过此类优化以提供更好的调试体验。即使在发布模式下，您也会发现大多数抖动通常不会这样做。我不知道确切的原因，但我相信这是因为该字段并不总是字对齐的。现代 CPU 有奇怪的性能要求。 :-)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

getter