使用整数作为多维 numpy 数组的索引

2023-12-29

我有形状的布尔数组(n_samples, n_items)它代表一个集合：my_set[i, j]告诉样本是否i包含项目j.

为了填充它，该数组被初始化为零，并接收另一个整数数组，其形状(n_samples, 3)，告诉每个示例属于它的三个元素，例如：

my_set = np.zeros((2, 5), dtype=bool)
init_values = np.array([[1,3,4], [0,1,2]], dtype=np.int64)

所以，我需要填写my_set in row 0和列1, 3, 4并在行中1，列0, 1, 2，与与。

my_set包含适当范围内的有效值（即在 [0, n_items）中），并且每列不包含重复项。

一些失败的方法：

我知道整数（或数组）列表可以用作索引，所以我尝试使用init_values索引很简单，但失败了：

my_set[init_values] = 1
  File "<ipython-input-9-9b2c4d19f4f6>", line 1, in <cell line: 1>
    my_set[init_values] = 1
IndexError: index 3 is out of bounds for axis 0 with size 2

我不知道为什么 3 在第一个轴上建立索引，所以我尝试了第二种方法：“拾取所有行并仅索引所需的列”，使用切片和整数索引的混合。它没有抛出错误，但没有按预期工作：检查形状，我希望它是(2, 3)，然而...

my_set[:, init_values].shape
Out[11]: (2, 2, 3)

不知道为什么它不起作用，但至少第一个轴看起来是正确的，所以我尝试只选取第一列，这是一个整数列表，因此它“更自然”......再一次，它不起作用：

my_set[:, init_values[:,0]].shape
Out[12]: (2, 2)

我预计这个形状是(2, 1)因为我希望所有行每行都有一列，对应于中给出的索引init_values.

我决定回到第一个轴的整数索引方法......并且它有效：

my_set[np.arange(len(my_set)), init_values[:,0]].shape
Out[13]: (2,)

但是，它仅适用于一列，因此我需要迭代列才能使其真正起作用，但它看起来是一个很好的初始解决方法。

目前的解决方案

因此，为了解决我原来的问题，我写了这样的：

for c in range(init_values.shape[1])
    my_set[np.arange(len(my_set)), init_values[:,c]] = 1

# now lets check my_set is properly filled
print(my_set)
Out[14]: [[False  True False  True  True]
          [ True  True  True False False]]

这正是我所需要的。

问题）：

也就是说，这是我的主要问题：

有没有更有效的方法来做到这一点？随着元素数量的增加，我发现它的效率非常低（在这个例子中我使用了 3 个，但实际上我需要更大的值）。

除此之外我想了解为什么使用np.arange第一个索引的行为与将其切片不同:: 我没想到会有这种行为。

也欢迎任何其他评论来了解为什么以前的方法失败。

您只有列索引，因此还需要创建相应的行索引：

>>> my_set[np.arange(len(my_set))[:, None], init_values] = 1
>>> my_set
array([[False,  True, False,  True,  True],
       [ True,  True,  True, False, False]])

[:, None]用于将行索引行向量转换为列向量，以便行索引和列索引具有兼容的广播形状：

>>> np.arange(len(my_set))[:, None]
array([[0],
       [1]])
>>> np.broadcast_arrays(np.arange(len(my_set))[:, None], init_values)
[array([[0, 0, 0],
        [1, 1, 1]]),
 array([[1, 3, 4],
        [0, 1, 2]], dtype=int64)]

切片的本质是将其他维度的索引应用到该维度切片范围内的每个索引上。这是一个简单的测试。待索引的矩阵如下：

>>> ar = np.arange(4).reshape(2, 2)
>>> ar
array([[0, 1],
       [2, 3]])

如果要获取第 0 行中索引为 0 和 1 的元素，以及第 1 行中索引为 1 和 0 的元素，但使用列索引的组合[[0, 1], [1, 0]]并切片，你会得到：

>>> ar[:, [[0, 1], [1, 0]]]
array([[[0, 1],
        [1, 0]],

       [[2, 3],
        [3, 2]]])

这相当于将行索引从 0 到 1 分别与列索引组合：

>>> ar[0, [[0, 1], [1, 0]]]
array([[0, 1],
       [1, 0]])
>>> ar[1, [[0, 1], [1, 0]]]
array([[2, 3],
       [3, 2]])

事实上，这里秘密使用了广播。实际指数为：

>>> np.broadcast_arrays(0, [[0, 1], [1, 0]])
[array([[0, 0],
        [0, 0]]),
 array([[0, 1],
        [1, 0]])]
>>> np.broadcast_arrays(1, [[0, 1], [1, 0]])
[array([[1, 1],
        [1, 1]]),
 array([[0, 1],
        [1, 0]])]

这与您实际需要的索引不同。因此，您需要手动生成正确的行索引以进行广播：

>>> ar[[[0], [1]], [[0, 1], [1, 0]]]
array([[0, 1],
       [3, 2]])
>>> np.broadcast_arrays([[0], [1]], [[0, 1], [1, 0]])
[array([[0, 0],
        [1, 1]]),
 array([[0, 1],
        [1, 0]])]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

arraybroadcasting

numpyslicing