首先要做的是导入 Excel 文件。最直接的方法是使用pandas
:
import pandas
data = pandas.read_excel("path/to/edgelist", header=None)
这将返回以下形式的数据框
In [2]: data
Out[2]:
0 1 2
0 Apple Banana 65
1 Orange Apple 32
捷径:使用networkx
我们首先加载networkx包
import networkx
然后,从data
我们将边列表视为列表的列表:
edgeList = data.values.tolist()
这样,我们得到
In [19]: edgeList
Out[19]: [['Apple', 'Banana', 65], ['Orange', 'Apple', 32]]
让我们创建一个空(有向)图G
:
G = networkx.DiGraph()
然后我们用一个简单的 for 循环添加边:
for i in range(len(edgeList)):
G.add_edge(edgeList[i][0], edgeList[i][1], weight=edgeList[i][2])
我们可以轻松地检索邻接矩阵
A = networkx.adjacency_matrix(G).A
读起来简单明了numpy
array
In [30]: A
Out[30]:
array([[ 0, 65, 0],
[ 0, 0, 0],
[32, 0, 0]], dtype=int64)
NOTE:上面的邻接矩阵指的是一个带权有向图(即从Apple到Banana有边,但从Banana到Apple没有边)。如果需要一个带权无向图(即,如果从 Apple 到 Banana 存在一条边,那么从 Banana 到 Apple 也存在一条边),只需使用
G = networkx.Graph()
代替
G = networkx.DiGraph()
漫长的道路:手动
让我们获取第一列和第二列来收集节点 ID
nodes = data.iloc[:, 0].tolist() + data.iloc[:, 1].tolist()
thus
In [4]: nodes
Out[4]: [u'Apple', u'Orange', u'Banana', u'Apple']
让我们排序并删除重复项(无论如何排序不是强制性的)
nodes = sorted(list(set(nodes)))
and nodes
现在有形式
In [8]: nodes
Out[8]: [u'Apple', u'Banana', u'Orange']
让我们用一个连续的数字 ID 来映射每个节点(字符串)以馈送到邻接矩阵
nodes = [(i,nodes[i]) for i in range(len(nodes))]
and nodes
现在有形式
In [10]: nodes
Out[10]: [(0, u'Apple'), (1, u'Banana'), (2, u'Orange')]
现在字符串到整数的映射已经完成,让我们替换原始数据帧(data
) 每个字符串及其对应的 ID
In [15]: for i in range(len(nodes)):
...: data = data.replace(nodes[i][1], nodes[i][0])
and now data
有形式
In [16]: data
Out[16]:
0 1 2
0 0 1 65
1 2 0 32
所以你会看到每次出现Apple
已替换为0
,每次出现Banana
已替换为 1 并且每次出现 odOrange
已替换为 2(根据变量nodes
).
为了构建邻接矩阵,让我们导入另一个众所周知的包(scipy
)
from scipy.sparse import coo_matrix
并创建一个基于坐标的稀疏矩阵
M = coo_matrix((data.iloc[:,2], (data.iloc[:,0],data.iloc[:,1])), shape=(len(nodes), len(nodes)))
这将创建一个稀疏邻接矩阵(对于具有许多节点和少量边的图,内存占用更少)。如果你需要一个稠密的邻接矩阵,那么
M = M.todense()
where M
终于有了形式
matrix([[ 0, 65, 0],
[ 0, 0, 0],
[32, 0, 0]])
NOTE:上面的邻接矩阵指的是一个带权有向图(即从Apple到Banana有边,但从Banana到Apple没有边)。如果需要一个带权无向图(即如果从Apple到Banana存在一条边,那么从Banana到Apple也存在一条边),只需将上面的邻接矩阵转置即可
M_symmetric = M + M.T
where
In [38]: M_symmetric
Out[38]:
matrix([[ 0, 65, 32],
[65, 0, 0],
[32, 0, 0]])