我正在运行一个基本脚本,该脚本循环嵌套字典,从每个记录中获取数据,并将其附加到 Pandas DataFrame 中。数据看起来像这样:
data = {"SomeCity": {"Date1": {record1, record2, record3, ...}, "Date2": {}, ...}, ...}
它总共有几百万条记录。脚本本身如下所示:
city = ["SomeCity"]
df = DataFrame({}, columns=['Date', 'HouseID', 'Price'])
for city in cities:
for dateRun in data[city]:
for record in data[city][dateRun]:
recSeries = Series([record['Timestamp'],
record['Id'],
record['Price']],
index = ['Date', 'HouseID', 'Price'])
FredDF = FredDF.append(recSeries, ignore_index=True)
然而,这运行得非常慢。在我寻找一种并行化方法之前,我只是想确保我没有错过一些明显的东西,这些东西会让它执行得更快,因为我对 Pandas 还很陌生。