这似乎应该是一个显而易见的问题,但列表上的教程和文档尚未发布。其中许多问题源于我的文本文件的巨大大小(数百 MB)以及我试图将它们归结为我的系统可以管理的内容。因此,我正在分段进行工作,现在正在尝试合并结果。
我有多个词频列表(大约 40 个)。这些列表可以通过 Import[ ] 获取,也可以作为在 Mathematica 中生成的变量。每个列表如下所示,并且是使用 Tally[ ] 和 Sort[ ] 命令生成的:
{{"the", 42216}, {"of", 24903}, {"and", 18624}, {"n", 16850}, {"in",
16164}, {"de", 14930}, {"a", 14660}, {"to", 14175}, {"la", 7347},
{"was", 6030}, {"l", 5981}, {"le", 5735}, >, {"屠宰场",
1}, {"减少", 1}, {"减少", 1}, {"减少", 1},
{"abated", 1}, {"abandonn", 1}, {"abaiss", 1}, {"aback", 1},
{"aase", 1}, {"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}
这是第二个文件的示例:
{{"the", 30419}, {"n", 20414}, {"de", 19956}, {"of", 16262}, {"and",
14488}, {"到", 12726}, {"a", 12635}, {"在", 11141}, {"la", 10739},
{"et", 9016}, {"les", 8675}, {"le", 7748}, >,
{"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, {"abated",
1}, {"放弃", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1},
{"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}
我想将它们组合起来,以便频率数据聚合:即,如果第二个文件出现 30,419 次“the”并连接到第一个文件,则它应该返回出现 72,635 次(依此类推,当我遍历整个文件时)收藏)。