我正在开发一个数据库自我项目。我有一个来自以下位置的输入文件:http://ir.dcs.gla.ac.uk/resources/test_collections/cran/ http://ir.dcs.gla.ac.uk/resources/test_collections/cran/
处理成1400个单独的文件后,每个文件命名为00001.txt,... 01400.txt...)以及申请后Stemming在它们上,我将它们单独存储在一个特定的文件夹中,我们称之为茎文件夹格式如下:
in 茎文件夹:00001.txt 包括:
investig
aerodynam
wing
slipstream
brenckman
experiment
investig
aerodynam
wing
in 茎文件夹:00756.txt 包括:
remark
eddi
viscos
compress
mix
flow
lu
ting
等等....
我编写的代码执行以下操作:
- get the 茎文件夹, 计算唯一单词
- 按字母顺序排序
- 添加文档的ID
- 将每个文件保存到新文件 00001.txt 到 01400.txt,如下所述
{I can 提供我的代码对于这 4 个部分,以防有人需要查看实施、更改或任何编辑情况}
每个文件的输出将结果到一个单独的文件中。 (1400,每个命名00001.txt, 00002.txt...)在特定文件夹中我们可以称之为频率文件夹格式如下:
in 频率文件夹:00001.txt 包括:
00001,aerodynam,2
00001,agre,3
00001,angl,1
00001,attack,7
00001,basi,4
....
in 频率文件夹:00999.txt 包括:
00999,aerodynam,5
00999,evalu,1
00999,lift,3
00999,ratio,2
00999,result,9
....
in 频率文件夹:01400.txt 包括:
01400,subtract,1
01400,support,1
01400,theoret,1
01400,theori,1
01400,.....
______________
现在我的问题:
我需要再次组合这 1400 个文件,通过一些计算输出一个看起来像这样格式的 txt 文件:
'aerodynam' totalFrequency=3docs: [[Doc_00001,5],[Doc_01344,4],[Doc_00123,3]]
'book' totalFrequncy=2docs: [[Doc_00562,6],[Doc_01111,1]
....
....
'result' totalFrequency=1doc: [[Doc_00010,5]]
....
....
'zzzz' totalFrequency=1doc: [[Doc_01235,1]]
感谢您花时间阅读这篇长文章