我有一个 CSV 文件,我想将其转换为 SequenceFile,我最终将使用它来创建 NamedVectors 以在聚类作业中使用。我一直在使用 seqdirectory 命令尝试创建 SequenceFile,然后使用 -nv 选项将该输出输入到 seq2sparse 中以创建 NamedVector。看起来这给出了一个大向量作为输出,但我最终希望 CSV 的每一行都成为一个 NamedVector。我哪里错了?
seqdirectory
命令将每个文件视为一个文档,因此实际上,您只有一个文档,因此您只能得到一个向量。为了使其正常工作,您可以将 CSV 文件的每一行本身作为一个文件,其中key文档的 是文件的名称和value是它的内容。尽管如此,如果您的语料库很大,那么这是非常不切实际的,因为磁盘读取和写入可能会变得非常慢。
实际上,您最好遵循我在此分享的链接comment https://stackoverflow.com/a/11948318/863772
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)