我想分析网络调查的答案(2008 年 Git 用户调查 http://git.or.cz/gitwiki/GitSurvey2008如果有人感兴趣的话)。其中一些问题是自由形式的问题,例如“您是如何听说 Git 的?”。由于回复数量超过 3,000 条,完全手动分析这些回复是不可能的(特别是本次调查中有相当多的自由形式问题)。
我如何至少半自动地将这些回复(可能基于回复中使用的关键词)分组(即程序可以要求确认),以及稍后如何将这些回复制成表格(计算每个类别中的条目数)表格回复(答案)?一个答案可以属于多个类别,尽管为了简单起见,我们可以假设类别是正交的/排他的。
我想知道的是至少keyword来搜索,或者算法(一种方法)使用。我更喜欢以下解决方案Perl (or C).
可能的解决方案1.(部分):贝叶斯分类
(2009-05-21添加)
我想到的一个解决方案是使用类似算法(及其背后的数学方法)来进行贝叶斯垃圾邮件过滤,而不是一两个类别(“垃圾邮件”和“火腿”),而是会有更多;类别本身将被自适应/交互地创建。
文本::Ngrams + 算法::集群
- 使用以下命令为每个答案生成一些向量表示(例如字数)文本::Ngrams http://search.cpan.org/~vlado/Text-Ngrams-2.002/.
- 使用以下方法对向量进行聚类算法::集群 http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/software.htm确定分组以及与组相对应的关键字。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)