如何对调查中问题的自由形式答案进行分类和表格化？

2024-06-23

我想分析网络调查的答案（2008 年 Git 用户调查 http://git.or.cz/gitwiki/GitSurvey2008如果有人感兴趣的话）。其中一些问题是自由形式的问题，例如“您是如何听说 Git 的？”。由于回复数量超过 3,000 条，完全手动分析这些回复是不可能的（特别是本次调查中有相当多的自由形式问题）。

我如何至少半自动地将这些回复（可能基于回复中使用的关键词）分组（即程序可以要求确认），以及稍后如何将这些回复制成表格（计算每个类别中的条目数）表格回复（答案）？一个答案可以属于多个类别，尽管为了简单起见，我们可以假设类别是正交的/排他的。

我想知道的是至少keyword来搜索，或者算法（一种方法）使用。我更喜欢以下解决方案Perl (or C).

可能的解决方案1.（部分）：贝叶斯分类

(2009-05-21添加)

我想到的一个解决方案是使用类似算法（及其背后的数学方法）来进行贝叶斯垃圾邮件过滤，而不是一两个类别（“垃圾邮件”和“火腿”），而是会有更多；类别本身将被自适应/交互地创建。

文本::Ngrams + 算法::集群

使用以下命令为每个答案生成一些向量表示（例如字数）文本::Ngrams http://search.cpan.org/~vlado/Text-Ngrams-2.002/.
使用以下方法对向量进行聚类算法::集群 http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/software.htm确定分组以及与组相对应的关键字。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何对调查中问题的自由形式答案进行分类和表格化？的相关文章

在Python中执行局部标准差

我试图获取图像每个像素的局部标准差这意味着对于每个像素我想计算其值及其邻居值的标准差我用了this http docs scipy org doc numpy reference routines statistics html图书馆
在 R 中使用 NA 计算栅格数据的变异函数

Summary 我有一个包含 NA 值的栅格数据集并且想要计算它的变异函数忽略 NA 我怎样才能做到这一点我有一个图像已使用以下命令加载到 R 中readGDAL函数存储为im 为了使其可重复结果dput图像上可在https g
如何定义“f_n-chi-square”函数并使用“uniroot”求置信区间？

I want to get a 95 confidence interval for the following question 我已经写了函数f n在我的 R 代码中我首先使用 Normal 随机采样 100 个样本然后定义函数h
R 中按时间划分的平均值

我每秒测量一次化合物浓度我想求 30 秒和 60 秒的平均值我一直在阅读这里的帖子我尝试过lubridate and dplyr 但没有运气我正在努力完成这项工作但我一直没能做到我正在从 SAS 过渡到 R 所以请耐心等待这是
访问或解析 R 中的 summary() 中的元素

我运行以下 R 命令来进行 Dunnett 测试并获取摘要如何访问下面线性假设的每一行这是摘要输出的一部分基本上我不知道摘要的结构我尝试使用名称但它似乎不起作用因为我没有看到任何命名属性来提供这一点 library multco
如何求真实数据的概率分布和参数？（Python 3）

我有一个数据集来自sklearn我绘制了分布load diabetes target数据即回归值load diabetes data用于预测我使用它是因为它的回归变量属性数量最少sklearn datasets 使用Python 3
单词和组元组之间的映射以获得单词的频率

我有一个如下所示的数据框 Utterance Frequency Directions to Starbucks 1045 Show me directions to Starbucks 754 Give me directions to
来自 data.frame 每一列的随机样本

我想从 a 的每一行中抽取随机样本data frame独立于其他行这是一个例子此代码为每行选择相同的列但我需要为每行独立选择列 library plyr set seed 12345 df1 lt mdply data frame m
MySQL 将表的校验和存储在另一个表中

语境我们有包含大量表的大型数据库他们中的大多数 99 都使用innodb 我们希望有一个日常流程来监视哪个表已被修改当他们使用 innodb 的值时Update time from SHOW table STATUS from inf
如何计算加权平均值？

我的语言是PHP 但是算法应该是相当通用的我有一个关联数组比方说评级和评级次数 ratings array 1 gt 1 2 gt 3 3 gt 6 4 gt 3 5 gt 3 这相当于 1 2 2 2 3 3 3 3 3 3 4 4
Mac OS X 中每个进程的磁盘读/写统计信息

如何在 Mac OS X 中以编程方式获取每个进程的磁盘 I O 统计信息在活动监视器应用程序或 top 命令中我们只能获取整个系统磁盘 I O 统计信息以供参考PC 上也有类似的问题 https stackoverflow co
在后台下载 Facebook 广告统计数据（无需网络浏览器）

我正在开发一个后台服务器应用程序该应用程序应该通过电子邮件向我们的客户发送广告活动统计数据其中的活动捆绑了来自各个提供商的广告活动其中之一就是 Facebook 现在的问题是如何从 Facebook 下载特定的广告活动基本上我需要的
尽管参数与文档匹配，Svyby 返回错误

我已经使用调查包定义了一个调查对象一切正常并向其中添加了两列如下所示 anes svy lt update the update fn adds columns to a survey object anes svy object t
C# - 从自定义应用程序读取嵌套事件日志

我在用sysmon https technet microsoft com en us sysinternals dn798348捕获一堆事件信息网络连接 DLL 加载等我想提取该信息并将其用于各种目的但似乎没有任何方法可以检索嵌套日
使用 scipy.stats 计算条件期望

假设 x Poisson 2 5 我想计算类似 E x x gt 2 的东西我认为这可以通过 dist expect 运算符来完成即 D stats poisson 2 5 cond expect D dist expect lambd
在 scipy.stats 中，rv_continuous 有一个 fit 方法来查找 MLE，但 rv_discrete 没有。为什么？

我想找到一些可能受离散分布控制的数据的最大似然估计但在 scipy stats 中只有表示连续分布的类才具有拟合函数来执行此操作代表离散分布的类不具有离散分布的原因是什么简短的回答因为据我所知没有人为其编写代码甚至没有人尝试过
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50
使用加权行概率从 PostgreSQL 表中选择随机行

输入示例 SELECT FROM test id percent 1 50 2 35 3 15 3 rows 你会如何编写这样的查询平均 50 的时间我可以获得 id 1 的行 35 的时间 id 2 的行 15 的时间 id 3 的行
如何在R中找到相似的句子/短语？

例如我有数十亿个短语我想要将相似的短语聚集起来 gt strings to cluster lt c Best Toyota dealer in bay area Drive out with a new car today Large
使用 ggplot2 进行分面 qqplots

假设我有以下数据 datapoints1 data frame categ c rep 1 n rep 2 n vals1 c rt n 1 2 rnorm n 3 4 datapoints2 data frame categ c rep

随机推荐

更改 adb 服务器运行的默认端口（即 5037）

我是一位崭露头角的 Android 开发人员如果没有简单的方法来配置 adb 服务器以在另一个端口上运行那么工具不灵活将迫使我退出 Android 应用程序开发网络搜索没有返回任何解决方案我还在 android sdk 目录中的所有
Azure NodeJS 控制台日志

我有 Visual Studio Enterprise MSDN 订阅因此我决定从 Heroku 迁移到 Microsoft Azure 因为我曾经付费现在不用了我的服务计划是 D1 我希望能够跟踪部署在 Azure 平台上的 Nod
双“for”在列表理解中如何工作？

因此有关此问题出现的问题背景请参阅此link https stackoverflow com questions 48049006 matching states and cities with possibly multiple wo
通过 apache 服务器内的服务器端过滤动态包含 piwik 代码

经过几个小时的无果尝试后我想请求大家通过简单的设置提供一点帮助对于我使用的 apache2 http 服务器运行的一堆 Web 应用程序和站点Piwik http piwik org 进行简单的统计概述效果很好让我烦恼的是对于每个
SwiftUI Switch 语句转换行为不符合预期

我越来越出乎意料 transition使用时的行为switch更新视图的语句与使用两个语句时的比较if声明他们俩if语句正在按预期将视图滑入和滑出但是相同的转换switch语句导致视图从一侧滑入并从另一侧退出我正在寻找使用switc
使用 CMake 设置 SystemC 项目：对 `sc_core 的未定义引用

我正在尝试使用 CMake 在 SystemC 中构建一个简单的 hello world 这是SystemC文件main cpp include
如何以编程方式隐藏桌面图标？

如何使用 C 以编程方式显示隐藏桌面图标我正在尝试创建一个使用小部件的替代桌面并且我需要隐藏旧图标您可以使用 Windows API 来执行此操作以下是 C 示例代码用于切换桌面图标 DllImport user32 dll S
在 Rails 中生成 slugs（人类可读的 ID）的最佳方法

你知道比如 myblog com posts donald e knuth 我是不是该使用内置的parameterize method https stackoverflow com questions 1252506 rails slu
Math.random() 与 Random.nextInt(int)

有什么区别Math random n and Random nextInt n where n是一个整数 Here is 详细解释 https community oracle com message 6596485 thread mess
如何通过 iMessage ios 8 发送音频文件

正如我们所知随着 ios 8 的推出苹果允许自定义键盘扩展在键盘扩展中我们可以使用将图像复制到剪贴板在短信中发送图像 gif 等代码 UIPasteboard pasteboard UIPasteboard generalPa
设置代理隐藏我的IP地址以使用scrapy抓取网页

我正在使用 scrapy 抓取网站现在我需要设置代理处理已发送的请求谁能帮我解决scrapy应用程序中设置的代理问题如果有的话也请提供任何示例链接我需要解决这个请求来自哪个 IP 的问题您可以通过下面找到的代码来做到这一点her
Python / Pyspark - 计数 NULL、空和 NaN

我想计算列中的 NULL 空和 NaN 值我尝试过这样的 df filter df ID df ID isNull df ID isnan count 但我总是收到此错误消息 TypeError Column object is not
R Shiny Handling - 处理空数据帧的错误

我正在编写我的第一个 Shiny 应用程序到目前为止我很享受它我的应用程序在一个数据框架上运行其中包含许多衡量膳食方面的变量它允许用户使用滑块选择六个连续变量的范围这些输入用于对数据帧进行子集化然后ggplot是基于数据子集创建
避免 Mono Cryptic GC 错误消息

我目前正在 mono Mac OSX 中运行一个程序该程序读取一个非常大的数据文件并在聚合后创建摘要统计信息奇怪的是我在程序中的某个时刻收到以下错误消息 Garbage collector could not allocate 163
通过对变量进行分组来绘制均值比较的 pvalue 信息

我已经整理了一个图来单独查看组但现在希望在图中包含平均成对比较的显着性水平虽然我可以在绘图之外进行比较但我想知道将比较包含在绘图中的最有效方法是什么目前的地块 library tidyverse dsub lt diamonds s
测试期权价值的更好方法？

我经常发现自己Option T 对于某些类型T并希望根据某个值来测试期权的价值例如 val opt Some oxbow if opt isDefined opt get lakes do something 以下代码是等效的并且不需要
PowerShell 脚本将双引号内的逗号替换为空

我有一个逗号分隔的 CSV 文件我打算将双引号中的逗号替换为空并将双引号替换为空 Editor s note The original form of this question asked to change the delimite
C# 代码中的 JsonArrayAttribute 用法 (Json.Net)

查找将 JsonArrayAttribute 与 C 类一起使用或作为 JSON 反序列化属性的语法示例我想删除当前代码中的显式列表并查看 JsonArrayAttribute 在实际代码中的实际工作原理这是我真正的问题你不能用谷歌
C++ 读取音频文件

我想使用 C 读取音频 wav 文件到目前为止我已经阅读了 wav 文件的标题如何循环进入 wav 文件的数据部分并将其转换为 1 and 1然后将其写入txt文件我已完成以下操作但当我使用 MATLAB 绘制生成的 txt 文件时
如何对调查中问题的自由形式答案进行分类和表格化？

我想分析网络调查的答案 2008 年 Git 用户调查 http git or cz gitwiki GitSurvey2008如果有人感兴趣的话其中一些问题是自由形式的问题例如您是如何听说 Git 的由于回复数量超过 3 000

如何对调查中问题的自由形式答案进行分类和表格化？

可能的解决方案1.（部分）：贝叶斯分类

如何对调查中问题的自由形式答案进行分类和表格化？ 的相关文章

随机推荐

热门标签

如何对调查中问题的自由形式答案进行分类和表格化？的相关文章