如何对调查中问题的自由形式答案进行分类和表格化?

2024-06-23

我想分析网络调查的答案(2008 年 Git 用户调查 http://git.or.cz/gitwiki/GitSurvey2008如果有人感兴趣的话)。其中一些问题是自由形式的问题,例如“您是如何听说 Git 的?”。由于回复数量超过 3,000 条,完全手动分析这些回复是不可能的(特别是本次调查中有相当多的自由形式问题)。

我如何至少半自动地将这些回复(可能基于回复中使用的关键词)分组(即程序可以要求确认),以及稍后如何将这些回复制成表格(计算每个类别中的条目数)表格回复(答案)?一个答案可以属于多个类别,尽管为了简单起见,我们可以假设类别是正交的/排他的。

我想知道的是至少keyword来搜索,或者算法(一种方法)使用。我更喜欢以下解决方案Perl (or C).


可能的解决方案1.(部分):贝叶斯分类

(2009-05-21添加)

我想到的一个解决方案是使用类似算法(及其背后的数学方法)来进行贝叶斯垃圾邮件过滤,而不是一两个类别(“垃圾邮件”和“火腿”),而是会有更多;类别本身将被自适应/交互地创建。


文本::Ngrams + 算法::集群

  1. 使用以下命令为每个答案生成一些向量表示(例如字数)文本::Ngrams http://search.cpan.org/~vlado/Text-Ngrams-2.002/.
  2. 使用以下方法对向量进行聚类算法::集群 http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/software.htm确定分组以及与组相对应的关键字。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何对调查中问题的自由形式答案进行分类和表格化? 的相关文章

  • 在Python中执行局部标准差

    我试图获取图像每个像素的局部标准差 这意味着对于每个像素 我想计算其值及其邻居值的标准差 我用了this http docs scipy org doc numpy reference routines statistics html图书馆
  • 在 R 中使用 NA 计算栅格数据的变异函数

    Summary 我有一个包含 NA 值的栅格数据集 并且想要计算它的变异函数 忽略 NA 我怎样才能做到这一点 我有一个图像 已使用以下命令加载到 R 中readGDAL函数 存储为im 为了使其可重复 结果dput图像上可在https g
  • 如何定义“f_n-chi-square”函数并使用“uniroot”求置信区间?

    I want to get a 95 confidence interval for the following question 我已经写了函数f n在我的 R 代码中 我首先使用 Normal 随机采样 100 个样本 然后定义函数h
  • R 中按时间划分的平均值

    我每秒测量一次化合物浓度 我想求 30 秒和 60 秒的平均值 我一直在阅读这里的帖子 我尝试过lubridate and dplyr 但没有运气 我正在努力完成这项工作 但我一直没能做到 我正在从 SAS 过渡到 R 所以请耐心等待 这是
  • 访问或解析 R 中的 summary() 中的元素

    我运行以下 R 命令来进行 Dunnett 测试并获取摘要 如何访问下面线性假设的每一行 这是摘要输出的一部分 基本上我不知道摘要的结构 我尝试使用名称 但它似乎不起作用 因为我没有看到任何命名属性来提供这一点 library multco
  • 如何求真实数据的概率分布和参数? (Python 3)

    我有一个数据集来自sklearn我绘制了分布load diabetes target数据 即回归值load diabetes data用于预测 我使用它是因为它的回归变量 属性数量最少sklearn datasets 使用Python 3
  • 单词和组元组之间的映射以获得单词的频率

    我有一个如下所示的数据框 Utterance Frequency Directions to Starbucks 1045 Show me directions to Starbucks 754 Give me directions to
  • 来自 data.frame 每一列的随机样本

    我想从 a 的每一行中抽取随机样本data frame独立于其他行 这是一个例子 此代码为每行选择相同的列 但我需要为每行独立选择列 library plyr set seed 12345 df1 lt mdply data frame m
  • MySQL 将表的校验和存储在另一个表中

    语境 我们有包含大量表的大型数据库 他们中的大多数 99 都使用innodb 我们希望有一个日常流程来监视哪个表已被修改 当他们使用 innodb 的值时Update time from SHOW table STATUS from inf
  • 如何计算加权平均值?

    我的语言是PHP 但是算法应该是相当通用的 我有一个关联数组 比方说 评级和评级次数 ratings array 1 gt 1 2 gt 3 3 gt 6 4 gt 3 5 gt 3 这相当于 1 2 2 2 3 3 3 3 3 3 4 4
  • Mac OS X 中每个进程的磁盘读/写统计信息

    如何在 Mac OS X 中以编程方式获取每个进程的磁盘 I O 统计信息 在 活动监视器 应用程序或 top 命令中 我们只能获取整个系统磁盘 I O 统计信息 以供参考PC 上也有类似的问题 https stackoverflow co
  • 在后台下载 Facebook 广告统计数据(无需网络浏览器)

    我正在开发一个后台服务器应用程序 该应用程序应该通过电子邮件向我们的客户发送广告活动统计数据 其中的活动捆绑了来自各个提供商的广告活动 其中之一就是 Facebook 现在的问题是如何从 Facebook 下载特定的广告活动 基本上我需要的
  • 尽管参数与文档匹配,Svyby 返回错误

    我已经使用调查包定义了一个调查对象 一切正常 并向其中添加了两列 如下所示 anes svy lt update the update fn adds columns to a survey object anes svy object t
  • C# - 从自定义应用程序读取嵌套事件日志

    我在用sysmon https technet microsoft com en us sysinternals dn798348捕获一堆事件信息 网络连接 DLL 加载等 我想提取该信息并将其用于各种目的 但似乎没有任何方法可以检索嵌套日
  • 使用 scipy.stats 计算条件期望

    假设 x Poisson 2 5 我想计算类似 E x x gt 2 的东西 我认为这可以通过 dist expect 运算符来完成 即 D stats poisson 2 5 cond expect D dist expect lambd
  • 在 scipy.stats 中,rv_continuous 有一个 fit 方法来查找 MLE,但 rv_discrete 没有。为什么?

    我想找到一些可能受离散分布控制的数据的最大似然估计 但在 scipy stats 中 只有表示连续分布的类才具有拟合函数来执行此操作 代表离散分布的类不具有离散分布的原因是什么 简短的回答 因为据我所知 没有人为其编写代码 甚至没有人尝试过
  • Statsmodels.formula.api OLS不显示截距的统计值

    我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50
  • 使用加权行概率从 PostgreSQL 表中选择随机行

    输入示例 SELECT FROM test id percent 1 50 2 35 3 15 3 rows 你会如何编写这样的查询 平均 50 的时间我可以获得 id 1 的行 35 的时间 id 2 的行 15 的时间 id 3 的行
  • 如何在R中找到相似的句子/短语?

    例如 我有数十亿个短语 我想要将相似的短语聚集起来 gt strings to cluster lt c Best Toyota dealer in bay area Drive out with a new car today Large
  • 使用 ggplot2 进行分面 qqplots

    假设我有以下数据 datapoints1 data frame categ c rep 1 n rep 2 n vals1 c rt n 1 2 rnorm n 3 4 datapoints2 data frame categ c rep

随机推荐

  • 更改 adb 服务器运行的默认端口(即 5037)

    我是一位崭露头角的 Android 开发人员 如果没有简单的方法来配置 adb 服务器以在另一个端口上运行 那么工具不灵活将迫使我退出 Android 应用程序开发 网络搜索没有返回任何解决方案 我还在 android sdk 目录中的所有
  • Azure NodeJS 控制台日志

    我有 Visual Studio Enterprise MSDN 订阅 因此我决定从 Heroku 迁移到 Microsoft Azure 因为我曾经付费 现在不用了 我的服务计划是 D1 我希望能够跟踪部署在 Azure 平台上的 Nod
  • 双“for”在列表理解中如何工作?

    因此 有关此问题出现的问题背景 请参阅此link https stackoverflow com questions 48049006 matching states and cities with possibly multiple wo
  • 通过 apache 服务器内的服务器端过滤动态包含 piwik 代码

    经过几个小时的无果尝试后 我想请求大家通过简单的设置提供一点帮助 对于我使用的 apache2 http 服务器运行的一堆 Web 应用程序和站点Piwik http piwik org 进行简单的统计概述 效果很好 让我烦恼的是 对于每个
  • SwiftUI Switch 语句转换行为不符合预期

    我越来越出乎意料 transition使用时的行为switch更新视图的语句与使用两个语句时的比较if声明 他们俩if语句正在按预期将视图滑入和滑出 但是 相同的转换switch语句导致视图从一侧滑入并从另一侧退出 我正在寻找使用switc
  • 使用 CMake 设置 SystemC 项目:对 `sc_core 的未定义引用

    我正在尝试使用 CMake 在 SystemC 中构建一个简单的 hello world 这是SystemC文件main cpp include
  • 如何以编程方式隐藏桌面图标?

    如何使用 C 以编程方式显示 隐藏桌面图标 我正在尝试创建一个使用小部件的替代桌面 并且我需要隐藏旧图标 您可以使用 Windows API 来执行此操作 以下是 C 示例代码 用于切换桌面图标 DllImport user32 dll S
  • 在 Rails 中生成 slugs(人类可读的 ID)的最佳方法

    你知道 比如 myblog com posts donald e knuth 我是不是该使用内置的parameterize method https stackoverflow com questions 1252506 rails slu
  • Math.random() 与 Random.nextInt(int)

    有什么区别Math random n and Random nextInt n where n是一个整数 Here is 详细解释 https community oracle com message 6596485 thread mess
  • 如何通过 iMessage ios 8 发送音频文件

    正如我们所知 随着 ios 8 的推出 苹果允许自定义键盘扩展 在键盘扩展中 我们可以使用 将图像复制到剪贴板 在短信中发送图像 gif 等 代码 UIPasteboard pasteboard UIPasteboard generalPa
  • 设置代理隐藏我的IP地址以使用scrapy抓取网页

    我正在使用 scrapy 抓取网站 现在我需要设置代理处理已发送的请求 谁能帮我解决scrapy应用程序中设置的代理问题 如果有的话 也请提供任何示例链接 我需要解决这个请求来自哪个 IP 的问题 您可以通过下面找到的代码来做到这一点her
  • Python / Pyspark - 计数 NULL、空和 NaN

    我想计算列中的 NULL 空和 NaN 值 我尝试过这样的 df filter df ID df ID isNull df ID isnan count 但我总是收到此错误消息 TypeError Column object is not
  • R Shiny Handling - 处理空数据帧的错误

    我正在编写我的第一个 Shiny 应用程序 到目前为止我很享受它 我的应用程序在一个数据框架上运行 其中包含许多衡量膳食方面的变量 它允许用户使用滑块选择六个连续变量的范围 这些输入用于对数据帧进行子集化 然后ggplot是基于数据子集创建
  • 避免 Mono Cryptic GC 错误消息

    我目前正在 mono Mac OSX 中运行一个程序 该程序读取一个非常大的数据文件并在聚合后创建摘要统计信息 奇怪的是 我在程序中的某个时刻收到以下错误消息 Garbage collector could not allocate 163
  • 通过对变量进行分组来绘制均值比较的 pvalue 信息

    我已经整理了一个图来单独查看组 但现在希望在图中包含平均成对比较的显着性水平 虽然我可以在绘图之外进行比较 但我想知道将比较包含在绘图中的最有效方法是什么 目前的地块 library tidyverse dsub lt diamonds s
  • 测试期权价值的更好方法?

    我经常发现自己Option T 对于某些类型T并希望根据某个值来测试期权的价值 例如 val opt Some oxbow if opt isDefined opt get lakes do something 以下代码是等效的 并且不需要
  • PowerShell 脚本将双引号内的逗号替换为空

    我有一个逗号分隔的 CSV 文件 我打算将双引号中的逗号替换为空 并将双引号替换为空 Editor s note The original form of this question asked to change the delimite
  • C# 代码中的 JsonArrayAttribute 用法 (Json.Net)

    查找将 JsonArrayAttribute 与 C 类一起使用或作为 JSON 反序列化属性的语法示例 我想删除当前代码中的显式列表 并查看 JsonArrayAttribute 在实际代码中的实际工作原理 这是我真正的问题 你不能用谷歌
  • C++ 读取音频文件

    我想使用 C 读取音频 wav 文件 到目前为止我已经阅读了 wav 文件的标题 如何循环进入 wav 文件的数据部分并将其转换为 1 and 1然后将其写入txt文件 我已完成以下操作 但当我使用 MATLAB 绘制生成的 txt 文件时
  • 如何对调查中问题的自由形式答案进行分类和表格化?

    我想分析网络调查的答案 2008 年 Git 用户调查 http git or cz gitwiki GitSurvey2008如果有人感兴趣的话 其中一些问题是自由形式的问题 例如 您是如何听说 Git 的 由于回复数量超过 3 000