如何从文本数据中获取词袋？ [关闭]

2024-01-11

我正在使用大型文本数据集来研究预测问题。我正在实施词袋模型。 http://en.wikipedia.org/wiki/Bag-of-words_model

获得词袋的最佳方式应该是什么？现在，我有tf-idf http://en.wikipedia.org/wiki/Tf%E2%80%93idf各种单词的数量以及单词数量太大，无法用于进一步的作业。如果我使用 tf-idf 标准，获取词袋的 tf-idf 阈值应该是多少？或者我应该使用其他一些算法。我正在使用Python。

使用集合.计数器类 http://docs.python.org/dev/library/collections#collections.Counter

>>> import collections, re
>>> texts = ['John likes to watch movies. Mary likes too.',
             'John also likes to watch football games.']
>>> bagsofwords = [collections.Counter(re.findall(r'\w+', txt))
                   for txt in texts]
>>> bagsofwords[0]
Counter({'likes': 2, 'watch': 1, 'Mary': 1, 'movies': 1, 'John': 1, 'to': 1, 'too': 1})
>>> bagsofwords[1]
Counter({'watch': 1, 'games': 1, 'to': 1, 'likes': 1, 'also': 1, 'John': 1, 'football': 1})
>>> sumbags = sum(bagsofwords, collections.Counter())
>>> sumbags
Counter({'likes': 3, 'watch': 2, 'John': 2, 'to': 2, 'games': 1, 'football': 1, 'Mary': 1, 'movies': 1, 'also': 1, 'too': 1})
>>>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

textprocessing

如何从文本数据中获取词袋？ [关闭] 的相关文章

如何将本机 popcount 与 numba 一起使用

我正在使用 numba 0 57 1 我想在我的代码中利用本机 CPU popcount 我现有的代码太慢因为我需要运行它数亿次这是一个 MWE import numba as nb nb njit nb uint64 nb uint6
如何忽略传递给函数的意外关键字参数？

假设我有一些功能 f def f a None print a 现在如果我有一本字典比如dct a Foo 我可以打电话f dct 并得到结果Foo打印但是假设我有一本字典dct2 a Foo b Bar 如果我打电话f dct2
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

Java 8：通用类型推断改进

With JEP 101 广义目标类型推理 http openjdk java net jeps 101 this final List
防止 maven-shade-plugin 暴露依赖项？

感谢单独的thread https stackoverflow com questions 48715546 maven how to specify javac plugin argument with maven compiler pl
form:select 无法从数据库检索数据

在我当前的 spring 项目中当我运行应用程序并使用以下代码打开视图时
连接表中的最大日期

SELECT COL1 COL2 COL3 FROM TABLE1 TABLE2 TABLE3 TABLE4 WHERE TABLE1 KEY1 TABLE2 KEY1 AND TABLE2 KEY TABLE3 KEY AND TABLE
Axios PUT 请求到服务器

我阅读了 axios on PUT 请求的文档它看起来与 GET 请求类似但是没有像 GET 这样的示例代码但我认为它与如何执行 GET 请求类似我似乎在使用 axios 发出 PUT 请求时遇到问题这是我迄今为止使用的测试服务
C# 列表中的每一项存储多个变量

在 ASP net 教程上我找到了这个解释List lt gt List
对 R 包的 /src 文件夹中的代码进行单元测试？

我正在为一个 R 包做出贡献该包广泛使用 C 代码进行计算我们已经开始使用 R 函数编写测试testthat http cran r project org web packages testthat index html包将测试放入
PHP - For循环仅返回数组中的最后一个变量

我有一个奇怪的问题 PHP 中的 for 循环仅返回数组中的最后一项该数组是使用 SimpleXML 从 XML 文件创建的代码应该返回这个
异步导致调试器跳转

我有这个代码 private async Task
如何从旋转角度计算 OpenCV 的透视变换？

我想从旋转角度和到对象的距离开始计算透视变换 warpPerspective 函数的矩阵怎么做我在 OE 上找到了代码示例程序如下 include
是否可以匹配来自 c# winforms 中两个不同数据集的图表中的两个系列数据

我正在开发一个应用程序根据工单编号绘制已检查的电路板和有缺陷的电路板在查看图表并比较实际数据后我意识到该系列与工单编号不匹配我不知道如何将两个系列与工单编号相匹配以获得正确的图表这是我首先提取的数据拉取 Boards Inspec
Magento 在我的 URL 中放入 -1 我可以通过编程方式删除吗？

我必须在我的 Magento 安装中创建许多新商店这样做的一件事是迫使我必须对整个网站进行大量的重新索引对于大多数人来说这根本不是问题但我的 URL 索引似乎总是存在问题由于某种原因当我重新索引我的 URL 时它希望在所有 U
@EntityListener 也可以与 @MappedSuperclass 一起使用吗？

Folks 如果我定义一个实体类并用它注释 MappedSuperclass and an EntityListener 监听器是否也会被子类中的生命周期事件调用 Example MappedSuperclass EntityListene
Scapy转发包

我刚刚用 scapy 学习 python 我阅读并使用了 Network Hacks Intensivkurs Angriff und Verteidigung mit Python 德语一书我想尝试使用 arp 欺骗进行中间人攻击我
写入文件的字符串不保留换行符

我正在尝试写一个String 冗长但包裹来自JTextArea 当字符串打印到控制台时格式与原来的格式相同Text Area 但是当我使用 BufferedWriter 将它们写入文件时它正在写入String在单行中以下片段可以重现
Google Closure 反编译器？

我正在寻找一种反编译由 Google Closure 编译的 JavaScript 的方法我确实找到了一个反编译器类 https code google com p closure compiler source browse lib r
为什么在c中初始化n维数组时必须显式指定n-1维

我知道我可以显式初始化一维数组如下所示 int a1d 0 1 2 3 4 5 这个数组将有 6 个元素 sizeof a1d sizeof a1d 0 是这样告诉我的我正在尝试使用二维或更多维数组来做到这一点 int a2d 0
如何使用 GraphAPI 从 Facebook 群组检索照片？

我想使用 GraphAPI 从 Facebook 群组检索照片基于FB Docs http developers facebook com docs reference api group 我看不出与照片有任何联系我想获取照片和上传照片
tf.estimator 错误：ResourceExhausted：打开的文件太多（TF 使 events.out.tfevents 文件保持打开状态）

多次调用后出现以下错误train model在下面的课程中 terminate called after throwing an instance of std system error what Resource temporarily
如何从文本数据中获取词袋？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在使用大型文本数据集来研究预测问题我正在实施词袋模型 http en wikipedia org wiki Bag of wor

如何从文本数据中获取词袋？ [关闭]

如何从文本数据中获取词袋？ [关闭] 的相关文章

随机推荐

热门标签