组合词频数据列表

2024-01-17

这似乎应该是一个显而易见的问题，但列表上的教程和文档尚未发布。其中许多问题源于我的文本文件的巨大大小（数百 MB）以及我试图将它们归结为我的系统可以管理的内容。因此，我正在分段进行工作，现在正在尝试合并结果。

我有多个词频列表（大约 40 个）。这些列表可以通过 Import[ ] 获取，也可以作为在 Mathematica 中生成的变量。每个列表如下所示，并且是使用 Tally[ ] 和 Sort[ ] 命令生成的：

{{"the", 42216}, {"of", 24903}, {"and", 18624}, {"n", 16850}, {"in",
16164}, {"de", 14930}, {"a", 14660}, {"to", 14175}, {"la", 7347}, {"was", 6030}, {"l", 5981}, {"le", 5735}, >, {"屠宰场", 1}, {"减少", 1}, {"减少", 1}, {"减少", 1}, {"abated", 1}, {"abandonn", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}

这是第二个文件的示例：

{{"the", 30419}, {"n", 20414}, {"de", 19956}, {"of", 16262}, {"and",
14488}, {"到", 12726}, {"a", 12635}, {"在", 11141}, {"la", 10739}, {"et", 9016}, {"les", 8675}, {"le", 7748}, >, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, {"abated", 1}, {"放弃", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}

我想将它们组合起来，以便频率数据聚合：即，如果第二个文件出现 30,419 次“the”并连接到第一个文件，则它应该返回出现 72,635 次（依此类推，当我遍历整个文件时）收藏）。

听起来你需要GatherBy.

假设你的两个列表被命名为data1 and data2，然后使用

{#[[1, 1]], Total[#[[All, 2]]]} & /@ GatherBy[Join[data1, data2], First]

这很容易推广到任意数量的列表，而不仅仅是两个。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

wolframmathematica

wordfrequency

组合词频数据列表的相关文章

Mathematica 中的树数据结构

我主要使用mathematica 作为数学工作台和编写相对较小的临时程序然而我正在设计一个系统打算在 Mathematica 中编程我需要将数据存储在树中并搜索和遍历树尽管我知道如何实现树但我更喜欢标准的经过测试的代码我在
使用 Mathematica 7 调试 Mathematica 5 上的工作程序

我目前正在阅读 Mathematica 编程指南并试图编写这本书的第一个程序基本上当我运行以下程序时 Plot3D Re Exp 1 x I y x 0 02 0 022 y 0 04 0 042 PlotRange gt 1 8 P
生成随机非奇异整数矩阵

作为合成噪声生成算法的一部分我必须动态构造许多大型非奇异方阵 a i j i j 1 n i j a i j and 0 a i j k and Det a 0 but the a i j should also be random fo
如何检查表达式是否包含复杂表达式？

有没有办法检查表达式是否包含复杂表达式虚数文档说你无法检查表达式是否包含I因为它是如何解释的我也尝试过ImaginaryQ expr expr Conjugate expr and Simplify expr Simplify Con
具有断轴和交错颜色条的直方图

我有这些数据 a b c d e alpha 5 51 0 60 0 12 26 90 76284 53 beta 3 39 0 94 0 17 0 20 0 20 gamma 7 98 3 34 1 41 7 74 28394 93 de
如何在mathematica中应用涉及一百个变量的规则

我有一个涉及 x1 x2 x100 的表达式我还有一个列表lst有 100 个元素如何将规则应用于此表达式以实现如下所示的效果 exp x1 gt lst 1 x2 gt lst 2 x100 gt lst 100 Thanks exp
将声音导出为 WAV 文件

我从来没有在 Mma 中过多地使用声音 I have t Sound List Violin SoundNote 6 我怎样才能导出t作为 WAV 文件当我尝试显而易见的事情时 Export c test wav t I get 在这个旧
对嵌套列表内的列表进行排序

我有一个嵌套列表 9 8 7 8 7 6 7 6 5 6 5 4 5 4 3 4 3 2 3 2 1 我需要对列表中的列表进行排序才能创建 7 8 9 6 7 8 5 6 7 4 5 6 3 4 5 2 3 4 1 2 3 我该怎么做呢你
Mathematica 中的语法着色

用户定义的函数符号如f in f x 2 x 或变量符号例如lotto in lotto Table 2 10 自动着色在 M8 上的语法着色中没有为此提供选项仅限未分配值的局部变量或全局符号这并不完全是您所要求的但可能对您有用
对函数体评估感到困惑

我对以下行为感到困惑Function In 1 InlineCellInMessage Function expr DisplayForm Cell BoxData MakeBoxes expr StandardForm Input Hol
用于出版质量图的 Python Pylab pcolor 选项

我正在尝试使用 DFT 离散傅立叶变换图pcolor在Python中我之前一直使用 Mathematica 8 0 来执行此操作但我发现 Mathematica 8 0 中的颜色条与我尝试表示的数据具有不良的一对一相关性例如这是我
在 Mathematica 中计算此递推关系的更有效方法

Verbeia 对 Mathematica 中函数式编程风格的表现展开了一场相当有趣的讨论在这里能找到它在 Mathematica 中构建大型分块矩阵最有效的方法是什么 https stackoverflow com q 6867079
解决电力塔

a 2 Power 10 6 10 9 3 Power 4 9 7 5 TwoTower n Nest 2 1 n 最小的是什么n这样TwoTower n gt a This question http www quora com How
Mathematica：MathLink 错误消息

我想我开始理解如何将用 C C 编写的函数链接到数学我面临的问题是我不知道如何将错误消息从我的 C 包装器发送到 Mathematica 在谷歌搜索后我发现了这个MathLink 教程 http www edenwaith com dev
创建自定义表格表示的函数

我使用下面的代码来概述我的部分数据从以下代码中创建函数的最佳方法是什么它将采用 dataList 以及一些图形选项例如颜色作为参数并返回自定义的表格表示形式如下所示 overviewtheData Text Grid Map R
如何在 Mathematica 8 中并行集成

有人知道如何使用所有核心来计算积分吗我需要使用并行化或并行表但如何使用 f r Sum 1 n 2 r 2 n 7 2 n n r 2 n 1 x r 2 n 1 n 0 r 2 Nw Transpose Table f j i 1 j
在 Mathematica 中使用图形进行渐变填充

我如何使用以下内容创建Rectangle in Graphics Using Polygon 你可以 Graphics EdgeForm Black Polygon 0 0 3 0 3 1 0 1 VertexColors gt White
可以在 Mathematica 中扩展 PDF、CDF、FindDistributionParameters 等功能吗？

我开始使用新的 Mathematica 统计和数据分析功能进行越来越多的工作我周二参加了 Mathematica 统计与数据分析在线研讨会非常棒的演讲我强烈推荐但我遇到了一些问题我希望这个论坛上的人可以花点时间考虑一下我创建了
Mathematica 的模式匹配优化不佳？

我最近询问了为什么PatternTest引起了大量不必要的评估 PatternTest 未优化 https stackoverflow com questions 8484299 patterntest not optimized列昂尼德回
Mathematica 模块与 With 或 Block - 使用指南、经验法则？

Leonid 在他的书的第四章中写道 Module Block 和 With 这些结构在 Mathematica Book 和 Mathematica Help 中有详细解释所以我在这里简单介绍一下它们从我所读到的能够找到的我仍然处

随机推荐

Promise 构造函数的返回值

考虑下面两个例子 TEST 1 function test1 return new Promise function return 123 test1 then function data console log DATA data ret
如何取消合并单元格 EPPlus？

我正在尝试根据表列的数量取消合并并重新合并更短或更长的范围我使用了下面的代码但它似乎不起作用 tableSheet Cells C1 J1 Merge false 任何帮助将不胜感激您运行的是 EPP 4 0 1 吗如果是这样则这
一个属性可以访问另一个属性吗？

我刚刚接触Python 这是一个关于类的逻辑和实现的非常普遍的问题我对这个问题的基本水平表示歉意但希望它对其他人也有用这里有一些上下文可以使它更清楚 Context 我想创建一个代表图像的类该图像包括 3 个波段 R G B 与 3
从udf访问hdfs文件

我想通过 udf 调用访问文件这是我的脚本 files LOAD docs in USING PigStorage AS id stopwords id2 file buzz FOREACH files GENERATE pigbuzz
依赖下拉框 CakePHP 3

我创建了一个国家城市和客户表我试图确保当我从下拉列表中添加新客户时我可以选择一个国家然后选择与该国家地区相关的城市目前我无法从下拉列表中选择任何城市和国家地区组合这是我的数据库 CREATE TABLE IF NOT EXI
MySql 全天候查询结果

我需要获取一天中所有时间的数据即使计数为 0 现在它输出 clicks hour 1 7 2 13 我现在的查询 SELECT count as clicks hour time as hour FROM clicks WHERE DAT
DOM 中相邻的文本节点可以用 Javascript 合并吗？

假设我在网页 DOM 中有一个句子当我检查它时它由 3 个文本节点组成后跟一些元素例如粗体或斜体我想将文本节点合并为一个文本节点因为相邻的文本节点是没有意义的没有理由拥有它们有没有办法轻松合并它们谢谢看起来Node no
JPA OneToOne 关联，其中 2 个实体使用复合主键但使用不同的列名称？

我们正在尝试将 Hibernate 与数据库一起使用该数据库使用lot复合键的使用一直让我们很头疼不幸的是我们无法更改架构因此我们必须在字段之间进行大量额外的映射我们仅限于使用 JPA 1 0 和 Hibernate 3 3 最大
WooCommerce 中特定单个产品页面的附加自定义按钮

在 WooCommerce 中需要创建另一个按钮该按钮重定向到特定产品页面当前添加到购物车按钮下方的联系我们表单例如 http offers elements com sg product ha power dose faci
具有“加权”边缘的 Ford-Fulkerson 算法

福特福尔克森是否有任何变体可以在边缘增加额外的重量尺寸我的意思是某些边缘比其他边缘更理想尽管存在所有可能性但它会优先考虑理想边缘而不是不太理想的边缘据我所知增加权重有两种常见的概括最小成本流假设您对每条边都有一个权重
将 $or 与 $elemMatch 和数组外部的条件一起使用

我的基本结构是我有一个 User 对象和一个包含 subjectId 和每小时价格的会话对象 User defaultHourly Number subjects id String hourly Number 我这样使用 elemMatc
如何在 JavaScript 中计算负整数的模？

我试图通过递增或递减 1 来迭代 jQuery 对象数组因此对于递减部分我使用以下代码 var splitted id currentDiv attr id split var indexOfDivToGo parseInt spli
Vagrant 与 apache 同步文件夹权限问题

我正在运行 Centos6 4 机器 Running vagrant upVagrant 文件中没有同步文件夹配置就可以了我可以通过以下方式访问我的主机http localhost 8080它显示 Apache 页面我可以在中创建ind
比较rapidjson::文档

我有两个 RapidJSON 文档一个是我在运行时创建的另一个是从磁盘读取的我想比较这两个文件是否相似比较 RapidJSON 文档的最佳方法是什么我的 JSON 看起来像这样 SimpleCompany Manager read
如何使用 PHP 读取串口 [重复]

这个问题在这里已经有答案了如何使用 php 从连接到我的服务器运行 kali linux 的旧笔记本电脑上的 COM 端口的 arduino 读取串行数据以便我可以在网页上显示数据我读过有关同一问题的其他问题所有这些问题要么超级
虚幻引擎 4 中的 C++ 嵌套 JSON

我有一个从服务器获取的 JSON 对象如下所示 state 1 player1 alias Player Name ready 0 我能够获取 JSON 将其解析为 FJsonObject 并使用以下代码检索 JSON 对象第一级中的任何
使用多个 Getter 时用 Try-Catch 代替 Null 检查

我的问题如下我有一个很长的 Getter 即 objectA getObjectB getObjectC getObjectD getObjectE getName 由于糟糕的数据库实体设计有些东西比其他东西晚于其他东西引入它发
获取所选项目的详细信息

我正在使用sap m ObjectListItem作为我已从 API 绑定 JSON 数据的列表项但是当我按下某个项目时我找不到从列表中获取所选项目的方法甚至获得该物品的钥匙也会有帮助
用 unicode 分隔符分割字符串？ [复制]

这个问题在这里已经有答案了给定字符串 str Led Zeppelin Blackdog 我该如何分割它最终得到 Led Zeppelin Blackdog but 不是连字符它被编码为u u2014 我该怎么做如果您希望清楚地表明
组合词频数据列表

这似乎应该是一个显而易见的问题但列表上的教程和文档尚未发布其中许多问题源于我的文本文件的巨大大小数百 MB 以及我试图将它们归结为我的系统可以管理的内容因此我正在分段进行工作现在正在尝试合并结果我有多个词频列表大约 40 个

组合词频数据列表

组合词频数据列表 的相关文章

随机推荐

热门标签

组合词频数据列表的相关文章