如何在 Python 中使数据正确符合幂律？

2024-04-18

我正在考虑Moby Dick 小说中独特单词的出现次数 http://tuvalu.santafe.edu/%7Eaaronc/powerlaws/data.htm并使用powerlaw蟒蛇包 https://pythonhosted.org/powerlaw/让单词的频率符合幂律。

我不知道为什么我不能重述 Clauset 等人之前工作的结果。因为 p 值和 KS 分数都是“坏”。

这个想法是将独特单词的频率符合幂律。然而，Kolmogorov-Smirnov 拟合优度检验的计算公式为scipy.stats.kstest看起来很糟糕。

我有以下函数可以使数据符合幂律：

import numpy as np
import powerlaw
import scipy
from scipy import stats

def fit_x(x):
    fit = powerlaw.Fit(x, discrete=True)
    alpha = fit.power_law.alpha
    xmin  = fit.power_law.xmin
    print('powerlaw', scipy.stats.kstest(x, "powerlaw", args=(alpha, xmin), N=len(x)))
    print('lognorm', scipy.stats.kstest(x, "lognorm", args=(np.mean(x), np.std(x)), N=len(x)))

下载 Herman Melville 的小说 Moby Dick 中独特单词的频率（根据 Aaron Clauset 等人的说法，应该遵循幂律）：

wget http://tuvalu.santafe.edu/~aaronc/powerlaws/data/words.txt

Python脚本：

x =  np.loadtxt('./words.txt')
fit_x(x)

results:

('powerlaw', KstestResult(statistic=0.862264651286131, pvalue=0.0))
('log norm', KstestResult(statistic=0.9910368602492707, pvalue=0.0))

当我比较预期结果并遵循此R教程 https://cran.r-project.org/web/packages/poweRlaw/vignettes/b_powerlaw_examples.pdf在同一个 Moby Dick 数据集上，我得到了不错的 p 值和 KS 测试值：

library("poweRlaw")
data("moby", package="poweRlaw")
m_pl = displ$new(moby)
est = estimate_xmin(m_pl)
m_pl$setXmin(est)
bs_p = bootstrap_p(m_pl)
bs_p$p
## [1] 0.6738

在计算 KS 测试值并通过后处理拟合时我缺少什么powerlaw https://github.com/jeffalstott/powerlawpython 库？ PDF 和 CDF 对我来说看起来不错，但 KS 测试看起来有问题。

我觉得你应该注意数据是连续的还是离散的，然后选择合适的检验方法；另外，正如前面所说，数据的大小会对结果产生一定的影响，希望对你有帮助

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Python 中使数据正确符合幂律？的相关文章

指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
R参考类问题

我正在尝试在 R 中创建一个简单的参考类这是我的代码 R 初学者 MyClass lt setRefClass MyClass fields list a numeric b numeric methods list initialize
函数“[<-”将_替换_一个元素，但不会追加_元素_

我在使用时注意到以下几点 lt 我成功于替换元素但不位于追加向量的一个元素例子 VarX lt integer VarX 1 lt 11 lt VarX 2 22 VarX 1 11 Expected the value of VarX
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
在 Lavaan 生长曲线模型中提取个体轨迹

我已经使用 R 的 Lavaan 包中的 Growth 函数成功地对一项研究的纵向数据进行了建模我找不到任何关于如何提取每个参与者的预测轨迹的记录我只能找到整个组的预测轨迹在摘要输出的拦截部分下给出使用 lavPredict m
Python MySQL 操作错误：1045，“用户 root@'localhost' 的访问被拒绝

我试图通过以下方式从我的 python 程序访问数据库 db mysql connect host localhost user Max passwd maxkim db TESTDB cursor db cursor 但是我在第一行代码
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
Python 2 的 `exceptions` 模块在 Python3 中丢失了，它的内容到哪里去了？

一位朋友提到对于 Python 2 假设您在命令行上的路径环境变量中有它 pydoc exceptions 非常有用知道它应该可以为他每周节省几分钟的网络查找时间我自己每周都会用谷歌搜索一次例外层次结构所以这对我来说也是一个有用的提
为什么在Python解释器中输入_会返回True？ [复制]

这个问题在这里已经有答案了我的翻译行为非常奇怪 gt gt gt True gt gt gt type True
通过 Shiny 中的串扰将 Plotly 与 DT 结合使用

我正在编写一个应用程序来将 csv 文件读取为闪亮的并将散点图与 DT 表链接起来我几乎遵循了 Plotly 网站上 DT 数据表上的示例 https plot ly r datatable https plot ly r datatab
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
检索 geodjango 多边形对象的边界框

如何在 geodjango 中获取 MultiPolygon 对象的边界框在 API 中找不到任何内容http geodjango org docs geos html http geodjango org docs geos html
按组计算连续行中的值之间的差异

这是我的一个df 数据框 group value 1 10 1 20 1 25 2 5 2 10 2 15 我需要按组计算连续行中的值之间的差异所以我需要一个结果 group value diff 1 10 NA because the
R data.table fwrite 到 fread 空间分隔符并清空

我在使用 fread 以作为分隔符和散布的空白值时遇到问题例如这个 dt lt data table 1 5 1 5 1 5 make a simple table dt 3 V2 NA add a blank in the midd
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
R data.table 1.9.2 关于 setkey 的问题

这似乎是 1 8 10 后引入的一个错误与包含列表的 DT 的 setkey 相关运行下面两个代码来查看问题 library data table dtl lt list dtl 1 lt data table scenario 1 p

随机推荐

如何在 Haskell 中建模类层次结构？

我是一名 C 开发人员来自面向对象的世界我从接口类和类型层次结构的角度开始思考由于 Haskell 缺乏面向对象有时我发现自己陷入困境无法想出用 Haskell 建模某些问题的方法如何在 Haskell 中对涉及类层次结构的现
如何使用渲染器更改 Android 选项卡的背景颜色，同时使用自定义渲染器添加一些填充

在我的应用程序中我设置底部标签栏背景颜色如下所示
对于二进制文件，我应该使用 bfiles 还是 bigfiles？

有一些善变的扩展可用于处理大型二进制文件 Bfiles http mercurial selenic com wiki BfilesExtension BigFiles http mercurial selenic com wiki Big
如何避免 MV3 Chrome 扩展中同时存在多个 Service Worker？

我正在将 Chrome 扩展程序从清单版本 2 MV2 转换为清单版本 3 MV3 在MV2版本中后台页面脚本在扩展中具有突出的作用在启动时后台脚本从IndexedDB读取大量数据到RAM 然后在运行期间处理注入到页面中的内容脚本
Android：合并标签不适用于片段[重复]

这个问题在这里已经有答案了我是使用片段的初学者是否可以有这样的布局
NetBeans JavaScript？

我刚刚下载了 Netbeans 因为我读到另一个问题说它是开发 Javascript 的一个很好的 IDE 我尝试创建一个新项目但没有选项将其设置为 Javascript 如果有人知道如何设置它以使用Javascript进行开发请留下
ggplot2 0.9.3中美学的继承以及annotation_custom的行为

跟进最近的一个问题mine https stackoverflow com questions 14391183 ggplot2 annotation custom gives an empty layer 这个有点不同它使用更简单的示例
C++ SFINAE：const char[] 与 std::string 的 is_constructible

我正在尝试禁用具有非 std string 可构造类型的 ctor 我的第一次尝试是这样的 include
带有任务的欧拉数

我想使用这个公式 3k 计算多线程的欧拉数 2 1 3k k 0 但到目前为止我没有得到正确的结果其中一个问题是当我使用相当大的数字时我超出了阶乘函数的小数范围这就是我的结果到目前为止已经完成了 static void Main s
JS：Array.map不添加到数组

我有一些数据想要使用Array prototype map 但是在映射函数中外部函数调用可能会引发错误我想捕获此错误并且不将该特定对象添加到返回的数组中目前我只是返回未定义然后使用Array prototype filter清除未
从中心以顺时针方向扩展的螺旋打印二维数组

我有保证成为完美方阵我想从矩阵的中心开始在这种情况下它是matrix 2 2 我知道如何计算中心 int dimensions 2 我需要在下面输出数组的内容向外螺旋图案当然该算法应该适用于任何完美的方阵我不确定这个算法是否已经存
Pandas：解散数据框以添加任意数量的列？

我有一个数据框df在 Pandas 中看起来像这样 stores product discount Westminster 102141 T Westminster 102142 F City of London 102141 T City
c - 将 uint8_t* 转换为 uint32_t* 行为

我读过这个问题将 uint8 转换为 uint32 如何工作 https stackoverflow com questions 28603243 how does casting uint8 to uint32 work但我不确定给出的
标准库中聚合可初始化性的类型特征？

C 标准库有std is constructible
在 Eclipse 之外使用 Maven

我已经在 Eclipse 之外使用 Maven 但想使用 Eclipse 作为我的主编辑器我不想使用已经嵌入 M2E 的 Maven 我想使用位于 usr bin mvn 的我的在 Window gt Preferences 下我尝试
从 JDBC 结果集中获取 XML 的最佳方法

我正在寻找从 JDBC 结果集中获取 XML 文档的最佳方法 XML 的结构并不是非常重要但它应该相当快为了清楚起见我想要结果集中的数据和足够的元数据来识别数据本质上是字段名称我目前正在使用 MySQL DB2 SQL Serve
礼品卡/借记卡激活

一般问题零售机构如何限制礼品卡或预付费电话借记卡的激活他们必须有一个系统只能阻止您打电话激活未通过收银机扫描的卡而且我认为零售 ERP 会计系统中必须内置一个标准解决方案它可能涉及 Web 服务或 EDI 具体问题我问这一切是
“破坏对象”的variable = null从何而来？

在许多不同的公司中我在使用各种 NET 版本编写的许多遗留系统上工作不断发现以下模式的示例 public void FooBar object foo null object bar null try foo new object ba
“用户模板”未显示在“新项目”窗口中 - Xcode 4

我最近从 SDL 网站下载了两个 SDL 包并将它们移动到相应的文件夹中在 Library Application Support Developer Shared Xcode Project Templates 中我创建了一个名为 A
如何在 Python 中使数据正确符合幂律？

我正在考虑Moby Dick 小说中独特单词的出现次数 http tuvalu santafe edu 7Eaaronc powerlaws data htm并使用powerlaw蟒蛇包 https pythonhosted org pow

如何在 Python 中使数据正确符合幂律？

如何在 Python 中使数据正确符合幂律？ 的相关文章

随机推荐

热门标签

如何在 Python 中使数据正确符合幂律？的相关文章