使用 numpy 计算文本文档之间的 Kullback-Leibler (KL) 距离

2024-04-28

我的目标是计算以下文本文档之间的 KL 距离：

1)The boy is having a lad relationship
2)The boy is having a boy relationship
3)It is a lovely day in NY

我首先对文档进行矢量化，以便轻松应用 numpy

1)[1,1,1,1,1,1,1]
2)[1,2,1,1,1,2,1]
3)[1,1,1,1,1,1,1]

然后我应用以下代码来计算文本之间的 KL 距离：

import numpy as np
import math
from math import log

v=[[1,1,1,1,1,1,1],[1,2,1,1,1,2,1],[1,1,1,1,1,1,1]]
c=v[0]
def kl(p, q):
    p = np.asarray(p, dtype=np.float)
    q = np.asarray(q, dtype=np.float)
    return np.sum(np.where(p != 0,(p-q) * np.log10(p / q), 0))
for x in v:
    KL=kl(x,c)
    print KL

这是上面代码的结果：[0.0, 0.602059991328, 0.0]。文本1和3完全不同，但它们之间的距离为0，而高度相关的文本1和2的距离为0.602059991328。这不准确。

有人知道我在吉隆坡方面做得不对吗？非常感谢您的建议。

虽然我不想添加另一个答案，但这里有两点。首先，正如 Jaime 在评论中指出的那样，KL 散度（或距离 - 根据以下文档，它们是相同的）旨在衡量概率分布之间的差异。这基本上意味着传递给函数的内容应该是两个类数组，每个数组的元素之和为 1。

其次，scipy 显然确实实现了这一点，其命名方案与信息论领域更相关。该函数是“熵”：

scipy.stats.entropy(pk, qk=None, base=None)

http://docs.scipy.org/doc/scipy-dev/reference/ generated/scipy.stats.entropy.html http://docs.scipy.org/doc/scipy-dev/reference/generated/scipy.stats.entropy.html

来自文档：

如果 qk 不为 None，则计算相对熵（也称为 Kullback-Leibler 散度或 Kullback-Leibler 距离） S = sum(pk * log(pk / qk)，轴=0)。

该函数的好处还在于，如果您传递给它的向量之和不等于 1，它将对它们进行标准化（尽管这意味着您必须小心传递的数组 - 即它们是如何从数据构造的）。

希望这对您有所帮助，并且至少有一个库提供了它，因此您不必编写自己的代码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

NumPy

Distance

使用 numpy 计算文本文档之间的 Kullback-Leibler (KL) 距离的相关文章

求解超定系统最小二乘的最快方法

我有一个大小为 m n 的矩阵 A m 阶约为 100K n 阶约为 500 和向量 b 另外我的矩阵是病态的并且等级不足现在我想找出 Ax b 的最小二乘解为此我比较了一些方法 scipy linalg lstsq 时间剩余 14
如何将 c_uint 的 ctypes 数组转换为 numpy 数组

我有以下 ctypes 数组 data ctypes c uint 100 我想创建一个 numpy 数组np data包含来自 ctypes 数组数据的整数值 ctypes 数组显然稍后会填充值我看到numpy中有一个ctypes接口
为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
Python Numpy Reshape错误[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试重塑 3D numpy 数组时遇到一个奇怪的错误数组 x 的形状为 6 10 300 我想将其重塑为 6 3000 我正
如何将 numpy rearray 的子集转换为连续数组？

我有一个recarray来自读取 csv 文件我有兴趣将列的子集转换为连续浮点数组我想避免将它们转换为列表或将它们一一堆叠我尝试了中的建议https stackoverflow com a 11792956 https stackov
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
使用 Python 和 Google App Engine 的 Cookie

我正在 Google App Engine 上开发一个应用程序但遇到了问题我想向每个用户会话添加一个 cookie 以便我能够区分当前用户我希望他们都是匿名的因此我不需要登录因此我为 cookie 实现了以下代码 def cle
分段错误：当我运行 Pygame 时为 11

有人问过类似的问题here https stackoverflow com questions 34278488 pygame display causing segmentation fault 11 但没有得到答复我有 Python
在我的代码中使用 python 单词“type”安全吗？

我可以用这个词吗type在我自己的代码中还是保留的我的函数头 def get self region Delhi city Delhi category Apartments type For sale limit 60 PAGESIZE
对 os.listdir 文件进行排序 Python

如果已下载数年的数据这些数据存储在具有以下命名约定的文件中 year day dat 例如名为 2014 1 dat 的文件包含 2014 年 1 月 1 日的数据我需要按天排序读取这些数据文件 2014 1 dat 2014 2 d
3D 网格之间的豪斯多夫距离

我有多个网格 numpy 数组 Nk Ny Nx 并且想使用 Hausdorff 距离作为这些网格相似性的度量 scipy 中有几个模块 scipy spatial distance cdist scipy spatial distance
Django Admin DateTimeField 显示 24 小时格式时间

我尝试了谷歌但没有找到解决方案在Django管理端我正在显示开始日期 and end date随着时间的推移但时间已在24 hr格式我想显示它12 hr format class CompanyEvent models Model
清理 .txt 并计算最常见的单词

我需要 1 从停用词列表中清除 txt 我将其放在单独的 txt中 2 之后我需要统计最常见的 25 个单词这是我为第一部分想到的 usr bin python coding iso 8859 15 import re from coll
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
numpy：高效执行数组的复杂重塑

我正在将供应商提供的大型二进制数组读入 2D numpy 数组 tempfid M N load data data numpy fromfile file dirname fid dtype numpy dtype i4 convert
Python 2 的 `exceptions` 模块在 Python3 中丢失了，它的内容到哪里去了？

一位朋友提到对于 Python 2 假设您在命令行上的路径环境变量中有它 pydoc exceptions 非常有用知道它应该可以为他每周节省几分钟的网络查找时间我自己每周都会用谷歌搜索一次例外层次结构所以这对我来说也是一个有用的提
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
Numpy 相当于 MATLAB 的 hist [重复]

这个问题在这里已经有答案了由于某种原因 Numpy 的 hist 总是返回比 MATLAB 的 hist 少 1 个 bin 例如在 MATLAB 中 x 1 2 2 2 1 4 4 2 3 3 3 3 Rep Val hist x un
使用步幅沿轴填充每个切片上的对角线

考虑 numpy 数组a a np arange 18 reshape 2 3 3 print a 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 我想沿着每个切片的对角线填充axis 0我使用以下方
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r

随机推荐

preg_replace 和中文字符的奇怪问题

我有这个奇怪的问题经过 preg replace 后一些汉字变成了时髦的字符这是脚本 message strip tags mysql real escape string POST message img
Matplotlib和Pandas结合时对fig、ax、plt的理解

我试图更好地理解在结合 Matplotlib 和 Pandas 进行绘图时图形轴和 plt 是如何组合在一起的所接受的在这里回答 https stackoverflow com questions 29568110 how to us
NHibernate 反射优化器 - 它有什么作用？

我发现每当我禁用 nhibernate 反射优化器时初始化会话工厂的速度就会大大加快这对于测试目的非常有用
如何转换存储为两列（开始、结束）的日期范围以创建新行索引并填充值[重复]

这个问题在这里已经有答案了我想将存储为两列开始结束值的日期范围转换为仅包含日期和值的两个新列 my data id end start value 1 4421 2014 01 01 2014 01 03 10 2 4421 201
如何在运行时使用NLog获取当前目标文件的路径？

我使用 NLog 进行下一个配置
C: (int)x 和 Floor(x) 之间的区别？

在C语言中这两者有什么区别 float myF 5 6 printf i n int myF gives me 5 printf ld n floor myF also 5 什么时候其中一种比另一种更可取一个很大的区别是负数如果你改变
如何在 Excel 中创建时间范围图表

Can anyone help me create graph of time ranges of all elements in Excel My data looks like this 连接时间和断开连接时间数据值采用 24 小时格式
一次性渲染阴影

考虑到阴影投射的成本我想知道对于动态定位的静态对象例如程序城市是否有一个功能或可能实验性的方法可以在 Three js 中仅渲染一次阴影贴图甚至在 webgl 中因此结果可以在静态对象的下一帧中免费使用仅当物体移动时才会进
无法使用 LISTAGG

SELECT deptno LISTAGG ename WITHIN GROUP ORDER BY ename AS employees FROM emp GROUP BY deptno Error ORA 00923 FROM keywo
使用 LINQ XML 绑定组合框

请原谅我的英语不好那不是我的母语我是 WPF 和 LINQ 的初学者从 3 天开始也是 C 的临时用户昨天我一整天都在尝试解决我的问题并阅读了一些文档但我的代码中的错误仍然存在我将 XElement 传递给绑定其内容的控件
postgresql中插入语句中的加密密码抛出错误（需要添加显式类型转换）

刚接触 postgresql 这可能很简单但我不明白我在 mysql 中有这个 insert into APP USERS VALUES 1 admin adminemailid System Administrator SysAdmi
委托会导致内存泄漏吗？

委托会导致内存泄漏吗我的意思是例如如果一个班级A包含一个ADelegate后者指向BMethod of Bclass 这是否可以阻止 GC 收集 A 类或 B 类如果是这样我们如何释放代表设置ADeletate Nothing
ReactJS - 反应表中的复选框列不起作用

我添加了一个可编辑的反应表 https codesandbox io s github tannerlinsley react table tree master examples kitchen sink https codesandbo
Django 管理、静态和媒体文件中的混乱

我对 Django 1 4 比较陌生并且很难理解静态媒体和管理文件背后的原理每个教程的项目结构都不同 Webfaction 的结构也不同我将在其中托管我的应用程序我想知道在将其部署到 Webfaction 时组织它的最佳方式是什么
使用 feign 相对于 RestTemplate 有何优缺点

我知道 Feign 是声明性的因此它为开发人员抽象出了很多东西但是什么时候应该选择其中一种而不是另一种呢虽然 feign 是声明性的但它与 oAuth 存在严重问题使用 RestTemplate 而非 Feign 有哪些注意事项
GIT: /.git/index.lock': 文件存在

我的 git 存储库一直存在问题我不断收到以下错误 fatal Unable to create v path to files git index lock File exists If no other git process is
第一次播放声音时 AVAudioPlayer 启动缓慢

我试图消除通过 iPhone 上的 AVAudioPlayer 播放非常短不到 2 秒音频文件时的启动延迟首先代码 NSString audioFile NSString stringWithFormat caf NSBundle
如何向 Flash Player 10.1 发出启动 flv 或 swf 的意图？

我有一堆FLV视频文件存储在媒体服务器我正在尝试让它们在 Flash 播放器中启动一直在四处寻找但没有找到太多帮助我已将 flv 文件下载到临时存储中并尝试使用intent 这就是我的代码的样子来自我在网上看到的 try URL
当我尝试创建 SignalR hubConnection 时，System.Net.Http.HttpRequestException 被捕获

请帮助我当我尝试建立 hubConnection 时我不断收到 System Net Http HttpRequestException 我已经浏览了很多教程并下载了示例代码但似乎没有任何效果我也尝试过在线搜索配置计算机的方法但很
使用 numpy 计算文本文档之间的 Kullback-Leibler (KL) 距离

我的目标是计算以下文本文档之间的 KL 距离 1 The boy is having a lad relationship 2 The boy is having a boy relationship 3 It is a lovely da

使用 numpy 计算文本文档之间的 Kullback-Leibler (KL) 距离

使用 numpy 计算文本文档之间的 Kullback-Leibler (KL) 距离 的相关文章

随机推荐

热门标签

使用 numpy 计算文本文档之间的 Kullback-Leibler (KL) 距离的相关文章