英文字母信息熵与冗余度计算Python实现

2023-05-16

26个英文字母在平均出现时的信息熵是4.7BIT,而去掉冗余度后的英文字母的信息熵是4.03BIT。

公式: H(信息熵) = -∑ Pi log2(Pi); Pi:为每个字母在信息中出现的概率; 计算公式并不复杂. 取以2为底的对数的道理也很简单,因为如果: 2n = X 的话,那么logX = n; 所以可以看出所谓信息熵就二进制的字符集在去掉冗余度后的二进制编码位数.冗余度是通过统计每个字符出现概率获得的。

各个字母英语中出现的频率

字母	英语中出现的频率
a	8.167%
b	1.492%
c	2.782%
d	4.253%
e	12.702%
f	2.228%
g	2.015%
h	6.094%
i	6.966%
j	0.153%
k	0.772%
l	4.025%
m	2.406%
n	6.749%
o	7.507%
p	1.929%
q	0.095%
r	5.987%
s	6.327%
t	9.056%
u	2.758%
v	0.978%
w	2.360%
x	0.150%
y	1.974%
z	0.074%

python代码实现:

import math

def calEntropy(string):
    h = 0.0
    sumt = 0
    letter = [0] * 26
    string = string.lower()
    for i in range(len(string)):
        if string[i].isalpha():
            letter[ord(string[i]) - ord('a')] += 1
            sumt += 1
    print('\n', letter)
    for i in range(26):
        p = 1.0 * letter[i] / sumt
        if p > 0:
            h += -(p * math.log(p, 2))

    return h


test = input("输入一个英文句子：")
print('\n熵为：', calEntropy(test))

'''
letter = [8167,1492,2782,4253,12702,2228,2015,6094,6966,153,772,4025,2406,6749,7507,1929,95,5987,6327,9056,2758,978,2360,150,1974,74]
h = 0
for i in range(26):
    h += -(letter[i]/sum(letter)*math.log(letter[i]/sum(letter),2))
print(h)
'''

结果请访问：点击打开链接

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

英文字母信息熵与冗余度计算

英文字母信息熵与冗余度计算Python实现的相关文章

为什么 Python 在导入脚本时只保存脚本的字节码？

既然执行Python字节码会比运行原始源代码更快因为Python不需要重新编译为什么Python在导入脚本时只保存编译后的字节码呢为每个执行的脚本保存 pyc 文件不是更好吗无论如何 Python 解释器的启动时间都需要时间即使您
在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
为什么需要在 Python 方法中显式使用“self”参数？ [复制]

这个问题在这里已经有答案了当在 Python 中的类上定义方法时它看起来像这样 class MyClass object def init self x y self x x self y y 但在其他一些语言中例如 C 您可以使用
在Python中，如何将矩阵逆时针旋转90度？

gt gt gt def rotate matrix k List List int For example if I have m 1 2 3 2 3 3 5 4 3 rotate matrix m should give me 3 3
如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

eclipse svn 分支合并到主干

首先需厘清SVN的分支以下几个概念 xff1a trunk 主干可以理解为开发环境的代码 xff0c 平常做开发的工作目录 branches xff1a 从主干拷贝了一份代码重新在svn服务器上的建了个分支目录通常叫branch xff
Python GUI程序整理

文章目录 GUI程序 Python课程设计Windows系统资源探测器 Python密码存储器 wxpython简单记录生词GUI程序 python微博爬虫GUI程序 Python刷访问量GUI程序 Python弹球游戏 xff08 tki
基于词典的社交媒体内容的情感分析（Python实现）

之前写了一篇基于NLTK情感预测的文章http www omegaxyz com 2017 12 15 nltk emotion hilite 61 27NLTK 27b 更多内容访问omegaxyz com 情感词典是从微博新闻论坛等
在Linux（Ubuntu）下编写编译C语言

大家都知道在Windows中运行C语言很简单 xff0c 打开一个IDE xff08 VS或者codeblocks xff09 编写代码 xff0c 点击一个按钮就能运行了在Linux中 xff0c 大家不怎么习惯用IDE xff0c 更
提高C++运行效率的方法

一尽量减少值传递 xff0c 多用引用来传递参数至于其中的原因 xff0c 相信大家也很清楚 xff0c 如果参数是int等语言自定义的类型可能能性能的影响还不是很大 xff0c 但是如果参数是一个类的对象 xff0c 那么其效率问题就
第十三次CCF CSP认证（2018年3月）真题跳一跳

跳一跳问题描述近来 xff0c 跳一跳这款小游戏风靡全国 xff0c 受到不少玩家的喜爱简化后的跳一跳规则如下 xff1a 玩家每次从当前方块跳到下一个方块 xff0c 如果没有跳到下一个方块上则游戏结束如果跳到了方块上 xff0c
第十三次CCFCSP认证（2018年3月）真题碰撞的小球

问题描述数轴上有一条长度为L xff08 L为偶数的线段 xff0c 左端点在原点 xff0c 右端点在坐标L处有n个不计体积的小球在线段上 xff0c 开始时所有的小球都处在偶数坐标上 xff0c 速度方向向右 xff0c 速度大小
第十三次CCF CSP认证（2018年3月）真题URL映射

问题描述 URL 映射是诸如 Django Ruby on Rails 等网页框架 web frameworks 的一个重要组件对于从浏览器发来的 HTTP 请求 xff0c URL 映射模块会解析请求中的 URL 地址 xff0c 并将
第十三次CCF CSP认证（2018年3月）真题棋局评估

问题描述 Alice和Bob正在玩井字棋游戏井字棋游戏的规则很简单 xff1a 两人轮流往3 3的棋盘中放棋子 xff0c Alice放的是 X xff0c Bob放的是 O xff0c Alice执先当同一种棋子占据一行一列或一条对
第十三次CCF CSP认证（2018年3月）真题二次求和

问题描述给一棵 n 个节点的树 xff0c 用 1 到 n 的整数表示每个节点上有一个整数权值 ai 再给出两个整数 L R 现在有 m 个操作 xff0c 每个操作这样描述 xff1a 给定树上两个节点 u v 和一个整数 d xff
演化计算基本方法与思想

生物系统中 xff0c 进化被认为是一种成功的自适应方法 xff0c 具有很好的健壮性基本思想 xff1a 达尔文进化论是一种稳健的搜索和优化机制大多数生物体是通过自然选择和有性生殖进行进化自然选择决定了群体中哪些个体能够生存和繁殖
发布jar包到Maven中央仓库

平时自己开发的工具类或者其他的框架的jar包一般都是放在本地或者把代码上传到github让别人去下载然后自己打包今天就说说如何把自己的jar包发布到Maven的中央仓库让其他使用你的jar包的直接去中央仓库下载如果你用的是阿里云的m
机器学习术语表

本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义原文地址 xff1a https developers google cn machine learning glossary hl 61 zh CN A A B
Python单下划线与双下划线

foo 一种约定 Python内部的名字用来区别其他用户自定义的命名以防冲突 foo 一种约定用来指定变量私有程序员用来指定私有变量的一种方式 foo 这个有真正的意义解析器用 classname foo来代替这个名字以区别和其
wxpython控件自适应窗口大小

问题 xff1a wxpython作的窗口 xff0c 点击窗口最大化 xff0c 就会出问题 xff0c 1 窗口控件并不一起最大化 2 最大化后有些控件找不着了 xff0c 再恢复窗口 xff0c 那些消失的控件一样找不到 wxPyth
Python统计磁盘代码文件行数

听说简历要求10万行代码经验于是写了个Python脚本用来计算电脑磁盘内代码的行数主要功能 xff1a 统计指定代码的总行数统计每个代码单独的行数自定义设置存储路径设计思路 xff1a 将文件转化为txt文档 xff0c 对txt
第一个Android程序

Android Studio 是一个Android集成开发工具 xff0c 基于IntelliJ IDEA 类似 Eclipse ADT xff0c Android Studio 提供了集成的 Android 开发工具用于开发和调试在ID
面向过程与面向对象代码实例对比

面向过程式代码 xff08 使用数据结构的代码 xff09 便于在不改动既有数据结构的前提下添加新函数面向对象代码便于在不改动既有函数前提下添加新类过程式代码难以添加数据结构 xff0c 因为必须修改所有函数面向对象代码难以添加新函数
机器学习

文章目录机器学习基本理论基本术语与方法特征选择概述多目标优化问题分类算法经典算法分类算法NSGA2算法粒子群优化算法 xff08 PSO xff09 聚类算法蚁群算法 xff08 ACO xff09 其它算法前沿算法 NSGA2
英文字母信息熵与冗余度计算Python实现

26个英文字母在平均出现时的信息熵是4 7BIT 而去掉冗余度后的英文字母的信息熵是4 03BIT 公式 H 信息熵 61 Pi log2 Pi Pi 为每个字母在信息中出现的概率计算公式并不复杂取以2为底的对数的道理也很简单因为如果

英文字母信息熵与冗余度计算Python实现

英文字母信息熵与冗余度计算Python实现 的相关文章

随机推荐

热门标签

英文字母信息熵与冗余度计算Python实现的相关文章