如何确定单词的概率？

2024-04-08

我有两份文件。 Doc1 的格式如下：

TOPIC:  0 5892.0
site 0.0371690427699
Internet 0.0261371350984
online 0.0229124236253
web 0.0218940936864
say 0.0159538357094

TOPIC:  1 12366.0
web 0.150331554262
site 0.0517548115801
say 0.0451237263464
Internet 0.0153647096879
online 0.0135856380398

...以此类推，直到主题 99 以相同的模式。

Doc2 的格式为：

0 0.566667 0 0.0333333 0 0 0 0.133333 ..........

等等...每个主题总共有 100 个值，每个值。

现在，我必须找到每个单词的加权平均概率，即：

P(w) = alpha.P(w1)+ alpha.P(w2)+...... +alpha.P(wn)

where alpha = value in the nth position corresponding to the nth topic.

也就是说对于“say”这个词，概率应该是

P(say) = 0*0.0159 + 0.5666*0.045+.......

同样，对于每个单词，我都必须计算概率。

For  multiplication, if the word is taken from topic 0, then the 0th value from the doc2 must be considered and so on.

我只用下面的代码对单词的出现次数进行了计数，但从未获取它们的值。所以，我很困惑。

 with open(doc2, "r") as f:
    with open(doc3, "w") as f1:

         words = " ".join(line.strip() for line in f)
         d = defaultdict(int)
         for word in words.split():  
              d[word] += 1
              for key, value in d.iteritems() :
                  f1.write(key+ ' ' + str(value) + ' ')
              print '\n'

我的输出应该如下所示：

 say = "prob of this word calculated by above formula"
 site = "
 internet = "

等等。

我究竟做错了什么？

假设您忽略 TOPIC 行，请使用 defaultdict 对值进行分组，然后在最后进行计算：

from collections import defaultdict
from itertools import groupby, imap

d = defaultdict(list)
with open("doc1") as f,open("doc2") as f2:
    values = map(float, f2.read().split()) 
    for line in f:
        if line.strip() and not line.startswith("TOPIC"):
            name, val = line.split()
            d[name].append(float(val))

for k,v in d.items():
    print("Prob for {} is {}".format(k ,sum(i*j for i, j in zip(v,values)) ))

另一种方法是边做边计算，每次点击新部分（即带有 TOPIC 的行）时增加计数，以通过索引从值中获取正确的值：

from collections import defaultdict
d = defaultdict(float)
from itertools import  imap

with open("doc1") as f,open("doc2") as f2:
    # create list of all floats from doc2
    values = imap(float, f2.read().split())
    for line in f:
        # if we have a new TOPIC increase the ind to get corresponding ndex from values
        if line.startswith("TOPIC"):
            ind = next(values)
            continue
        # ignore empty lines
        if line.strip():
            # get word and float and multiply the val by corresponding values value
            name, val = line.split()
            d[name] += float(val) * values[ind]

for k,v in d.items():
    print("Prob for {} is {}".format(k ,v) )

使用你的两个 doc1 内容和0 0.566667 0 0.0333333 0doc2 内部输出以下两者：

Prob for web is 0.085187930859
Prob for say is 0.0255701266375
Prob for online is 0.0076985327511
Prob for site is 0.0293277438137
Prob for Internet is 0.00870667394471

您还可以使用 itertools groupby：

from collections import defaultdict
d = defaultdict(float)
from itertools import groupby, imap

with open("doc1") as f,open("doc2") as f2:
    values = imap(float, f2.read().split())
    # lambda x: not(x.strip()) will split into groups on the empty lines
    for ind, (k, v) in enumerate(groupby(f, key=lambda x: not(x.strip()))):
        if not k:
            topic = next(v) 
            #  get matching float from values
            f = next(values)
            # iterate over the group 
            for s in v:
                name, val = s.split()
                d[name] += (float(val) * f)
for k,v in d.iteritems():
    print("Prob for {} is {}".format(k,v))

对于 python3 所有迭代工具 https://docs.python.org/2/library/itertools.html imaps应该改为仅map它还返回 python3 中的迭代器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Linux

Probability

如何确定单词的概率？的相关文章

Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
在Python中连接反斜杠

我是 python 新手所以如果这听起来很简单请原谅我我想加入一些变量来生成一条路径像这样 AAAABBBBCCCC 2 2014 04 2014 04 01 csv Id TypeOfMachine year month year
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
在 Sphinx 文档中*仅*显示文档字符串？

Sphinx有一个功能叫做automethod从方法的文档字符串中提取文档并将其嵌入到文档中但它不仅嵌入了文档字符串还嵌入了方法签名名称参数我如何嵌入only文档字符串不包括方法签名 ref http www sphinx do
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
尝试安装 LESS 时出现“请尝试以 root/管理员身份再次运行此命令”错误

我正在尝试在我的计算机上安装 LESS 并且已经安装了节点但是当我输入 node install g less 时出现以下错误并且不知道该怎么办 FPaulMAC bin paul npm install g less npm ER
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

Angular 4 属性在构建时的对象类型上不存在

我正在使用 Angular 构建一个项目我使用 angular cli 启动了该项目当我尝试运行时ng build prod我不断收到此错误对象类型上不存在属性描述生成此错误的代码如下 export class AppCompon
基于 Spring Java 的静态方法配置

任何人都可以请建议为什么我们需要使用 a 来声明 PropertySourcesPlaceholderConfigurer beanstatic方法我刚刚发现如果我在下面使用非静态那么 url 将被设置为空值而不是从属性文件中获取
使用 JavaScript 对象文字表示法的 JavaScript 构造函数

使用对象字面量表示法在 JavaScript 中构建构造函数的最佳方法是什么 var myObject funca function funcb function 我希望能够打电话 var myVar new myObject 并将参数传递
使用 JavaScript 关闭 Youtube 注释

目前我知道有三种方法可以禁用 YouTube 视频中的注释您可以使用 YouTube 设置这对我不起作用因为我没有也不想要帐户您可以使用专门的扩展这可能有用但我不想为此而拥有一个带有大量选项的成熟扩展您可以使用广告拦截
PHPUnit ReflectionException 方法套件不存在

我正在使用 PHPUnit 版本 3 6 2 并且总是得到 PHP ReflectionException 第 113 行 pathTo pear PHPUnit Runner BaseTestRunner php 中不存在方法套件运行单
如何通过eclipse连接mysql数据库

我有一个在 eclipse kepler 中运行的应用程序我的数据库位于AWS RDS MySQL类型上我已经导入 mysql connector java gpl 5 1 31 msi 和 aws java sdk 1 8 5 jar
无法使用 WiX 安装程序创建注册表项值

以下组件按预期执行所有操作但无法写入最后一个注册表项值我没有收到任何错误
无法找到哈希字符串“android-P”的目标

我正在跟进this https codelabs developers google com codelabs mdc 101 java 1教程页面我得到了与他们在该页面中所说的完全相同的错误无法在以下位置找到哈希字符串 android
使用 Twitter API 可以追溯到多久以前

我用 C 开发了一个应用程序可以将推文提取到数据库中我目前正在使用 TweetSharp Wrapper 由于最近宣布 Twitter 现在已经对之前的所有推文建立了索引这使您可以返回到最初的推文因此我开始怀疑是否有可能返回到某个时
RMarkdown 文档中的条件格式表

例如我可能想使用以下规则为单元格着色编辑为不平凡如果 gt 4 则呈蓝色如果 3 5 则不填充如果 gt 3 且如果使用 RMarkdown knit 创建具有条件格式的表格 https stackoverflow com q
Django：如何允许可疑文件操作/复制文件

我想做一个SuspiciousFileOperationdjango 默认是不允许的我正在编写一个命令通过运行manage py importfiles 在我自己编写的 Django 文件存储中导入真实文件系统上给定的目录结构我想这
如何让 js-mode 正确缩进连续（复合？）var 声明？

如果我使用不同的var类似的陈述 function stretchDiv var wh window height var sz2 wh paddingTop paddingBottom mainTop 2 2 the scrollbar
为什么这里断言失败

为什么当我创建一个时断言在这里失败CvMat 我使用指针加载到 cv Mat 中的图像不会发生这种情况 struct RGB unsigned char b g r cv Point p RGB data CvMat mat cvCreat
iOS 14 上的 Arkit/SceneKit 抛出新警告（金属）

自从升级到 iOS14 以来每当我向场景添加基本节点时我都会收到金属警告我不使用任何阴影只使用标准材质 2020 09 24 18 51 04 548764 0100 Arvie AR 383 7987 Metal Compiler
C++：在 switch 语句内构造数组

我正在尝试构建一个具有几种不同配置的数组其中将随机选择一个配置我首先尝试的代码是 void createArray int tileVals int randInt rand 3 switch randInt case 0 int ti
从列表中删除重复值的最佳算法

从列表中删除重复值的最佳算法是什么我试过这个 for int i 0 i lt AuthorCounter 1 i for int j 0 j lt AuthorCounter 1 j if i j if AuthorGroupNode
Dapper AddDynamicParams 用于 Postgres 中带有 IEnumerable 参数的 IN 查询

首先我遇到了与两年前讨论过的相同问题据称该问题已得到解决有关该问题请参阅以下问题 Dapper AddDynamicParams for IN 语句具有动态参数名称 https stackoverflow com questi
!!~ （不是波浪线/bang bang 波浪线）如何改变“包含/包含”数组方法调用的结果？

如果您阅读 jQuery 上的评论inArray page here http api jquery com jQuery inArray 有一个有趣的声明 jQuery inArray elm arr 现在我相信双感叹号会将结果转换为类
为什么关系数据库存在可扩展性问题？

最近我在网上看到一些文章指出关系数据库存在扩展问题在大数据方面不太好用特别是在数据量很大的云计算中但通过谷歌搜索我找不到充分的理由来解释为什么它的可扩展性不高您能解释一下关系数据库在可扩展性方面的局限性吗 Thanks 想象一下
如何确定单词的概率？

我有两份文件 Doc1 的格式如下 TOPIC 0 5892 0 site 0 0371690427699 Internet 0 0261371350984 online 0 0229124236253 web 0 021894093686

如何确定单词的概率？

如何确定单词的概率？ 的相关文章

随机推荐

热门标签

如何确定单词的概率？的相关文章