信息检索中的语言模型

2023-12-25

我在 IR 工作。

任何人都可以指导我，我该如何实现语言模型Whoosh。我已经应用了TD-IDF和BM25。我是红外新手。

例如，最简单形式的语言模型只是丢弃所有条件上下文，并独立估计每个术语。这样的模型称为一元语言模型：

P_{uni}(t_1t_2t_3t_4) = P(t_1)P(t_2)P(t_3)P(t_4)

有许多更复杂的语言模型，例如二元语言模型，它以前一项为条件，

P_{bi}(t_1t_2t_3t_4) = P(t_1)P(t_2\vert t_1)P(t_3\vert t_2)P(t_4\vert t_3)

看一眼Whoosh的评分模块 https://github.com/whoosh-community/whoosh/blob/master/src/whoosh/scoring.py并使用 BM25F（第 276 至 332 行）作为构建您自己的加权和评分模型的参考。您需要创建一个加权模型和一个评分器。假设你想调用你的模型Unigram，主要步骤是：

实施你自己的Unigram加权模型类并继承自scoring.WeightingModel:

class Unigram(WeightingModel)

实现基类所需的方法，主要是scorer()，它返回对您的引用Scorer类（下一个）。当你创建你的类时会调用这个类searcher并定义搜索者将使用的加权模型。
实施一个UnigramScorer类并继承自scoring.WeightLengthScorer:

class UnigramScorer(WeightLengthScorer)

实施__init__ and _score方法。__init__ 获取字段名称和值，并在调用时为查询中的每个术语调用一次searcher.search(). _score为结果中的每个匹配文档调用。这需要一个weight and length并返回给定字段的分数。
当您在搜索时创建搜索器时，请使用weighting范围：

ix.searcher(weighting = Unigram)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

informationretrieval

whoosh

信息检索中的语言模型的相关文章

使用单个文件的 Python 日志记录（函数名、文件名、行号）

我正在尝试了解应用程序的工作原理为此我将调试命令插入作为每个函数主体的第一行目的是记录函数的名称以及向日志输出发送消息的行号代码内最后由于这个应用程序由许多文件组成我想创建一个日志文件以便我可以更好地理解应用程序的控制流这
为神经网络打乱两个 numpy 数组

我有两个 numpy 数组用于输入数据 X 和输出数据 y X np array 2 3 sample 1 x 16 4 dtype float sample 2 x y np array 1 0 sample 1 y 0 1 dtype
安装tensorflow的正确命令

当尝试在 Anaconda 上安装 Tensorflow 时我尝试了两种类型的命令 conda install tensorflow gpu工作得很好然而当尝试conda install c anaconda tensorflow g
Keras ZeroDivisionError：整数除法或以零为模

我正在尝试使用 Keras 和 Tensorflow 实现卷积神经网络我有以下代码 from keras models import Sequential from keras layers import Conv2D MaxPoolin
如何在seaborn热图标签中使用科学计数法？

我正在尝试在 python 中使用seaborn 获取热图不幸的是即使数字非常大它也没有使用科学记数法我想知道是否有任何简单的方法可以转换为科学记数法或任何其他合理的格式这是显示问题的一段代码 import seaborn as
Django 查询：“datetime + delta”作为表达式

好吧我的问题如下假设我有下一个模型这是一个简单的情况 class Period models Model name CharField field specs here start date DateTimeField field s
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
从字典中绘制直方图

我创建了一个dictionary计算 a 中出现的次数list每个键的内容我现在想绘制其内容的直方图这是我想要绘制的字典的内容 1 27 34 1 3 72 4 62 5 33 6 36 7 20 8 12 9 9 10 6 11 5
Karasuba算法递归过多

我正在尝试用 c 实现 Karasuba 乘法算法但现在我只是想让它在 python 中工作这是我的代码 def mult x y b m if max x y lt b return x y bm pow b m x0 x bm x1
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
Jupyter笔记本突然变得很慢

我以前在anaconda环境下运行jupyter运行得很好显示警告后 IOPub data rate exceeded The notebook server will temporarily stop sending output to
使用 Windows 任务计划程序安排 [Virtualenv 相关] Python 脚本

I want to schedule a python script to start at 3AM and break at 5PM every weekday However the problem arises when I need
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 目录 'app/static' 不存在

当我运行 server py 文件时出现错误 File C Users nawin AppData Local Programs Python Python38 lib site packages starlette staticfiles
使用 Sphinx 时，如何记录没有文档字符串的成员？

我正在为我发布的包编写文档我发现您的文档越全面人们就越容易找到您的包来使用废话实际上我在充满爱心地编写代码的所有功能和细节方面获得了很多乐趣然而我对如何为类级变量编写与 Sphinx 兼容的文档感到完全困惑特别是我有一些e
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过

随机推荐

Python发送UDP数据包

我正在尝试编写一个程序来发送 UDP 数据包如https wiki python org moin UdpCommunication https wiki python org moin UdpCommunication该代码似乎是 Py
使用 boost Spirit (longest_d) 解析 int 或 double

我正在寻找一种将字符串解析为 int 或 double 的方法解析器应该尝试两种选择并选择与输入流的最长部分匹配的一个有一个已弃用的指令 longest d 正是我正在寻找的 number longest d integer real
RavenDB：Raven 查询未返回文档授权的正确计数

public class EngineInfo public int Id get set public int AircraftId get set public string SerialNumber get set public in
VSTS 登录失败，出现 401 未授权 - [用户] 有多个与其关联的帐户

我尝试让域中的新用户访问我们的 VSTS 我们通过 MPN 订阅 MSDN 企业版如果用户使用其工作帐户登录 my visualstudio com 则订阅已分配且对用户可见如果用户尝试访问 ourprojects visualstud
Clojure 单元测试。如何测试函数是否抛出异常？

我看到有一种方法可以测试函数是否抛出类 C 的异常但是有没有一种方法可以测试函数是否抛出任何异常或者断言它不应该抛出异常对于预计不会出现异常的测试请按正常方式编写测试任何抛出的异常都会导致测试失败对于可能引发任何异常的测试请使
Android 资源 ID 突然不是最终的，字段无法解析

我正在开发一个新旧项目我正在为不同的国家地区市场制作它当我从旧项目复制代码时它显示一些错误例如迁移 ANDROID 代码从 ADT 14 开始资源字段不能用作 switch case 这种情况发生在 strings xml 文
如何在 Ruby 中创建 OpenGL 3.x 或 4.x 上下文？

我到处都找过了但没有任何 ruby 绑定可以允许创建 OpenGL 3 4 上下文它不必是完整的 OpenGL 绑定库只需创建 OpenGL 上下文的部分即可更新如果我足够绝望我会用 ruby ffi 进行部分 glfw rub
位置：固定边距：IE9/10 中自动

我为响应式网站制作了一个粘性标题其中标题也以margin 0 auto 它适用于 Chrome Firefox Safari IE8 但不适用于 IE9 最小标记 div class viewport div
如何在微控制器上运行opencv？

我对电子领域和控制器了解很多但我想知道如何将opencv程序与红色交通灯结合起来我知道答案是微控制器但我只知道有一个编译器AVR 它可以将C编译为十六进制然后与微控制器一起工作但 OpenCV 我想我不会在 C 上运行是高级别的
动画选择器/状态转换

我的 ListView 有一个简单的选择器
将 Visual Studio 项目文件解析为 XML

使用动态 xml 解析器我尝试将 VS 项目文件作为 XElement 加载这是项目文件的精简版本
如何将数据从blob存储复制到VM？

是否可以将 Azure Blob 存储中存在的文件复制到 Azure 虚拟机在浏览了 Azure 数据工厂文档后数据管理网关似乎提供文件系统作为数据接收器但我无法找到任何相关文档教程谁能告诉我这是否可能吗如果可以的话可以怎
将 HTML 画布裁剪为其可见像素（内容）的宽度/高度？

可以 HTMLcanvas元素被内部裁剪以适应其内容例如如果我有一个 500x500 像素的画布其中的随机位置只有一个 10x10 像素的正方形是否有一个函数可以通过扫描可见像素和裁剪将整个画布裁剪为 10x10 Edit 这被标记
如何在黑莓应用程序中显示饼图[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案如何使用 rim api 在黑莓应用程序中显示饼图 rim api 中是否有可用的控件或者如何实现有人可以通过分享代码片段来帮助我吗 Go
旋转后找到矩形的顶点

所以我承认我真的不知道如何表达这个问题但完整的解释应该有助于阐明一些情况这是我所知道的我在 HTML5 Canvas 上绘制了一个矩形我知道所有 4 个角的点以及宽度和高度由此我可以计算出中点我想知道的是如果我将矩形旋转 n
iptables 阻止本地连接到 mongodb

我有一个带有 mongodb 2 0 4 的虚拟机 Ubuntu 12 04 4 LTS 我想用 iptables 限制它只接受 SSH 输入输出而不接受其他任何东西这就是我的设置脚本设置规则的方式 bin sh DROP every
使用区间来分配分类值

获取以下通用数据 A lt c 5 7 11 10 23 30 24 6 B lt c 1 2 3 1 2 3 1 2 C lt data frame A B 以及以下间隔 library intervals interval1 lt In
一列中的多个图表区域

I have a chart with multiple chart areas When I press a button a new chart area is being created etc My problem is that
当一列中的单元格与另一列中的单元格不匹配时更改它们的颜色

我想检查一列中的值是否与另一列中的值相同每当值不相同时我想更改这些单元格的颜色例如 I 栏 AA 栏两者的值都是从 1318 年到 1500 年的第一个月阿拉伯历但我想检查其中哪些值不匹配例如用黄色将它们着色在这种情况下第
信息检索中的语言模型

我在 IR 工作任何人都可以指导我我该如何实现语言模型Whoosh 我已经应用了TD IDF和BM25 我是红外新手例如最简单形式的语言模型只是丢弃所有条件上下文并独立估计每个术语这样的模型称为一元语言模型 P uni t 1t

信息检索中的语言模型

信息检索中的语言模型 的相关文章

随机推荐

热门标签

信息检索中的语言模型的相关文章