阅读笔记：TF - IDF 原理

2023-05-16

今天查阅 TF-IDF 资料，发现百度百科里面提供了一个例子，解释的很清楚，记下来备用。

原文链接：https://baike.baidu.com/item/tf-idf/8816134?fr=aladdin

例子：在某个一共有一千词的网页中 “原子能”、“的” 和 “应用” 分别出现了 2 次、35 次和 5 次，那么它们的词频就分别是 0.002、0.035 和 0.005。我们将这三个数相加，其和 0.042 就是相应网页和查询“原子能的应用” 相关性的一个简单的度量。

概括地讲，如果一个查询包含关键词 w 1 , w 2 , . . . , w N w_1,w_2,...,w_N w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: T F 1 , T F 2 , . . . , T F N TF_1, TF_2, ..., TF_N TF1,TF2,...,TFN。（TF: term frequency)。那么，这个查询和该网页的相关性就是：

T F 1 + T F 2 + . . . + T F N TF_1 + TF_2 + ... + TF_N TF1+TF2+...+TFN

读者可能已经发现了又一个漏洞。在上面的例子中，词 “的”占了总词频的 80% 以上，而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”（Stopwords)，也就是说在度量相关性是不应考虑它们的频率。在汉语中，应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后，上述网页的相似度就变成了0.007，其中“原子能”贡献了 0.002，“应用”贡献了 0.005。细心的读者可能还会发现另一个小的漏洞。在汉语中，“应用”是个很通用的词，而“原子能”是个很专业的词，后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面两个条件：

一个词预测主题能力越强，权重就越大，反之，权重就越小。我们在网页中看到“原子能”这个词，或多或少地能了解网页的主题。我们看到“应用”一次，对主题基本上还是一无所知。因此，“原子能“的权重就应该比应用大。
应删除词的权重应该是零。

我们很容易发现，如果一个关键词只在很少的网页中出现，我们通过它就容易锁定搜索目标，它的权重也就应该大。反之如果一个词在大量网页中出现，我们看到它仍然不是很清楚要找什么内容，因此它应该小。概括地讲，假定一个关键词 w w w 在 D w D_w Dw 个网页中出现过，那么 D w D_w Dw 越大， w w w 的权重越小，反之亦然。在信息检索中，使用最多的权重是“逆文本频率指数” （Inverse document frequency 缩写为IDF），它的公式为 l o g （ D / D w ） log（D/D_w） log（D/Dw）其中 D D D 是全部网页数。比如，我们假定中文网页数是 D = 10 D=10 D=10亿，应删除词“的”在所有的网页中都出现，即 D w = 10 D_w=10 Dw=10亿，那么它的 I D F = l o g ( 10 亿 / 10 亿） = l o g ( 1 ) = 0 IDF=log(10亿/10亿）= log (1) = 0 IDF=log(10亿/10亿）=log(1)=0。假如专用词“原子能”在两百万个网页中出现，即 D w = 200 D_w=200 Dw=200万，则它的权重 I D F = l o g ( 500 ) = 2.7 IDF=log(500) =2.7% IDF=log(500)=2.7。又假定通用词“应用”，出现在五亿个网页中，它的权重 I D F = l o g ( 2 ) IDF = log(2) IDF=log(2) 则只有 0.3。也就是说，在网页中找到一个“原子能”的匹配相当于找到九个“应用”的匹配。利用 IDF，上述相关性计算的公式就由词频的简单求和变成了加权求和，即

T F 1 ∗ I D F 1 + 　 T F 2 ∗ I D F 2 + . . . + T F N ∗ I D F N TF_1*IDF_1 +　TF_2*IDF_2 +... + TF_N*IDF_N TF1∗IDF1+　TF2∗IDF2+...+TFN∗IDFN

在上面的例子中，该网页和“原子能的应用”的相关性为 0.0069，其中“原子能”贡献了 0.0054，而“应用”只贡献了0.0015。这个比例和我们的直觉比较一致了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

IDF

阅读笔记

阅读笔记：TF - IDF 原理的相关文章

TF-IDF

1 TF IDF是什么 xff1f TF IDF xff1a term frequency inverse document frequency 1 tf idf 作为一种权重经常被用作信息检索和文本挖掘领域 2 这样一种权重时通过统计计算
阅读笔记-软件工程的大泥球

软件工程的大泥球 xff08 原文地址 xff1a http www laputan org mud xff09 大泥球的定义 xff1a A BIG BALL OF MUD is a casually even haphazardly s
Knowledge Tracing: A Survey阅读笔记

xff08 注 xff1a 为了方便后续阅读KT论文 xff0c 文中一些名词使用英文文中保留的序号与原论文参考文献一致行文会在后续反刍过程中改进 xff09 原文链接 xff1a https arxiv org abs 2201 06
SRFBN阅读笔记

文章出自cvpr2019 全称 xff1a Feedback Network for Image Super ResolutionFB层的两个输入 xff08 规定F out 1是F in 0 xff09 先做concatenate xff
【阅读笔记】Towards Personalized Federated Learning个性化联邦综述

文章目录前言1 背景1 1 机器学习联邦学习1 2 促进个性化联邦学习的动机 2 个性化联邦学习的策略2 1 全局模型个性化2 1 1 基于数据的方法2 1 1 1 数据增强 Data Augmentation2 1 1 2 挑选客户端
TF-IDF

TF IDF xff08 term frequency inverse document frequency xff09 是一种用于信息检索与数据挖掘的常用加权技术 TF意思是词频 Term Frequency xff0c IDF意思是逆文
【阅读笔记】联邦学习实战——联邦学习攻防实战

联邦学习实战联邦学习攻防实战前言1 后门攻击1 1 问题定义1 2 后门攻击策略1 3 详细实现 2 差分隐私2 1 集中式差分隐私2 2 联邦差分隐私2 3 详细实现 3 模型压缩3 1 参数稀疏化3 1 1 详细实现3 1 2 实验
ESP32-IDF 使用VSCODE添加自己的头文件后无法找到的问题

最近在学习esp32 xff0c 使用VSCODE进行开发今天在添加自己的项目文件 xff0c 编译后 xff0c 系统提示找不到头文件 xff0c 找了很久 xff0c 最终在大佬同事的帮助下才解决 xff0c 这里记录一下情况一 x
TF-IDF

1 TF IDF是什么 xff1f TF IDF xff1a term frequency inverse document frequency 1 tf idf 作为一种权重经常被用作信息检索和文本挖掘领域 2 这样一种权重时通过统计计算
TF-IDF算法

TF IDF算法 TF IDF term frequency inverse document frequency 是一种用于信息检索与数据挖掘的常用加权技术 xff0c 常用于挖掘文章中的关键词 xff0c 而且算法简单高效 xff0c
freertos 编译c++失败_深度解剖~ FreeRtos阅读笔记1

上帝不仅给了我一颗低频的cpu还送了个劣质的晶振 xff0c 可悲可叹 xff01 无奈在家休养 xff0c 不然的话晶振偷停我可就驾鹤西去了不过这也是个好机会 xff0c 在家靠着窗户晒着太阳 xff0c 偶尔读读源码 xff0c 都很
ESP IDF socket 遇到以及解决 Socket unable to connect: errno 118

看代码 xff1a 以下代码的一部分是自己封装的库组件引脚初始化 gpio init 2 GPIO MODE OUTPUT LED亮 gpio set level 2 1 连接网络 WiFi connect LED灭 gpio set
VScode+esp-idf:例程(esp32-web-camera)保存视频到sd卡(附源码)

文章目录 1 移植到 esp32 web camera 2 jpeg2avi使用方法2 1 何处调用jpeg2avi start2 2 何处调用jpeg2avi add frame2 3何处调用jpeg2avi end 3 编译运行工程4
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理 NLP 之使用TF IDF模型计算文本相似度所用数据集 xff1a ChnSentiCorp htl all csv 语料库即存放稀疏向量的列表要注意的是 xff0c 搜索文本text与被检索的文档共用一个特征词词典 NL
第10章近似推断

10 近似推断在概率模型的应用中一个中心任务是在给定观测可见数据变量X的条件下计算潜在变量Z的后验概率分布 p Z X p Z X p Z X 以及计算
阅读笔记《Learning Attentive Pairwise Interaction for Fine-Grained Classification》

本文是关于 Learning Attentive Pairwise Interaction for Fine Grained Classification 的阅读笔记阅读前三个问题注意力成对交互网络 API Net 互向量学习 Mutu
《C++程序设计原理与实践》笔记第16章图形用户界面

图形用户界面 graphical user interface GUI 允许用户通过点击按钮选择菜单以不同的方式输入数据以及在屏幕上显示文本和图形等方式与程序进行交互在本章中我们将介绍编写代码来定义和控制GUI应用的基本方法 16
Visual Attention Network（VAN）

Visual Attention Network阅读翻译笔记原文 https arxiv org abs 2202 09741 代码 https github com Visual Attention Network 摘要虽然最初是为自
TOP 100值得读的图神经网络----自监督学习与预训练

清华大学的Top 100 GNN papers 其中分了十个方向每个方向10篇此篇为自监督学习与预训练方向的阅读笔记 Top100值得一读的图神经网络大家好我是蘑菇先生今天带来Top100 GNN Papers盘点文此外公众号
《程序员的自我修养--链接、装载与库》学习笔记（一）

本系列文章是程序员的自我修养链接装载与库电子工业出版社一书的学习摘录笔记本文是书中1 1至1 4部分文章目录基础概念硬件软件基础概念 include

随机推荐

CMake学习-01 综述

文章目录 1 CMake1 1 CMake生成makefile并编译的流程 2 CMakeLists txt2 1 Demo讲解2 2 常用命令2 2 1 指定CMAKE的最低版本2 2 2 设置项目名称2 2 3 设置变量2 2 4 设置
Rust：官方迭代器大全

一 for 和迭代器先看一段代码 xff1a span class token keyword fn span span class token function definition function main span span cl
Rust: 函数的重载——我做的的一组小实验

编程的时候 xff0c 我发现有不少函数能够根据左值类型自动调用重载函数但是 xff0c 我知道 Rust 的函数是不支持重载的所以我打算尝试一下这一重载现象是如何实现的一 Rust 不支持函数重载写一段代码 xff1a spa
php产生大量session文件导致报错无法创建修改文件：no space left on device

阿里云SLB健康检测后端服务器组产生百万级别的php的0k大小session文件今天早上在登录公司一台阿里云的服务器上vim修改配置文件以及touch文件时报错 xff1a no space left on device df h 查看了
Rust: Native Windows GUI下载、安装、演示入门

上 github 下载 xff0c 网址为 https github com gabdube native windows gui 上面有安装说明按说明方法 xff0c 老是提示权限不够配置了 ssh 公钥证书 xff0c 仍然不行请
Rust: Native Windows GUI 入门第一课，程序结构剖析

基于派生宏的代码实例 Cargo toml 文件 span class token punctuation span package span class token punctuation span name span class tok
通过两个神经元的极简模型，清晰透视 Pytorch 工作原理

解剖麻雀 xff0c 是分析了解复杂问题的好办法本文通过搭建只有两个神经元的网络 xff0c 从根本上剖析 Pytorch 工作原理先附上全部源代码 xff0c 然后听我慢慢唠 xff01 span class token keywor
Cifar-10 数据格式分析

Cifar 10 的介绍可去官网阅读 xff0c 也可参照我之前整理的笔记 xff1a CIFAR 01 和 CIFAR 100 数据集内容和格式详解 1 下载 Cifar 10 数据本文下载了 Cifar 10 的 Python 语言
准确率（Accuracy）、精度（Precision）、召回率（Recall）和 mAP 的图解

机器学习的评价指标让人眼花缭乱以前我写过一篇笔记总结了这个话题 xff0c 有兴趣的可以参考一下 xff1a 一分钟看懂深度学习中的准确率 xff08 Accuracy xff09 精度 xff08 Precision xff09 召回率
conda 基本用法

好久不用超算服务器了 xff0c 今天远程登陆一下 xff0c 发现以前写的代码都不能运行了鼓捣半天 xff0c 忽然想起来 xff0c 需要设置 conda 环境才行写此小结 xff0c 汇总一下 conda 的基本用法很久以前安装
jupyter 基本用法

前一段时间 xff0c 同事帮我在超算服务器安装了一套 jupyter notebook 软件 xff0c 甚是好用但用了几天后 xff0c 忽然就不能用了今天研究了一下 xff0c 发现是服务器程序关闭了 xff0c 所以我在浏览器端
pytorch模型的保存与加载

torch save 与 torch load 模型保存有两种形式 xff0c 一种是保存模型的 state dict xff0c 只是保存模型的参数那么加载时需要先创建一个模型的实例 model xff0c 之后通过 torch loa
用 SDK Mamager 安装 Nano

用 SDK Mamager 安装 Nano 一安装 sdk manager 在 PC 机上 Ubuntu 环境下 xff0c 下载 sdk manager 安装包 xff0c 用鼠标点击后自动运行界面上有 Install 字样 xff0
TensorRTx 开源代码内容说明

TensorRTx 提供了把常见网络模型转化为 TensorRT 格式的功能 TensorRTx旨在使用tensorrt网络定义API实现流行的深度学习网络 tensorrt有内置的解析器 xff0c 包括caffeparser uffpa
关于在ubuntu下用docker部署Django卡在 Watching for file changes with StatReloader 不动了以及 run后无法访问web 的问题

1 问题描述 xff1a 用docker部署Django时遇到问题如下 xff1a 卡在这里不动了 xff0c 等了半小时服务也没起来我的dockerfile如下 xff1a 直接启动没有问题 xff1a 用exec命令在容器内直接起也没
漫话线性代数：线性变换的几何解释

网购了一本书 xff0c 说的是线性代数的几何解释一口气读完 xff0c 感觉这部书有些贪多了 xff0c 什么细节都要弄个几何解释 xff0c 不免让琐碎的细节把关键性的主题给遮掩了所以萌生一个念头 xff0c 把线性代数的核心概念和
ChatGPT 逆天测试，结局出乎预料

目录一数学解题能力二编程能力三日常生活咨询四问一些离谱的问题 xff0c 它有啥反应 xff1f 五逆天大测试一数学解题能力据说 ChatGPT 会做数学题 xff0c 给他几个条件不充分的问题 xff0c 看看他是否真的
我发现 chatGPT 在智能客服方面一个逆天的应用呀

chatGPT 有助于快速构建知识库 xff0c 想了一个有趣的例子 xff0c 感觉 chatGPT真是强大呀 xff01 废话不多讲 xff0c 直接看效果吧 xff1a
在 WIndows 下安装 Apache Tinkerpop (Gremlin)

一安装 JDK 首先安装 Java JDK xff0c 这个去官网下载即可 xff0c 我下载安装的 JDK19 xff08 jdk 19 windows x64 bin msi xff09 xff0c 细节不赘述二去 Tinkerp
阅读笔记：TF - IDF 原理

今天查阅 TF IDF 资料 xff0c 发现百度百科里面提供了一个例子 xff0c 解释的很清楚 xff0c 记下来备用原文链接 xff1a https baike baidu com item tf idf 8816134 fr 61

阅读笔记：TF - IDF 原理

阅读笔记：TF - IDF 原理 的相关文章

随机推荐

热门标签

阅读笔记：TF - IDF 原理的相关文章