TF-IDF

2023-05-16

1.TF-IDF是什么？

TF-IDF ：term frequency-inverse document frequency

1.tf-idf 作为一种权重经常被用作信息检索和文本挖掘领域

2.这样一种权重时通过统计计算得出的。来衡量在一个语料库或者文本集中，一个term 或者 word对于一个文档的重要性。(比如，有k个文档，其中一个文档d种有一个词w，衡量 w对于k中的d的重要性)

3.直观上看，tf-idf的大小与word在文档中出现频率成正比，与在语料中出现的频率成反比

4.可以用来表达一个文档，比如有k个文档，这个语料库共V个word，那么每一篇文档就由一个V维向量表达，每一维时对应word的tf-idf值。sklearn已有中有具体实现。

2.如何计算TF-IDF

TF: Term Frequency :衡量一个word在文档中出现的频率，除以文档长度可以看成是一种normalization。

TF(t) = (Number of times term t appears in a document) / (Total number of terms in the document)
IDF: Inverse Document Frequency :衡量一个word对于一个文档的重要性。在计算TF的时候，所有的词是一样重要的，显然不够精确，比如‘is’‘a’之类的词TF很高，但是对于文档而言没啥意义。

IDF(t) = log(Total number of documents / Number of documents with term t in it).

3.举例

一个文档有100个word，其中cat出现了3次，那么tf(cat)=3/100=0.03.
现有我们又10,000,000个文档，其中1000个文档出现了cat，那么idf(cat)=log(10,000,000/1000)=4,那么最后cat的tf-idf权重为0.03*4=0.12

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

IDF

TF-IDF 的相关文章

C++11 生产者消费者模型

C 43 43 11 生产者消费者模型线程互斥 lock guard 使用lock guard管理互斥锁在退出作用域后进行析构时就会自动解锁 xff0c 从而保证了互斥量的正确操作 xff0c 避免忘记 unlock 操作而导致线程死锁
PS照片处理尺寸参考表

参考表一讲多少寸 xff0c 是指长边的英寸数 xff0c 比如5 x 3 5就是5寸讲多少R xff0c 指短边的英寸数 xff0c 比如4R是6 X 4寸 xff0c 而3R就是5寸的5 X 3 5寸 R 的意思的 rectang
数据库习题及答案5

模拟测验1 一 1 2 3 4 5 6 7 8 9 10 A D C c D A C A A C 一选择题 xff08 在每个小题四个备选答案中选出一个正确答案 xff0c 填在题末的括号中 xff09 xff08 本大题共10小题 xf
Attention Model（mechanism）的套路

最近刷了一些attention相关的paper 照着here的列表 43 自己搜的paper xff0c 网上相关的资料也有很多 xff0c 在此只讲一讲自己对于attention的理解 xff0c 力求做到简洁明了一 attention
springMVC常用注解

在java框架中 xff0c 使用注解的作用就是注入属性一 Spring常用注解 64 Component xff1a 标注一个普通的Spring Bean类 64 Controller xff1a 标注一个控制器组件类 64 Servi
Ubuntu16.04运行.sh文件

前言 xff1a 最近在学 Linux内核分析 xff0c 实验做的是哈工大的oslab Linux 0 11 xff0c 然后下载了相应的压缩包解压之后发现需要运行setup sh文件 xff0c 原先以为是因为没有切换到root命令所
服务器conda，pip命令用不了解决方法

服务器创建用户后 xff0c 不知道为啥基本命令可以用 xff0c 但是conda xff0c pip等不能使用 xff0c 度娘后一行命令解决 xff0c 命令如下 source span class token operator spa

随机推荐

Base64资源

Base64资源在线转Base64工具 http www jsons cn img2base64 鲸鱼 maskImage src 61 39 data image png base64 iVBORw0KGgoAAAANSUhEUgAAA
Linux驱动开发

本文为一个简单的字符设备驱动 xff0c 涉及驱动编写测试程序编写 Makefile编写驱动加载卸载 xff0c 运行于Linux虚拟机 xff0c 不涉及底层配置撰写本文的主要目的为记录一下驱动的开发流程 xff0c 参考了正点原
SpringBoot MVC配置

SpringBoot MVC配置在使用 SpringBoot 进行实际的项目开发前 xff0c 最后再了解一下 SpringBoot 中对于 MVC 的配置 xff01 仍对应 SpringBoot 03 Web 项目 1 MVC配置简介
Python常用的运算符

1 算术运算符 xff1a 43 xff1a 加法 xff1a 减法 xff1a 乘法 xff1a 除法 xff1a 求两个数的余数例如 xff1a 10 3 输出为1 xff1a 整除例如 xff1a 10 3 输出为3 xff1a
npm报错 TypeError [ERR_INVALID_ARG_TYPE]: The “path“ argument must be of type string.Received undefine

npm报错 TypeError ERR INVALID ARG TYPE The path argument must be of type string Received undefined 解决办法 xff1a 1 修改static文件
持之以恒（一）位姿转换：姿态 / 四元数 / 旋转矩阵 / 欧拉角及位姿矩阵

文章目录 1 简介1 1 位姿的几种表示形式1 2 姿态转换在线工具 2 位姿转换接口2 1 旋转向量转四元数2 2 四元数转旋转向量2 3 四元数与旋转矩阵 3 机器人相关应用3 1 不同厂家协作机器人的位姿表示形式 1 简介
在pgsql中利用regexp_matches提取出正则并且用，分隔开。

在pgsql中利用regexp matches提取出正则并且用 xff0c 分隔开 span class token keyword SELECT span string agg span class token punctuation s
推荐系统经典论文文献及业界应用

Survey方面的文章及资料 Adomavicius G Tuzhilin A Toward the next generation of recommender systems A survey of the state of the a
TIOBE 编程语言排行，各个语言优缺点，以及你适合那种编程语言

TIOBE 编程语言排行前10中 xff0c 各个编程语言的优缺点如下 xff1a Python 优点 xff1a 易学易用 xff0c 具有大量的第三方库和工具支持 xff0c 适用于数据分析人工智能等领域缺点 xff1a 运行速度相
ssh整合

ssh整合思路pom依赖几大框架的配置文件配置struts xml测试思路 SSH是 struts 43 spring 43 hibernate的一个集成框架 1 导入所需要的pom依赖 2 几大框架的配置文件 xff08 web xm
JavaFX程序入门

JavaFX程序入门一 JavaFX基本概念 JavaFX的图形用户界面 xff08 GUI xff09 通常称为场景图 xff0c 场景图是构建JavaFX应用程序的起点场景图除了包括布局面板 UI控件图像媒体图表等 xff0c
二叉树4：二叉树求树高度(超级详细)

一思路什么是树高 xff1f 树的高度或深度就是树中结点的最大层数在这里使用后序遍历的递归算法对每一个结点都进行如下操作 xff1a 后序遍历其左子树求树高后序遍历其右子树求树高对这个结点进行下面操作 xff1a 比较其左右子树
lottie.js动画的使用(JSON动画)

在public文件中引入lottie js data json 对应图片 1 引入lottie lt script src 61 34 lottie js 34 gt lt script gt 2 页面引入代码 lt div id 61 3
spring(idea版)

spring 文章目录 xff1a 1 spring简介2 IOC推导原型及本质3 第一个spring程序4 IOC创建对象的方式5 spring配置说明6 Dl依赖注入环境依赖注入的方式 7 bean的作用域8 自动装配bean9 用注
扩展卡尔曼滤波算法 EKF

扩展卡尔曼滤波的仿真案例 xff0c 参考书为北航宇航学院王可东老师的Kalman滤波基础及Matlab仿真一状态模型 xff1a 二测量模型 xff1a 状态方程和测量方程中的噪声均为期望为零的白噪声三状态模型和测量模型的线性化
什么是end to end

人工智能领域中 xff0c 什么是end to end xff1f end to end并不是一种技术 xff0c 而是一类思想方法 xff0c 一种特点所谓end to end xff0c 即端到端 xff0c 指的是从原始数据获取 x
护士实习自我鉴定

医院实习护士的评价篇一短短一个月的泌尿外科实习生活已接近尾声 xff0c 回顾这段时间的实习生活 xff0c 我感受很深泌尿外科是我实习的第二站 xff0c 相对肝胆外科就不是那么的忙碌在泌尿外科经历的业务学习是让我印象最深刻的 x
MongoDB常用操作命令理解与实战

文章目录一创建操作命令1 数据库操作2 创建集合和添加文档二查询操作命令和常用函数1 N A2 查看集合3 文档简单查询4 文档条件查询5 Mongo查询条件和SQL查询对照表6 复合主键7 逻辑操作符匹配 not用法 and 用法
连接数据库时出现10061错误

问题 xff1a 用Navicat连接数据库时出现10061错误通过百度证明原因是连接不上MySQL服务器解决方案 xff1a 打开我的电脑点击管理点击计算机管理服务和应用程序找到服务找到 Mysql xff0c 然后
TF-IDF

1 TF IDF是什么 xff1f TF IDF xff1a term frequency inverse document frequency 1 tf idf 作为一种权重经常被用作信息检索和文本挖掘领域 2 这样一种权重时通过统计计算

TF-IDF

1.TF-IDF是什么？

2.如何计算TF-IDF

3.举例

TF-IDF 的相关文章

随机推荐

热门标签