TF-IDF(term frequency–inverse document frequency)

2023-10-28

TF-IDF （term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。

原理

在一份给定的文件里，词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）对于在某一特定文件里的词语 t _i 来说，它的重要性可表示为：

$/mathrm{tf_{i,j}} = /frac{n_{i,j}}{/sum_k n_{k,j}}$

以上式子中 n _{i ,j} 是该词在文件d _j 中的出现次数，而分母则是在文件d _j 中所有字词的出现次数之和。

逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

$/mathrm{idf_i} = /log /frac{|D|}{|/{d: d /ni t_{i}/}|}$

其中

|D|：语料库中的文件总数
$|/{d:d/ni t_{i}/}|$ ：包含词语t _i 的文件数目（即 $n_{i} /neq 0$ 的文件数目）

然后

$/mathrm{tf{}idf_{i,j}} = /mathrm{tf_{i,j}} /cdot /mathrm{idf_{i}}$

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

例子

有很多不同的数学公式可以用来计算 TF- IDF。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是 10,000,000份的话，其文件频率就是 0.0001 (1000/10,000,000)。最后，TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说，“母牛”一词在该文件集的TF- IDF分数会是 300 (0.03/0.0001)。这条公式的另一个形式是将文件频率取对数。

在向量空间模型里的应用

TF-IDF权重计算方法经常会和余弦相似度 (cosine similarity)一同使用于向量空间模型中，用以判断两份文件之间的相似性。

//from http://hi.baidu.com/sowhatliu/blog/item/aa0a8817d701b70fc93d6db6.html

=================================================================

TF/IDF（term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。

一。TF/IDF描述单个term与特定document的相关性

TF(Term Frequency): 表示一个term与某个document的相关性。
公式为这个term在document中出现的次数除以该document中所有term出现的总次数.

IDF（Inverse Document Frequency）表示一个term表示document的主题的权重大小。主要是通过包含了该term的docuement的数量和docuement set的总数量来比较的。出现的次数越多，权重越小。
公式是log(D/Dt) D是docuemnt set的总数量， Dt是包含了该term的document的总数。

这样，根据关键字k1,k2,k3进行搜索结果的相关性就变成TF1*IDF1 + TF2*IDF2 + TF3*IDF3。比如document1的term总量为1000，k1,k2,k3在document1出现的次数是100，200，50。包含了 k1, k2, k3的docuement总量分别是
1000， 10000，5000。document set的总量为10000。
TF1 = 100/1000 = 0.1
TF2 = 200/1000 = 0.2
TF3 = 50/1000 = 0.05
IDF1 = log(10000/1000) = log(10) = 2.3
IDF2 = log(10000/100000) = log(1) = 0;
IDF3 = log(10000/5000) = log(2) = 0.69
这样关键字k1,k2,k3与docuement1的相关性= 0.1*2.3 + 0.2*0 + 0.05*0.69 = 0.2645
其中k1比k3的比重在document1要大，k2的比重是0.

TF/IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵（Kullback-Leibler Divergence).

二。用TF/IDF来描述document的相似性。
假如document1和document2的term的TF/IDF分别是t11，t12,t13,...t1n和t21,t22,t23,...,t2n.他们之间的相似性可以用余弦定理来表示。则：
cos(d1,d2) = d1和d2的内积/(d1的长度*d2的长度) = (t11*t21 + t12*t22 + t13*t23 + ... + t1n*t2n)/(|d1|*|d2|).
d1 = sqrt(t11*t11 + t12*t12 + t13*t13 + ... + t1n*t1n);
夹角越大，相似性越大。为1则表示d1和d2一致。
在今日我们可以从网络上吸收大量资讯，有时候一堆文章看不完。如果我们想要吸收资讯，时间却又不够的时候，使用电脑帮我们过滤资讯，或是用电脑帮我们做个总整理，是个方法。如果今天手中有一篇文章，我们想要用电脑帮我们找出这篇文章最重要的关键字，要怎麽做呢？在资讯检索 (IR: Information Retrieval)领域里面，有个基础的方法，入门必学的方法，就是使用 TF 和 IDF (TF: Term Frequency, IDF: Inverse Document Frequency)。使用这两个估计值，可以让电脑具有计算重要关键字的能力，进而节省我们的时间。
　　接下来让我们看看，TF 和 IDF 个是甚麽东西呢？TF 全名是Term Frequency，也就是某个关键字出现的次数，譬如说某篇文章里面，「电脑」这个词出现很多次，或是「使用者需求」这个词出现很多次，那麽这些词句的出现频率，就会很高。一篇文章中出现很多次的词句，必定有其重要性。譬如说一篇论述「人工智慧」的文章，「人工智慧」这个词句再文章中出现的频率也一定很高。然而为甚麽除了 TF (Term Frequency) 以外，还要有 IDF (Inverse Document Frequency) 呢？
　　让我们先想想，如果单使用某个字词出现的频率，来判断一篇文章最重要的关键字，会有甚麽困难。首先，我们会遇到一些常用字词，出现的频率也很高，会和重要字词出现的频率一样高，让电脑因此无法分辨出，哪些是常用字词，那些是重要字词。如果就英文来说，有个规则是语言学家 (linguist) 归纳出来的规则，叫做 Zipf’s Law

引述中文维基百科的一段介绍如下：

　　从根本上讲, 齐夫定律可以表述为, 在自然语言的语素库里, 一个单词出现的频率与它在频率表里的排名成反比. 所以, 频率最高的单词出现的频率大约是出现频率第二位的单词的 2 倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与 power law probability distributions 有关的事物的参考。这个 “定律” 是 Harvard linguist George Kingsley Zipf (IPA [z?f])发表的。
比如, 在 Brown 语库， “the” 是最常见的单词，它在这个语库中出现了大约 7 %（10 万单词中出现 69971 次）。正如齐夫定律中所描述的一样，出现次数为第二位的单词 “of” 占了整个语库中的 3.5% (36411次), 之後的是”and” (28852次). 仅仅 135 但此项就占了 Brown 语库的一半。
　　所以我们现在知道问题在哪边了。如果只用词句出现的频率来判断某一篇文章里面最重要的关键字，我们可能会找到常用字，而不是最重要的字，像是英文里面的 “the”、”a”、”it”，都是常常出现的字，但是通常一篇文章里面最重要的字不是这些字，即使那些重要的字出现的频率也很高。
　　这个时候我们要怎麽办呢？IDF 在这个时候就帮上忙了。在了解 IDF 之前，我们先了解 DF 是甚麽。DF 就是Document Frequency，也就是说，如果今天我们手中有固定 N 篇文章，某个关键字的 Document Frquency (DF)，就是说这个关键字在 N 篇文章里面出现了几次。Inverse Document Frequency (IDF) 则是把 DF 取倒数，如此一来，一个数字乘以 IDF，就等於是除以 DF 的意思。
　　有了 TF 和 IDF 以後，我们就可以计算 TF 乘上 IDF，对每一个关键字都算出一个分数。这个分数的高低，就代表了这个关键字在某篇文章中的重要程度。为甚麽我们说这样子可以找出重要的字，而不是常出现的字呢？因为 TF 会把某篇文章中，出现最多次的排在第一位，其次的排在第二位，以此类推。然而乘上 IDF 以後，也就是除以 DF，那些常常出现的字，像是英文中的 “the”、”a”、”it”，因为每一篇文章都会出现，所以 DF 就大。DF 大，取倒数之後的 IDF 就小，IDF 小，乘上 TF 以後，虽然”the”、”a”、”it”在某篇文章中出现的频率很高，但是因为 IDF 小，TF * IDF 一相乘，重要性就变低了，我们 (电脑程式) 就不会把这些常出现的字，误认为是重要的字了！
　　真正重要的字会得到甚麽样子的分数呢？如果这篇文章刚好在讲 AI，”AI” 出现很多次，因此 “AI” 在这篇文章里面的 TF 很高。然而我们电脑资料库里面的 N 篇文章，并不是每一篇都在讲 AI，也因此”AI”可能只有在 N 篇文章里面的某 3 篇文章出现，因此 DF 只有 3，IDF 变成 0.33，假设我们 N = 100 有 100 篇文章在资料库里面，其他常出现字像是 “the” 每一篇都出现，DF 就是 100，IDF 就是 0.01。所以 “AI” 的 IDF 会比 “the” 的 IDF 高，假设这篇文章中 “AI” 和 “the” 两个字出现的次数刚好一样，乘上 IDF 以後，”AI” 这个字的分数就比 “the” 这个字的分数来的高，电脑也就会判断 “AI” 是这篇文章重要的关键字，而 “the” 这个字并不是这篇文章的重要关键字。
　　所以经由 TF * IDF，我们可以计算某个关键字，在某篇文章里面的重要性。从这一个方向，我们可以计算一篇文章中重点的字有哪些，帮我们做一篇文章的总整理。从相反的方向，我们可以给定关键字，然後再每一篇文章里面为这个关键字计算一次 TF * IDF，然後比较哪一篇文章，这个关键字是最具重要性的，用这个方法找出和一个关键字最相关的文章。不管是从文章找出重点字词，或是由关键字找相关文章，TF * IDF 都是个基本且不错的方法。会写程式又还没?试过这个方法的读者，或许可以亲自试试看，不过可能要先自己准备文章资料库 (corpus)，或是从网际网路上面用网页撷取器 (crawler) 存几篇有兴趣的网页，然後把 HTML 标签清理乾净，剩下纯文字，就可以用这个方法来小试身手罗！
　　我们也可以比较一下人类和电脑的不同。电脑做数学数字的计算，或是执行固定的步骤，非常擅长，速度也很快。人类可以了解一个字的意思，读完一篇文章以後，了解了意思，之後要找这篇文章最重要的关键字，是从「意义」开始，回忆出或做出结论，这篇文章重要的关键字是甚麽。
　　然而如果要电脑也遵照这个方向，先了解字的意义，再了解文章的意义，然後在做出结论，这篇文章的重要关键字，反而困难，因为要了解字的意义，电脑需要先有一个语意网路 (Semantic Network)，或是知识的分类关系树 (Ontology)，把字句依照语意分门别类，有如生物里面的「界门纲目科属种」一般的关系分类，才有办法了解一个字和其他字的关系。之後要了解一篇文章，又必须要了解一个句子，牵涉到自然语言处理 (NLP: Natural language Processing) 的问题，像是从句子里面找出主词、动词、和受词，以及补语，分辨出子句和主句，代名词的指称，以及前後文判断产生不同的剖析 (parsing)。了解完一句，才能了解整篇文章。

因此，TF * IDF 对於电脑来说，计算速度快，工程也不浩大，不用大型计算机就可以计算。这边也可以顺便提到 strong AI 和 weak AI 的关系。如果就工程的角度，TF * IDF 是个好方法，it works! 节省我们的时间，或是解决大问题中的一个小环节。然而 strong AI 在这边会提出「中文房间」(Chinese Room) 的论证，也就是说，电脑能够找出重要关键字，是否就代表电脑真的「知道」(understand) 关键字的意义呢？
　　中文房间 (Chinese Room) 简单地说，就是一个人关在房间里面，只留两个窗口，一个地方会送纸条出来，另一个地方会送纸条出去。房间里面有一本手册，里面写满对照表，记载者看到甚麽英文字，就应该输出甚麽中文字，以及一些指令的对照，譬如说窗口送一个指令说 COMBINE，就把两个中文字写在一起才送出去。接着我们在外面就开始送英文句子进去这个房间，另一个窗口就会有这句话的中文翻译跑出来。然而这个论证想要坦讨的就是，虽然这个房间看起来像是会把英文翻译成中文，但是在房间里面的那个操作人员并不懂中文，他指是按照指令，还有手册里面的对照表，机械式地动作，可是外面看起来像是这个房间会英翻中，因此这个房间应该懂得中文才对。
　　在这边我的看法是，也许就近程来看，我们只要有可以解决问题的解答就可以，不管电脑是否真的懂 (understand) 字的意义。然而长期来说，如果我们真的需要具有人类的智力的电脑出现，能够真的懂而不是行为上看起来懂，那麽就要仔细探讨中文房间这种论证。也许生物的方法，像是计算神经科学的方法，是一个方向。
　　我们可能又会问，神经元只有动作电位和静止两个状态，怎麽能了解意义？但是只有一个神经元，或许没办法了解意义，全部大脑的神经元交互作用，意义可能就因此被了解了！其中的奥妙，就是计算神经科学?试要解答的问题之一。有兴趣的读者也可以一起从人脑开始，解决 strong AI 的问题。或是有数学的高手，也许某一个数学理论，可以很漂亮地解决意义了解的问题也说不定，像是 manifolds，具有一个集合使用不同面向来观看的特性，同时具有 Global 和 Local 的性质，是个不错的候选选项。从这个方向去解决 strong AI 也是另一个可能性。总之，继续努力研究就是了！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

TF-IDF(term frequency–inverse document frequency) 的相关文章

.net/C# 的 Html 解析器和对象模型

我希望使用 net 来解析 html 以测试或断言其内容 IE HtmlDocument doc GetDocument 一些 html 列表表单 doc Forms 链接 link doc GetLinkByText 新客户这个想法是允
如何将格式化的电子邮件地址解析为显示名称和电子邮件地址？

给定电子邮件地址 Jim 电子邮件受保护 gt 如果我尝试将其传递给 MailAddress 我会得到异常指定的字符串不符合电子邮件地址所需的格式如何将此地址解析为显示名称 Jim 和电子邮件地址电子邮件受保护 cdn cgi l e
在 Java 中从复杂的 HTML 表格中提取数据到二维数组

如何转换 HTML 表格带有 colspan 和 rowspanJava中的二维数组矩阵我在 Python 和 jQuery 中找到了很好的解决方案但在 Java 中却没有只有通过 jsoup 的非常简单的表 XSLT 有一种很好的
将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
改进/修复 C 样式块注释的正则表达式

我正在用 C 编写一个简单的解析器来处理看起来很像经典 C 的脚本语言在我拥有的一个脚本文件中我用来识别块注释的正则表达式会进入某种无限循环长时间占用 100 的 CPU 我使用的正则表达式是这样的 r n r n 关于为什么这
在Java中解析日期的毫秒分数

我正在使用以下模式在 Java 中解析日期从服务器获取 yyyy MM dd T HH mm ss SSS 传入的字符串可能属于以下类型 2015 01 01T00 00 00 561 2015 01 01T00 00 00 5 我的问题
sed：更改 .yml 文件中环境属性的值

我有一个 yml 文件用于配置应用程序的环境属性如下所示 env1 prop1 value1 prop2 value2 propn valuen env2 prop1 value1 prop2 value2 prop3 value3 p
Gson解析没有键值对的字符串

我正在尝试使用 Gson 库解析字符串但没有成功这是我的字符串 1 816513 52 5487566 1 8164913 52 548824 此示例中的问题是没有键值对我查看了其他示例但它们都有键值对看起来不像我的问题我的解决
使用正则表达式或其他解析从文件中读取值

我有一个记录带有时间戳的值的文件我必须在特定时间后读取特定值例如文件有 2013 03 03 19 08 22 car 2001 Ford 2013 03 03 19 08 27 Truck 2012 Chevy 2013 03 03
VBA COM 库中的这些 _B_var_Xxxxx 和 _B_str_Xxxxx 成员到底是什么？

想象一下以下函数调用 foo UCase bar 我正在解析这段代码并确定UCase是一个函数调用现在我想将该函数调用解析为定义它的 COM 库中函数的声明这个想法是实现一个代码检查来确定何时Variant当使用内置函数时String
C# 中的 DateTime.Parse 抛出异常

我不知道为什么抛出异常这是工作代码 DateTime Parse 1 12 2012 12 00 00 AM 这是抛出异常的一个 DateTime Parse 1 13 2012 12 00 00 AM 抛出的异常是格式异常包括此消息
Java 中的递归下降解析器

我想在序言中说这是我三年级编程语言课的家庭作业我正在寻求一些帮助我的作业如下截止日期 2013年2月22日晚上11点55分提交请将以下内容上传到CMS 1 源代码2 程序执行的屏幕截图包括您使用的输入文件使用您喜欢的任何编程语言
VBA：访问 JSON

我正在处理 VBA 投影但不确定如何访问此 JSON 中的 id 应该将 players 设置为什么才能在循环中获取 id 我已经用更多代码更新了问题 JSON event games players id 182759 Code Pri
处理中渲染极地带面体时出现问题

我最近一直在研究 Zohedrons 和Rob Bell http zomadic com 做出了美丽的我玩了免费的极地带面体 Sketchup 插件 http zomebuilder com 并考虑使用几何图形加工 http proce
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan
自动解析 PHP，将 PHP 代码与 HTML 分离

我正在开发一个大型 PHP 代码库我想将 PHP 代码与 HTML 和 JavaScript 分开我需要对 PHP 代码进行多次自动搜索和替换对 HTML 进行不同的搜索和替换对 JS 进行不同的自动搜索和替换有没有一个好的解析器
如何在 powershell 中使用正则表达式选择“catch”代码块？

我正在尝试分析多个目录中的大量 powershell 脚本并且希望将任何 Catch 代码块拉入列表变量中我正在尝试编写一个正则表达式来选择以下格式的任何块 Catch write Host Function MyInvocation
如何使用 SAX Java 解析器读取注释文本

我只想使用 Java 中的 SAX 解析器读取 XML 文件中对象标记的注释这是我的文件的摘要
使用 TStringList 的分隔符解析字符串，似乎也解析空格（Delphi）

我有一个简单的字符串由某个字符分隔比如说逗号我应该能够创建一个 TStringList 并将其分隔符设置为逗号然后将 DelimitedText 设置为我想要解析的文本并且应该自动解析它问题是当我查看输出时它还包含空格作为分
预处理后解析 C++ 源文件

我正在尝试分析c 使用我定制的解析器的文件写在c 在开始解析之前我想摆脱所有 define 我希望源文件在预处理后可以编译所以最好的方法是运行C Preprocessor在文件上 cpp myfile cpp temp cpp or

随机推荐

爬虫工具之Beautiful Soup学习

参考 Python技能树共建 Beautiful Soup 梦想橡皮擦的博客 CSDN博客 Beautiful Soup主要用于将 HTML 标签转换为 Python 对象树然后让我们从对象树中提取数据基础用法 import reque
浅谈在Angular项目中怎么从RESTful API转移到Graphql API

你了解 GraphQL 吗简单的说 GraphQL是一个开源的查询语言和协议API GraphQL API是基于REST架构的现代化替代者不同于REST GraphQL允许客户端根据其需要请求特定的部分数据这与请求固定数据结构的方式不
一道有趣的GOOGLE面试题——找出至少一个重复元素

一道有趣的GOOGLE面试题找出至少一个重复元素题目一个大小为n的数组里面的数都属于范围 0 n 1 有不确定的重复元素找到至少一个重复元素要求O 1 空间和O n 时间这个题目要求用O n 的时间复杂度这意味着只能遍历数组
STM32 内部ADC方式_解释(AN2834)

本为引用了ST应用笔记 AN2834文档电源部分处理最小化与ADC外部环境相关的ADC误差参考电压电源噪声最小化电源侧线性调节器在噪声方面有更好的输出主电源必须降下整流和过滤然后馈送到线性调节器强烈建议将滤波电容连接到整流输出
学习python可以做哪些副业?副业的快乐你根本想象不到

人生苦短我用Python 近年来 Python凭借其简洁易入门的特点受到越来越多人群的青睐当然这不仅仅是针对程序员来说对于一些学生职场人士也是如此 Python为什么会大受欢迎呢因为Python还被大家称为胶水语言它适用于网站
1.手动创建Oracle数据库

毕业了整理下本科期间自己记的笔记这个是之前上Oracle数据库的课的时候老师交给我们的任务每个人都必须按照步骤手动创建数据库手动创建Oracle数据库的步骤如下 1 设置数据库名称和实例名称 2 创建相关目录 3 创建参数文件修改
前端系列——jquery.i18n.properties前端国际化解决方案“填坑日记”

前端系列 jquery i18n properties前端国际化解决方案填坑日记参考文章 1 前端系列 jquery i18n properties前端国际化解决方案填坑日记 2 https www cnblogs com lande
【目标检测】27、GIoU：Generalized Intersection over Union：A Metric and A Loss for Bounding Box Regression

文章目录摘要引言 2 相关工作 3 Generalized Intersection over Union 3 1 GIoU as Loss for Bounding Box Regression 4 实验 4 1 YOLO v3 4
Upload-labs-master-Pass-06和07通关

Upload labs master Pass 06 大小写绕过 1 查看一下代码可以发现同样是一个很长的黑名单但是它相较于上一关少了大小写的转换 2 修改密码文件名字后缀名为 php 来实现绕过这里直接把上传后成的一个图片拖到浏览
Android中MVC架构设计模式面试问题讲解

1 MVC定义 MVC的全称是Model View Controller 中文意思就是模型视图控制器这是一种软件的设计典范它用业务逻辑数据界面显示分离的方法组织代码在Android中 M层相当于处理业务逻辑的而V层就是处理数
php工程师是干什么的

php工程师是做什么的简略的说 php是一种编程言语首要用于web端的程序开发的例如咱们的网站基本上都运用php开发的咱们运用php开发web端的首要优势开发周期短成本低由于最大php是开源免费的所以这是低成本的首要原因其
什么是CPU密集型？什么是IO密集型？

1 CPU密集型 CPU密集型也叫计算密集型指的是系统的硬盘内存性能相对CPU要好很多此时系统运作大部分的状况是CPU Loading 100 CPU要读写I O 硬盘内存 I O在很短的时间就可以完成而CPU还有许多运算要处
yum查看可用的软件包

显示系统中可用的软件包及其版本 yum list available showduplicates grep bash completion 在yum软件包管理器中搜索能够提供 tree 命令的软件包并列出这些软件包的名称和版本信息 yu
linux查询ulimit参数,Linux ulimit 参数

ulimit 全称 User limits 限制使用系统范围内资源语法 ulimit acdfHlmnpsStuv limit 参数 S 设置资源的软限制 H 设置资源的硬限制 a 列出当前所有资源的限制 c 允许创建核心文件大小的最大值
webpack

文章目录为什么使用CDN 实现的一般过程效果案例下载若有疑问欢迎评论我会尽快回复为什么使用CDN 除却CDN自身的优势在前端工程中将静态文件放到CDN上可以直观地减小资源包大小同时加快首屏加载若不使用CDN 则所有的
OpenGLES入门笔记：Rajawali学习（1）基本功能初探

转自 https blog csdn net lidec article details 52207667 背景最近开始学习rajawali rajawali是一个Android下封装了OpenGLES API的引擎可以方便地建立自己的
QT json基本用法

目录 json格式简介 QJson模块介绍 QJsonValue QJsonObject QJsonArray QJson模块基本用法 QJsonValue 支持的类型构建 QJsonObject 构建注意取值查找遍历删除 QJ
puppet错误记录Could not find value for 'fqdn'

puppet一次错误记录报一下记录 root puppetagent puppet agent test noop notice Ignoring listen on onetime run err Could not retrieve c
markdown中插入 html 视频

插入腾讯视频首先在网页下打开腾讯视频找到自己要添加的视频点击左下角分享复制通用代码链接粘贴在markdown中然后插入设置的画面大小就可以了大小可以自定义的 width 670px height 442px 效果
TF-IDF(term frequency–inverse document frequency)

TF IDF term frequency inverse document frequency 是一种用于资讯检索与资讯探勘的常用加权技术 TF IDF是一种统计方法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要

TF-IDF(term frequency–inverse document frequency)

原理

例子

在向量空间模型里的应用

TF-IDF(term frequency–inverse document frequency) 的相关文章

随机推荐

热门标签