全文检索几种词向量模型

2023-11-19

1、倒排索引模型
在这里插入图片描述

2、布尔检索类型

3、TF-IDF权重计算

下面是TF-IDF的JAVA代码实现。

public class TFIDF {
    public double tf(List<String> doc,String term){
        double termFrequency = 0;
        for (String str : doc) {
            if(str.equalsIgnoreCase(term)){
                termFrequency ++ ;
            }
        }
        return termFrequency / doc.size();
    }
    public double df(List<List<String>> docs,String term){
        int n = 0;
        if(term != null && term != ""){
            for (List<String> doc : docs) {
                for (String word : doc) {
                    if (term.equalsIgnoreCase(word)){
                        n ++;
                        break;
                    }
                }
            }
        }else {
            System.out.println("term不能为null或空串");
        }
        return n;
    }
    public double idf(List<List<String>> docs,String term){
        return Math.log(docs.size()/(double)df(docs,term)+1);
    }
    public double tfidf(List<String> doc,List<List<String>> docs,String term){
        return tf(doc,term) * idf(docs,term);
    }

    public static void main(String args[]){
        List<String> doc1 = Arrays.asList("人工","智能","成为","互联网","大会","焦点");
        List<String> doc2 = Arrays.asList("谷歌","推出","开源","人工","智能","系统","工具");
        List<String> doc3 = Arrays.asList("互联网","的","未来","在","人工","智能");
        List<String> doc4 = Arrays.asList("谷歌","开源","机器","学习","工具");

        List<List<String>> documents = Arrays.asList(doc1,doc2,doc3,doc4);
        TFIDF calculator = new TFIDF();
        System.out.println(calculator.tf(doc2,"谷歌"));
        System.out.println(calculator.df(documents,"谷歌"));
        double tfidf = calculator.tfidf(doc2, documents, "谷歌");
        System.out.println("TF-IDF(谷歌) = " + tfidf);
    }
}

结果：
0.14285714285714285
2.0
TF-IDF(谷歌) = 0.15694461266687282

4、向量空间模型
在这里插入图片描述
下面是相似度的JAVA代码实现

public class Vsm {
    public static double calCosSim(Map<String,Double> v1,Map<String,Double> v2){
        double sclar = 0.0,norm1 = 0.0,norm2 = 0.0,similarity = 0.0;
        Set<String> v1Keys = v1.keySet();
        Set<String> v2Keys = v2.keySet();
        Set<String> both = new HashSet<>();
        both.addAll(v1Keys);
        both.retainAll(v2Keys);
        System.out.println(both);
        for (String str1 : both) {
            sclar += v1.get(str1) * v2.get(str1);
        }
        for (String str1 : v1.keySet()) {
            norm1+= Math.pow(v1.get(str1),2);
        }
        for (String str2 : v2.keySet()) {
            norm2+= Math.pow(v2.get(str2),2);
        }
        similarity = sclar / Math.sqrt(norm1*norm2);
        System.out.println("sclar: "+sclar);
        System.out.println("norm1: "+norm1);
        System.out.println("norm2: "+norm2);
        System.out.println("similarity : "+similarity);
        return similarity;
    }

    public static void main(String[] args) {
        Map<String,Double> m1 = new HashMap<>();
        m1.put("Hello",1.0);
        m1.put("css",2.0);
        m1.put("Lucene",3.0);

        Map<String,Double> m2 = new HashMap<>();
        m2.put("Hello",1.0);
        m2.put("Word",2.0);
        m2.put("Hadoop",3.0);
        m2.put("java",4.0);
        m2.put("html",1.0);
        m2.put("css",2.0);
        calCosSim(m1,m2);
    }
}


结果：

[css, Hello]
sclar: 5.0
norm1: 14.0
norm2: 35.0
similarity : 0.22587697572631282

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

全文检索

词向量

全文检索几种词向量模型的相关文章

SQL千万级大数据量查询优化

转发自 https blog csdn net long690276759 article details 79571421 spm 1001 2014 3001 5506 防止查询资料找不到来源很详细 1 对查询进行优化应尽量避免全表
《数字化转型》——企业持续有效增长的新引擎

中国国民经济和社会发展第十四个五年规划和2035念远景目标纲要明确指出迎接数字时代激活数据要素潜能推动网络强国建设加快建设数字经济数字社会数字政府以数字化转型整体驱动生产方式生活方式和治理方式变革那么企业如何做如何选型
橘子学ES18之聚合分析

本文来说一个ES中极其重要的一个概念就是聚合聚合功能是一个十分方便的功能一 ES的聚合分析 1 什么是聚合 Aggregation 1 ES除了文本搜索之外提供了针对ES数据进行统计分析的功能实时性高 Hadoop有时候是T 1的
Elasticsearch 笔记

文章目录 Elasticsearch 快速安装安装启动问题踩坑状态验证 Elasticsearch 基础使用查看节点列表列出索引信息查看节点分片信息其他的一些信息查询创建索引索引和查询文档删除索引修改数据探索数据搜
（六）Java操作elasticSearch（2）

Java操作elasticSearch 2 一 DSL查询文档 0 DSL 1 DSL查询分类 2 全文检索查询 3 精准查询 4 地理坐标查询 5 组合查询二搜索结果的处理 0 搜索结果处理整体语法 1 排序 2 分页 3 高亮三
Zotero搭建笔记

目录一官网下载客户端和浏览器插件Zotero translator 二客户端登录or注册三安装插件 3 1 茉莉花 3 2 Zotfile 3 3 抓取网页文件知网知乎微信等 3 4 翻译器 3 5 提取doi号 sci h
如何实现小型WEB搜索引擎(C#+SQL Server全文检索+Asp.net)

1 引言 21世纪中国互联网搜索引擎领域可谓群雄逐鹿百度 Yahoo 中搜搜狗等等都使出浑身解数吸引着网民的眼球这些大网站可谓是各有所长总的来说虽然他们搜索功能都很强但是搜索得到的结果基本上是千篇一律信息的冗余量很大网民不得
ElasticSearch集群管理(VMware)

一集群结构 ES通常以集群方式工作这样做不仅能够提高 ES的搜索能力还可以处理大数据搜索的能力同时也增加了系统的容错能力及高可用下图是ES集群结构的示意图此处的设置为每个主分片有两个副本如果某个节点挂了也不怕比如节点1挂了
成为技术传播者（二）：Why and Why NOT

前文成为技术传播者一写在前面 Contributing to Eclipse的开篇第一句话说得很有味道 Humans need to feel nurtured and cared for Humans also need to nu
macOS_Monterey_12.6_21G115可引导可虚拟机安装的纯净版苹果OS系统ISO镜像安装包免费下载

现在网络上黑果系统出现了许多多合一的多功能版不是说这些版本不好只是小编个人觉得操作系统就是用来使用的黑果本来就是服务于一些非苹果机的苹果OS爱好者的简洁稳定应该是首选固小编毅然放弃那些多功能的豪华版镜像版独宠我的纯净可引导安装
Solr删除文档数据

使用控制台删除solr的无用数据目前我使用了两种方式 001 登录你的solr地址我的地址为 http localhost 8983 solr 如下图所示上图箭头处选择你的my core 我的mycore为damsearch 002
Sql server 千万级大数据SQL查询优化的几点建议

1 对查询进行优化应尽量避免全表扫描首先应考虑在 where 及 order by 涉及的列上建立索引 2 应尽量避免在 where 子句中对字段进行 null 值判断否则将导致引擎放弃使用索引而进行全表扫描如 select id
腾讯风采依旧：第四季度财报，金融科技和企业服务部门比翼双飞

腾讯周三公布了其收益季度和年度收入增长均创下历史新低因为这家中国科技巨头继续感受到北京收紧监管对互联网行业的影响第四季度收入为1441 8亿元人民币 226 3亿美元去年同期为1476亿元人民币同比增长8 这是该公司自2004年上
gensim.models.word2vec 参数说明

使用gensim训练词向量的实例 Initialize and train a Word2Vec model gt gt gt from gensim models import Word2Vec gt gt gt sentences ca
SQL 常用优化实践

对查询进行优化要尽量避免全表扫描首先应考虑在 where 及 order by 涉及的列上建立索引应尽量避免在 where 子句中对字段进行 null 值判断否则将导致引擎放弃使用索引而进行全表扫描如 select id from
mysql ---- 全文索引：中文语义分词检索

转 https www cnblogs com huanzi qch p 15238604 html 介绍通常情况下全文检索引擎我们一般会用ES组件传送门 SpringBoot系列 ElasticSearch 但不是所有业务都有那么大
MarkDown超级教程 Obsidian版_11.4

date 2021 11 3 18 01 aliases Markdown教程 MD教程 tags Markdown 什么是 Markdown Markdown 是一款轻量级标记语言不同于HTML Hypertext Markup Lan
ElasticSearch--Field的使用

目录一 Field的介绍二 Field的属性介绍三常用的Field类型一 text文本字段二 keyword关键字字段三 date日期类型四 Numeric类型四 Field属性的设置标准一 Field的介绍上周的一篇
ElasticSearch基础（7.0+版本）

一 ElasticSearch的用法 ES是基于Lucene开发的分布式高性能全文检索系统支持分布式存储水平扩展主要能力是存储搜索分析我目前接触过的主要有两种用法作为二级索引提高查询效率和基于关键词的全文检索 Lucene
MySQL之索引

数据库中的索引与书的目录相似表中的数据类似于书的内容书的目录有助于读者快速地找到书中相关的内容数据库的索引有助于加快数据检索速度目前大部分MySQL索引都是以B 树 BTREE 方式存储的 BTREE方式构建了包含多个节点的一棵树

随机推荐

jmeter实现随机数，MD5加密压测投票接口

1 新增HTTP请求 nonStr为随机值 sign为加密参数 2 在线程组下添加前置处理器 BeanShell PreProcessor 代码如下 import org apache commons codec digest Digest
c++ make_shared

make shared的使用 shared ptr
C++14中binary literals的使用

一个形如42的值被称作字面值常量 literal 这样的值一望而知每个字面值常量都对应一种数据类型字面值常量的形式和值决定了它的数据类型我们可以将整型字面值写作十进制基数为10 八进制基数为8 或十六进制基数为16 数的形式以
数据库连接不上的几种情况

客户端不能连接服务器的情况首先保证客户端和服务器能够ping通如果ping不通请检查以下几点 1 服务器和客户端电脑是否通电 2 交换机是否通电 3 网卡安装是否正常或者网卡是否在设备管理器被禁用 4 本地连接是否被禁用 5 服务器
公钥私钥的理解

公钥和私钥是成对出现私钥可以生成公钥公钥无法生成私钥私钥加密的内容可以被公钥解密公钥加密的内容可以被私钥解密举个例子 A 持有自己的私钥 A的私钥生成的公钥被其他人持有其他人用A的公钥加密的内容只有用A的私钥才可以解密且
分享一个java+python双版本源码之基于微信小程序的校园跑腿接单系统校园快递代领小程序（源码、lw、调试）

作者计算机源码社个人简介本人七年开发经验擅长Java Python PHP NET 微信小程序爬虫大数据等大家有这一块的问题可以一起交流学习资料程序开发技术解答文档报告如需要源码可以扫取文章下方二维码联系咨询 Ja
target_include_directories([SYSTEM][BEFORE]

target include directories

mybatis获取新增记录的主键

最近项目中有个需求需要在新增一条记录后返回该记录的主键查了下资料用mybatis可以做我需要拿第一个方法执行返回的id作为变量传给下面数据库中该id是记录主键并且数据库用的是主键自增长这是前提有两种方式第一种方式写法如下
信息化战略规划-CRO-SCM-应用集成-电子商务

信息化战略规划 CRO SCM 应用集成电子商务信息化战略体系重点信息系统战略规划重点客户关系管理重点供应链管理企业应用集成电子商务信息化战略体系重点企业战略目标企业战略规划实现目标的规划企业信息化战略使
操作系统(四):磁盘调度算法，先来先服务，最短寻道时间优先，电梯算法

文章目录一磁盘结构二先来先服务三最短寻道时间优先四电梯算法 SCAN 一磁盘结构盘面 Platter 一个磁盘有多个盘面磁道 Track 盘面上的圆形带状区域一个盘面可以有多个磁道扇区 Track Sector 磁
在echarts中自定义提示框内容

以折线图为例在鼠标滑过每个数据标签时为了更友好地显示数据内容需要对显示的数据内容作格式化处理添加自定义内容这就需要用到tooltip的formatter属性的回调函数本文将从配置代码和效果两方面来展示它的使用柱状图的原理类似
NCC低代码平台服务搭建指南

NCC服务搭建前言本文档旨在帮助第一次接触NCC的开发人员搭建NCC开发环境 1 NCC相关资料开发者社区 https nccdev yonyou com 资料 https pan baidu com s 15V71U7vVOGr8
【论文笔记】TNASP：A Transformer-based NAS Predictor with a Self-evolution Framework

文章目录 0 摘要摘要解读 1 Introduction 2 相关工作 3 方法 3 1 Training based network performance predictors 3 2 基于Transformer的预测器 3 3 自演
unity3d实现简单的打飞碟游戏

游戏内容游戏有n个round 每个round发射10次trial 每个trial的飞碟都可能不同包括速度角度得分等使用鼠标进行射击点中即表示射击成功游戏要求使用带缓存的工厂模式来管理飞碟的生产与再利用工厂使用单例模式游戏的设
python中.argsort()的用法

argsort 是对数组参数从小到大排序然后取出排序后的索引例如 a np array 0 2 0 5 0 3 0 4 a argsort 输出的就是对a数组排序过后的索引 0 2 3 1
三、web端显示之hdfs基本操作

三台的节点均启动成功之后完全匹配的上配置的下图所示情况若启动不成功则先 root hadoop1 hadoop 3 1 3 stop all sh 再输入ll显示一下删除每一个集群上的data和logs root hadoop1 h
Qt源代码中二进制兼容及d、q指针的理解

1 二进制兼容的理解首先按照本文对二进制兼容进行理解此处是本人的总结将类的私有属性不需要暴露的部分放到私有类中在类中定义私类的指针进行交互指针的大小是已知不变的指针数据类型为Int 4个字节软件发布后只需要改私类中的部分
安装vmware tools时，kernel版本不匹配问题的解决方法

安装vmware tools 的时候提示找不到C header files 此种情况下按以下步骤操作 1 内核安装完毕后需要用这个命令确定内核 C header 的安装目录 ls d usr src kernels uname r i
怎样知道自己适不适合做程序员

编程是一门非常有技术含量的手艺活待遇和福利相对来说较为丰厚由于种种原因想要转行做程序员的人总会有这样的困惑我是否适合做程序员呢其实做为一个开发者有一个学习的氛围跟一个交流圈子特别重要这里我推荐一个C语言C 交流群58365041
全文检索几种词向量模型

1 倒排索引模型 2 布尔检索类型 3 TF IDF权重计算下面是TF IDF的JAVA代码实现 public class TFIDF public double tf List

全文检索几种词向量模型

全文检索几种词向量模型 的相关文章

随机推荐

热门标签

全文检索几种词向量模型的相关文章