Lucene使用IK中文分词

2023-11-11

Lucene使用IK中文分词

环境

也可以通过Maven或Gradle构建工程测试和验证
对于Lucene的最新版本，需要找到IK Analyzer对应的兼容版。

IK中文分词配置

Lucene 6.x使用IK分词需要继承Analyzer、Tokenizer，重新编写逻辑配置，再使用。分别配置子类IKAnalyzer6x、IKTokenizer6x

IKAnalyzer6x.java

package com.liuyu.lucene.ik;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;

import java.io.IOException;

/**
 * @author huangliuyu
 * @description
 * @date 2021-04-21
 */
public class IKTokenizer6x extends Tokenizer {
    //IK分词器实现
    private IKSegmenter _IKImplement;
    //词元文本属性
    private final CharTermAttribute termAtt;
    //词元位移属性
    private final OffsetAttribute offsetAtt;
    //词分类属性
    //（该属性分类参考org.wltea.analyzer.core.Lexeme中的分类常量）
    private final TypeAttribute typeAtt;
    //记录最后一个词元的结束位置
    private int endPosition;

    //Lucene 6.x Tokenizer适配器类构造函数：实现Tokenizer接口
    public IKTokenizer6x(boolean useSmart) {
        super();
        offsetAtt=super.addAttribute(OffsetAttribute.class);
        termAtt=super.addAttribute(CharTermAttribute.class);
        typeAtt=super.addAttribute(TypeAttribute.class);
        _IKImplement=new IKSegmenter(input,useSmart);
    }


    public boolean incrementToken() throws IOException {
        //清除所有的词元属性
        super.clearAttributes();
        Lexeme nextLexeme=_IKImplement.next();
        if(null!=nextLexeme){
            //将Lexeme转成Attribute

            //设置词元文本
            termAtt.append(nextLexeme.getLexemeText());
            //设置词元长度
            termAtt.setLength(nextLexeme.getLength());
            //设置词元位移
            offsetAtt.setOffset(nextLexeme.getBeginPosition(),nextLexeme.getEndPosition());
            //记录分词的最后位置
            endPosition=nextLexeme.getEndPosition();
            //记录词元分类
            typeAtt.setType(nextLexeme.getLexemeText());
            //返回true告知还有下个词元
            return true;

        }
        //返回false告知词元输出完毕
        return false;
    }

    @Override
    public void reset() throws IOException {
        super.reset();
        _IKImplement.reset(input);
    }

    @Override
    public void end() throws IOException {
        int finalOffset=super.correctOffset(this.endPosition);
        offsetAtt.setOffset(finalOffset,finalOffset);
    }
}

IKAnalyzer6x.java

package com.liuyu.lucene.ik;


import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Tokenizer;

/**
 * @author huangliuyu
 * @date 2021-04-21
 * @description
 */
public class IKAnalyzer6x extends Analyzer {
    private boolean useSmart;

    public void setUseSmart(boolean useSmart) {
        this.useSmart = useSmart;
    }

    /**
     *  IK分词器Lucene Analyzer接口实现类
     *  默认细粒度切分算法
     */
    public IKAnalyzer6x(){
        this(false);
    }

    /**
     *  IK分词器Lucene Analyzer接口实现类
     *  当为true时，分词器进行智能切分
     * @param useSmart
     */
    public IKAnalyzer6x(boolean useSmart) {
        super();
        this.useSmart=useSmart;
    }

    @Override
    protected TokenStreamComponents createComponents(String fieldName) {
    	//使用配置好的ik Tokenizer
        Tokenizer _IKTokenizer=new IKTokenizer6x(this.useSmart);
        return new TokenStreamComponents(_IKTokenizer);
    }

}

使用和比较

这里使用 Lucene 6.X自带的中文智能分词器 SmartChineseAnalyzer与IK Analyzer作比较，演示使用情况

代码

package com.liuyu.lucene.ik;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import java.io.IOException;
import java.io.StringReader;

/**
 * @author huangliuyu
 * @date 2021-04-21
 * @description
 */
public class IkVSSmartCn {
    private static String str1 = "公路局正在治理解放大道路面积水问题。";
    private static String str2 = "IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。";

    public static void main(String[] args) throws IOException {
        Analyzer analyzer = null;

        System.out.println("句子一：" + str1);

        System.out.println("SmartChineseAnalyzer分词结果：");
        analyzer = new SmartChineseAnalyzer();
        printAnalyzer(analyzer, str1);

        System.out.println("IKAnalyzer分词结果：");
        analyzer = new IKAnalyzer6x(true);
        printAnalyzer(analyzer, str1);

        System.out.println();
        System.out.println("-------------------------------------------------");
        System.out.println();

        System.out.println("句子二：" + str2);

        System.out.println("SmartChineseAnalyzer分词结果：");
        analyzer = new SmartChineseAnalyzer();
        printAnalyzer(analyzer, str2);

        System.out.println("IKAnalyzer分词结果：");
        analyzer = new IKAnalyzer6x(true);
        printAnalyzer(analyzer, str2);

    }


    public static void printAnalyzer(Analyzer analyzer, String str) throws IOException {
        StringReader reader = new StringReader(str);
        TokenStream toStream = analyzer.tokenStream(str, reader);
        toStream.reset();//清空流

        CharTermAttribute teAttribute = toStream.getAttribute(CharTermAttribute.class);

        while (toStream.incrementToken()) {
            System.out.print(teAttribute.toString() + "|");
        }
        System.out.println("\n");
        analyzer.close();
    }

}

效果
Lucene使用IK分词效果

由效果可见IK Analyzer的中文分词效果要比Lucene SmartChineseAnalyzer的好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

搜索

IK中文分词

中文分词

Lucene

Lucene使用IK中文分词的相关文章

为什么会出现此异常 FileItemStream$ItemSkippedException？

在 gwt Web 应用程序中我必须发送一个文件和附加的一些参数在服务器端 try ServletFileUpload upload new ServletFileUpload FileItemIterator iterator upl
Android PhoneGap 插件，UI 选项卡栏，调整 WebView 大小

我正在创建一个美味的 PhoneGap 插件希望一旦它能被打开准备好了插件基本完成了我只需要一个漂亮的用户界面相互作用简而言之我想创建一个本机 android 工具栏组件如果您实现 PhoneGap UIControls
我在socket上设置了超时，发现这个值不能大于21

我在socket上设置了超时该值小于21秒才有效 21秒后发现超时还是21秒 public static void main String args SimpleDateFormat sdf new SimpleDateFormat yy
使用 Java 在 WebDriver 中按 Ctrl+F5 刷新浏览器

我已经使用 java 刷新了 WebDriver 中的浏览器代码如下 driver navigate refresh 如何使用 Java 在 WebDriver 中按 Ctrl F5 来做到这一点我认为您可以使用 WebDriver 和
解决 Java Checkstyle 错误：名称 'logger' 必须匹配模式 '^[A-Z][A-Z0-9]*(_[A-Z0-9]+)*$'

使用 Eclipse Checkstyle 插件我看到以下错误名称 logger 必须匹配模式 A Z A Z0 9 A Z0 9 我通过更改解决了此错误 private static final Logger logger Logger
Java、Oracle 中索引处缺少 IN 或 OUT 参数:: 1 错误

您好我使用 Netbeans 8 0 2 和 Oracle 11g Express Edition 在 JSF 2 2 中编写了一个图书馆管理系统我有几个名为书籍借阅者等的页面以及数据库中一些名为相同名称的表我的问题是这样的
无法使用 json 架构验证器根据预定义的 yaml 文件验证查询参数

我需要根据预定义的 yaml 文件架构验证查询参数的架构因此我使用 json 架构验证器验证如何失败我正在执行以下步骤填充参数和相应的架构 final List
使用 ChannelExec 的命令未执行 - Jsch

我正在使用 Jsch 在服务器中创建一个文件并执行一些命令对于文件创建它工作正常但是对于命令执行则不然它保持状态 1 仍在处理它并永远保持该状态这种情况发生在 shell 执行或我尝试成为 root 时请按照以下方法操作 p
Java 正则表达式 - 字母数字，最多一个连字符，句点或下划线，七个字符长

我是 Java 正则表达式工具的新手尽管它们潜力巨大但我很难完成这项任务我想编写一个正则表达式来验证遵循以下语法的输入字符串小写字母和数字的任意组合仅一个下划线一个破折号或一个句号无其他特殊字符最小长度为 5 我想出了以下解
RMI 中的引用传递问题？ [复制]

这个问题在这里已经有答案了有人可以告诉我我错在哪里为什么这个 RMI 聊天应用程序不起作用目标是通过远程对象或序列化对象实现客户端服务器和逻辑之间的解耦 import javax swing import java awt even
正则表达式获取字符串中的第一个数字和其他字符

我是正则表达式的新手想知道如何才能只获取字符串中的第一个数字例如100 2011 10 20 14 28 55 在这种情况下我希望它返回100 但该数字也可以更短或更长我在想类似的事情 0 9 但它单独获取每个数字 100 2001
当您在数组列表上调用remove(object o)时，它如何比较对象？

当您在 java 中的数组列表上调用remove object o 时它如何比较对象以找到要删除的正确对象它使用指针吗或者它使用 Comparable 接口来比较对象吗 ArrayList remove 依赖于对象的实现Equal方法
在 Java 中将弯音发送到 MIDI 音序器

我了解启动和运行 MIDI 音序器的基础知识并且希望能够在播放过程中增加减小序列的音高但弯音是发送到合成器而不是音序器的消息我尝试将音序器的接收器设置为合成器的发射器当我发送弯音短消息时音序器保持相同的音调但随后合成器以新的弯
如何找到被点击的JLabel并从中显示ImageIcon？

这是我的代码我想知道哪个l单击然后在新框架中显示该 ImageIcon e getSource 不起作用 final JFrame shirts new JFrame T shirts JPanel panel new JPanel n
使用 secp256r1 曲线和 SHA256 算法生成 ECDSA 签名 - BouncyCastle

我正在尝试使用带有 secp256r1 曲线 P256 的 ECDSA 和用于消息哈希的 SHA256 算法生成签名我也在使用 Bouncy Castle 库下面的代码 public class MyTest param args pu
使用 JAD 反编译 java - 限制

我正在尝试使用 Java 中的 JAD 反编译几个 jar 文件我也尝试过 JD GUI 但运气更差但出现了很多错误一种类型易于修复似乎是内部类但我也发现了这段代码 static int SWITCH TABLE atp com
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
无法使用 wget 在 CentOS 机器上安装 oracle jdk

我想在CentOS上安装oracle java jdk 8 我无法安装 java jdk 因为当我尝试使用命令安装 java jdk 时 root ADARSH PROD1 wget no cookies no check certific
为什么应该首选 Java 类的接口？

PMD https pmd github io 将举报以下违规行为 ArrayList list new ArrayList 违规行为是避免使用 ArrayList 等实现类型而是使用接口以下行将纠正违规行为 List list ne
如何捕获 try-with-resource 语句中 close 方法抛出的异常

我正在读关于try with resourceJava 中的语句可用于指定任意数量的资源 try Resource1 res1 initialize code Resource1 res2 initialize code statement

随机推荐

正则表达式验证和跨域postmessage

1 用正则表达式验证用户名
Hexagon GDB Debugger介绍（47）

Hexagon GDB Debugger介绍 47 4 5 2 8 Python 中的命令 4 5 2 9 Writing new convenience functions 4 5 2 8 Python 中的命令新的调试器命令可以在Py
10.Vue中绑定class属性，模板中传递class属性

文章目录 class 对象类型动态绑定动态切换动静结合关于写法数组类型多个绑定在组件上使用单根组件多根组件 attrs class 因为class属性的特殊性可以有多个值在将v bind 用于 class 时 Vue
RTTI

自从1993年Bjarne Stroustrup 注1 提出有关C 的RTTI功能之建议以及C 的例外处理 exception handling 需要RTTI 最近新推出的C 或多或少已提供RTTI 然而若不小心使用RTTI 可能会导
【Https】keytool 导入证书到本地 Exception: Input not an X.509 certificate

文章目录 1 背景本文为博主九师兄 QQ 541711153 欢迎来探讨技术原创文章未经允许博主不允许转载 1 背景首先参考这篇文章 Spring Spring Boot 支持 Https 根据这篇文章生成了这个文件然后根绝这个文
MFC中简单上位机框架搭建

项目源码下载地址 http download csdn net download zhuzemin45 12005663 文章主要分三个部分一非模态模态对话框创建二标签页创建三 Button调用多标签页的非模态对话框 1 非模
“百钱买百鸡”编程详解。

1 题目描述百钱买百鸡是我国古代的著名数学题 3 文钱可以买 1 只公鸡 2 文钱可以买一只母鸡 1 文钱可以买 3 只小鸡用 100 文钱买100 只鸡那么各有公鸡母鸡小鸡多少只 2 分析计算机无法通过直接的计算得出具体的数
QTimer与事件循环和多线程

定时器的源码分析 startTimer返回定时器的ID 在定时时间到了后收到一个QTimerEvent 并覆盖虚函数timerEvent进行处理该QTimerEvent包括了定时器ID 看QTimer的源码就明白了 QObject st
java创建自定义类的数组

java创建自定义类的数组错题笔记学习动态规划做例题hdu 2602遇到的问题创建自定义类后新建一个自定义类的数组向数组赋值时报如下错误 java lang NullPointerException Cannot assign f
【Qt】一篇全面的信号和槽函数机制总结

信号和槽函数机制文章目录信号和槽函数机制一信号和槽机制简介二信号 2 1 信号的发出 2 2 信号的处理三槽函数 3 1 带有默认参数的信号和槽函数 3 2 使用 QObject connect 将信号连接到槽函数的三种方法
integer operation result is out of range

程序中有如下定义 define UART1 EN 1 lt lt 31 编译后编译器报错 integer operation result is out of range 经查资料是由于溢出所致宏定义默认常量是有符号型当左移31位时
kerberos认证过程

KDC Key Distribution Center 密钥分发中心里面包含两个服务 AS和TGS AS Authentication Server 身份认证服务 TGS Ticket Granting Server 票据授予服务 TGT
[python] 使用scikit-learn工具计算文本TF-IDF值

在文本聚类文本分类或者比较两个文档相似程度过程中可能会涉及到TF IDF值的计算这里主要讲述基于Python的机器学习模块和开源工具 scikit learn 希望文章对你有所帮助相关文章如下 python爬虫 Selenium获取
铨顺宏RFID：试卷管理中RFID技术智能系统发挥着什么样的作用

1 项目背景在我国的教育招生考试中试卷的管理一直是比较棘手的问题它涉及试卷的组卷印刷封包运输发放回收入库阅卷以及历史保存等一系列复杂的流程且数量巨大到目前为止我国的试卷管理主要还是采取的人工管理方式势必存在安全形
随机抽奖小程序

本实例使用随机数字生成5位抽奖号码并显示在窗体的5个文本框中当用户单击开始按钮时将启动一个线程对象为5个文本框生成随机数字单击抽奖按钮时线程对象停止运行并且将准确的中奖号码显示在信息文本框中开发一个抽奖小工具的实例 1
基于PaddleClas的PP-LCNet实现车辆颜色及车型属性识别

目录源码 yolov5源码 1 环境准备 2 数据准备 3 车辆检测
目标检测评价指标合集

目标检测评价指标混淆矩阵 confusion matrix 可谓是贯穿了整个目标检测评价体系衍生了一系列的目标检测评价指标如精确率 precision 准确率 accuracy 召回率 recall F1 score ROC AUC指
ag-grid 学习笔记四：ag-grid方法（重设行数据、增删改、反选、新增列、插入新行、合计行接口、遍历行对象、获取置顶行数量、获取底部合计行对象、获取行对象、刷新、单元格焦点）

一 setRowData重新设置表格行数据重新设置表格数据很简单只需要调用 gridOptions api setRowData 数据集接口传入数据即可以下函数为调用方式 function resetGrid 新的数据项 var N
Hackinglab(鹰眼)——基础关

目录 1 key在哪里 2 再加密一次你就得到key啦 3 猜猜这是经过了多少次加密 4 据说MD5加密很安全真的是么 5 种族歧视 6 HAHA浏览器 7 key究竟在哪里呢 8 key又找不到了 9 冒充登陆用户 10 比较数字大小
Lucene使用IK中文分词

Lucene使用IK中文分词环境 Lucene 6 x IKAnalyzer2012 u6 也可以通过Maven或Gradle构建工程测试和验证对于Lucene的最新版本需要找到IK Analyzer对应的兼容版传送门 Lucene

Lucene使用IK中文分词

Lucene使用IK中文分词

环境

IK中文分词配置

使用和比较

Lucene使用IK中文分词 的相关文章

随机推荐

热门标签

Lucene使用IK中文分词的相关文章