worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH,
idf = IDFPATH, stop_word = STOPPATH, write = T, qmax = 20, topn = 5,
encoding = "UTF-8", detect = T, symbol = F, lines = 1e+05,
output = NULL, bylines = F, user_weight = "max")
--------------------
## 参数解释
type, 引擎类型
dict, 系统词典
hmm, HMM模型路径
user, 用户词典
idf, IDF词典
stop_word, 关键词用停止词库
write, 是否将文件分词结果写入文件,默认FALSE
qmax, 最大成词的字符数,默认20个字符
topn, 关键词数,默认5个
encoding, 输入文件的编码,默认UTF-8
detect, 是否编码检查,默认TRUE
symbol, 是否保留符号,默认FALSE
lines, 每次读取文件的最大行数,用于控制读取文件的长度。大文件则会分次读取。
output, 输出路径
bylines, 按行输出
user_weight, 用户权重
根据基于人民日报等语料库构建的HMM模型来进行分词,主要算法思路是根据(B,E,M,S)四个状态来代表每个字的隐藏状态,HMM模型由dict/hmm_model.utf8提供,分词算法即viterbi算法。