TF-IDF的计算公式如下:
代码案例
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
sentences_list: list = [
'优惠的政策和政府对产业发展的重视也吸引了更多医美企业来成都寻觅机遇。2018年成都医美机构的数量一度飙升至407家,较之前一年激增131家。',
'中国医学科学院整形外科医院也选择于2018年将首家京外分院——成都八大处医疗美容医院落地蓉城。不断增长的营收数据没有让人失望.',
'成都八大处医疗美容医院院长唐勇告诉记者,在因新冠肺炎疫情停业近40天的情况下,该院2020年的营收相比2019年仍实现了约30%的增长。'
'实际上,随着“颜值经济”不断走热,医美逐渐成为部分当代中国人的“刚需”,其中恢复期短、风险较低的轻医美最受欢迎。',
'出于对安全性、可靠性等因素的考虑,大量消费者自然而然地流动到医美资源集聚的城市“求美”,“医美旅游”悄然兴起。',
'成都头部医美机构之一、四川华美紫馨医学美容医院2020年整体营收约6亿元。该院总经理薛红介绍,医院每年治疗人数中约20%都是专程前来的外地消费者。',
'“尤其最近几年,这部分消费者数量增长很快,来自甘肃、青海、云南、贵州等各个省份的都有。”',
] # 这是训练用的文本
sent_words = [list(jieba.cut(p_sen)) for p_sen in sentences_list]
document = [" ".join(p_sen) for p_sen in sent_words]
tfidf_model = TfidfVectorizer(stop_words=['2020', '2018', '2019'])
tfidf_model.fit(document)
sparse_result = tfidf_model.transform(document)
print("所有的单词:", tfidf_model.vocabulary_)
# 这里显示所有的词,也可使用tfidf_model.get_feature_names(),区别是get_feature_names会按照index排序,而vocabulary_不会
print("第一个句子:", document[0])
print("第一个句子的tfidf embedding:", tfidf_model.transform([document[0]]).toarray()) # 训练文本中的第一个句子对应的句向量
上面的代码是一个案例,训练出来的tfidf_model
会保留一个词表,一个idf的值。当使用tfidf_model.transform()
时,计算步骤为:
- 统计每个在
tfidf_model
的词库中出现过的词,统计词频
- 每个词频乘以对应位置的idf值,即得到tf-idf的结果
- 对向量归一化后输出