数据挖掘案例实战：利用LDA主题模型提取京东评论数据（二）

2023-11-16

泰迪智能科技（数据挖掘平台：TipDM数据挖掘平台）最新推出的数据挖掘实战专栏

专栏将数据挖掘理论与项目案例实践相结合，可以让大家获得真实的数据挖掘学习与实践环境，更快、更好的学习数据挖掘知识与积累职业经验

专栏中每四篇文章为一个完整的数据挖掘案例。案例介绍顺序为：先由数据案例背景提出挖掘目标，再阐述分析方法与过程，最后完成模型构建，在介绍建模过程中同时穿插操作训练，把相关的知识点嵌入相应的操作过程中。

为方便读者轻松地获取一个真实的实验环境，本专栏使用大家熟知的Python语言对样本数据进行处理以进行挖掘建模。
————————————————
评论分词

1. 分词、词性标注、去除停用词。

（1）对评论数据进行分词

分词是文本信息处理的基础环节，是将一个单词序列切分成一个一个单词的过程。准确的分词可以极大的提高计算机对文本信息的是被和理解能力。相反，不准确的分词将会产生大量的噪声，严重干扰计算机的识别理解能力，并对这些信息的后续处理工作产生较大的影响。

汉语的基本单位是字，由字可以组成词，由词可以组成句子，进而由一些句子组成段、节、章、篇。可见，如果需要处理一篇中文语料，从中正确的识别出词是一件非常基础且重要的工作。

然而，中文以字为基本书写单位，词与词之间没有明显的区分标记。中文分词的任务就是把中文的序列切分成有意义的词，即添加合适的词串使得所形成的词串反映句子的本意，中午分词例子如表1所示。

表1 中文分词例子

当使用基于词典的中文分词方法进行中文信息处理时不得不考虑未登录词的处理。未登录词指词典中没有登录过的人名、地名、机构名、译名及新词语等。当采用匹配的办法来切分词语时，由于词典中没有登录这些词，会引起自动切分词语的困难。常见的未登陆词有命名实体，如“张三”“北京”“联想集团”“酒井法子”等；专业术语，如“贝叶斯算法”“模态”“万维网”；新词语，如“卡拉OK”“美刀”“啃老族”等。

另外，中文分词还存在切分歧义问题，如“当结合成分子时”这个句子可以有以下切分方法：“当/结合/成分/子时”，“当/结合/成/分子/时”，“当/结/合成/分子/时”，“当/结/合成分/子时”。

可以说，中文分词的关键问题为：切分歧义的消解和未登录词的识别。

词典匹配是分词最为传统也最为常见的一种办法。匹配方式可以为正向（从左到右）或逆向（从右到左）。对于匹配中遇到的多种分段可能性（segmentation ambiguity），通常会选取分隔出来词的数目最少的。

很明显，这种方式对词表的依赖很大，一旦出现词表中不存在的新词，算法是无法做到正确的切分的。但是词表匹配也有它的优势，比如简单易懂，不依赖训练数据，易于纠错等等。

还有一类方法是通过语料数据中的一些统计特征（如互信息量）去估计相邻汉字之间的关联性，进而实现词的切分。这类方法不依赖词表，特别是在对生词的发掘方面具有较强的灵活性，但是也经常会有精度方面的问题。

分词最常用的工作包是jieba分词包，jieba分词是python写成的一个分词开源库，专门用于中文分词，其有三条基本原理，即实现所采用技术。

① 基于trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG）。jieba分词自带了一个叫做dict.txt的词典，里面有2万多条词，包含了词条出现的次数（这个次数是作者自己基于人民日报语料等资源训练得出来的）和词性。trie树是有名的前缀树，若一个词语的前面几个字一样，表示该词语具有相同的前缀，可以使用trie树来存储，trie树存储方式具有查找速度快的优势。后一句的“生成句子中汉字所有可能成词情况所构成的有向无环图”意思是给定一个待切分的句子，生成一个如图1所示的有向无环图。

图1 “有意见分歧”切分生成的有向无环图

② 采用动态规划查找最大概率路径，找出基于词频的最大切分组合。先查找待分词句子中已经切分好的词语，再查找该词语出现的频率，然后根据动态规划查找最大概率路径的方法，对句子从右往左反向计算最大概率（反向是因为汉语句子的重心经常落在右边，从右往左计算，正确率要高于从左往右计算，这个类似于逆向最大匹配），最后得到最大概率的切分组合。

③ 对于未登录词，采用HMM模型，使用了Viterbi算法，将中文词汇按照BEMS四个状态来标记。其中B是begin，表示开始位置；E是end，表示结束位置；M是middle，表示中间位置；S是singgle，表示单独成词的位置。HMM模型采用(B,E,M,S)这四种状态来标记中文词语，比如北京可以标注为BE，即北/B京/E，表示北是开始位置，京是结束位置，中华民族可以标注为BMME，就是开始、中间、中间和结束。

（2）去除停用词

停用词（Stop Words），词典译为“电脑检索中的虚字、非检索用字”。在SEO搜索引擎中，为节省存储空间和提高搜索效率，搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为停用词。

停用词一定程度上相当于过滤词（Filter Words），区别是过滤词的范围更大一些，包含情色、政治等敏感信息的关键词都会被视做过滤词加以处理，停用词本身则没有这个限制。通常意义上，停用词大致可分为如下两类。

一类是使用十分广泛，甚至是过于频繁的一些单词。比如英文的“i”“is”“what”，中文的“我”“就”等，这些词几乎在每个文档上均会出现，查询这样的词无法保证搜索引擎能够给出真正相关的搜索结果，因此无法缩小搜索范围来提高搜索结果的准确性，同时还会降低搜索的效率。因此，在搜索的时候，Google和百度等搜索引擎会忽略掉特定的常用词，如果使用了太多的停用词，有可能无法得到精确的结果，甚至可能得到大量毫不相关的搜索结果。

另一类是文本中出现频率很高，但实际意义又不大的词。这一类词主要包括了语气助词、副词、介词、连词等，通常自身并无明确意义，只有将其放入一个完整的句子中才有一定作用的词语。常见的有“的”“在”“和”“接着”等，例如“泰迪教育研究院是最好的大数据知识传播机构之一”这句话中的“是”“的”就是两个停用词。

经过分词后，评论由一个字符串的形式变为多个由文字或词语组成的字符串的形式，可判断评论中词语是否为停用词。根据上述停用词的定义整理出停用词库，并根据停用词库去除评论中的停用词，如代码清单1所示。

代码清单1 分词、词性标注、去除停用词代码

# 分词worker = lambda s: [(x.word, x.flag) for x in psg.cut(s)] # 自定义简单分词函数seg_word = content.apply(worker)
# 将词语转为数据框形式，一列是词，一列是词语所在的句子ID，最后一列是词语在该句子的位置n_word = seg_word.apply(lambda x: len(x))  # 每一评论中词的个数
n_content = [[x+1]*y for x,y in zip(list(seg_word.index), list(n_word))]index_content = sum(n_content, [])  # 将嵌套的列表展开，作为词所在评论的id
seg_word = sum(seg_word, [])word = [x[0] for x in seg_word]  # 词
nature = [x[1] for x in seg_word]  # 词性
content_type = [[x]*y for x,y in zip(list(reviews['content_type']),              list(n_word))]content_type = sum(content_type, [])  # 评论类型
result = pd.DataFrame({"index_content":index_content,                        "word":word,                       "nature":nature,                       "content_type":content_type})
# 删除标点符号result = result[result['nature'] != 'x']  # x表示标点符号
# 删除停用词stop_path = open("../data/stoplist.txt", 'r',encoding='UTF-8')stop = stop_path.readlines()stop = [x.replace('\n', '') for x in stop]word = list(set(word) - set(stop))result = result[result['word'].isin(word)]
# 构造各词在对应评论的位置列n_word = list(result.groupby(by = ['index_content'])['index_content'].count())index_word = [list(np.arange(0, y)) for y in n_word]index_word = sum(index_word, [])  # 表示词语在改评论的位置
# 合并评论id，评论中词的id，词，词性，评论类型result['index_word'] = index_word

2. 提取含名词的评论

由于本案例的目标是对产品特征的优缺点进行分析，类似“不错，很好的产品”，“很不错，继续支持”等评论虽然表达了对产品的情感倾向，但是实际上无法根据这些评论提取出哪些产品特征是用户满意的。评论中只有出现明确的名词，如机构团体及其它专有名词时，评论才有意义，因此需要对分词后的词语进行词性标注。之后再根据词性将含有名词类的评论提取出来。

jieba关于词典词性标记，采用ICTCLAS的标记方法。ICTCLAS汉语词性标注集如表2所示。

表2 ICTCLAS 汉语词性标注集

根据得出的词性，提取评论中词性含有“n”的评论，如代码清单2所示。

代码清单2 提取含有名词的评论

# 提取含有名词类的评论ind = result[['n' in x for x in result['nature']]]['index_content'].unique()result = result[[x in ind for x in result['index_content']]]3. 绘制词云查看分词效果

进行数据预处理后，可绘制词云查看分词效果，词云会将文本中出现频率较高的“关键词”予以视觉上的突出。首先需要对词语进行词频统计，将词频按照降序排序，选择前100个词，使用wordcloud模块中的WordCloud绘制词云，查看分词效果，如代码清单3所示。

代码清单3 绘制词云

import matplotlib.pyplot as pltfrom wordcloud import WordCloud
frequencies = result.groupby(by = ['word'])['word'].count()frequencies = frequencies.sort_values(ascending = False)backgroud_Image=plt.imread('../data/pl.jpg')wordcloud = WordCloud(font_path="STZHONGS.ttf",                      max_words=100,                      background_color='white',                      mask=backgroud_Image)my_wordcloud = wordcloud.fit_words(frequencies)plt.imshow(my_wordcloud)plt.axis('off') plt.show()
# 将结果写出result.to_csv("../tmp/word.csv", index = False, encoding = 'utf-8')

*代码请联系客服领取，联系方式见文末

运行代码清单3可得到分词后的词云图，如图2所示。

图2 分词后的词云图

根据图2可以看出，对评论数据进行预处理后，分词效果较为符合预期。其中“安装”“师傅”“售后”“物流”，“服务”等词出现频率较高，因此可以初步判断用户对产品这几个方面比较重视。

下一篇将推送：利用LDA主题模型提取京东评论数据（三）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘案例实战：利用LDA主题模型提取京东评论数据（二）的相关文章

【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
2023下半年软考「单独划线」合格标准公布

中国计算机技术职业资格网发布了关于2023年度下半年计算机软件资格考试单独划线地区合格标准的通告 2023下半年软考单独划线地区合格标准各科目均为42分 01 官方通告关于2023年度下半年计算机软件资格考试单独划线地区合格标准的通告

随机推荐

Qt接收MJPG视频流、实现SSH登录，树莓派机械臂分拣系统设计

这是机械臂这是我基于树莓派的机械臂分拣系统设计项目代码链接 https pan baidu com s 1KAnaYgfNycjlPONd5k zCg 提取码 pt9p
20200322问题 E: 运动员名次

题目描述 LZY经过他的不懈努力终于成为第2147483647届奥运会名次排序员现在给LZY N 名运动员的成绩找出他们的相对名次并授予前三名对应的奖牌前三名运动员将会被分别授予金牌银牌和铜牌 Gold Medal Silv
【Python小游戏】评论区谁是最厉害的《俄罗斯方块》玩家？昨天自学了turtle,做了个俄罗斯方块，可惜我太菜 /(ㄒoㄒ)/~~

前言作者程序员梨子文章源码免费获取为了感谢每一个关注我的小可爱每篇文章的项目源码都是无偿分享滴点下面找我获取完整资料哈点这里蓝色这行字体自取需要什么源码记得说标题名字哈私信我也可欢迎小伙伴们点赞收藏留言正文警报
逆向面试常见问题（陆续更新ing）

资料大部分收集于网络点击对应标题有原帖地址 PE 怎么判断PE是DLL 还是EXE 文件值属性加载基址怎么判断PE文件是32位还是64位 PE加载过程基础 Windows下的调用约定通用寄存器有哪些段存器怎么找到函数地址调试
spring整合RocketMQ

1 看官方javademo https www apache org dyn closer cgi path rocketmq 4 2 0 rocketmq all 4 2 0 source release zip 下载下来 spring
计算机取证技术未来的发展,Computer Forensics and Its Future Trend计算机取证技术及其发展趋势...

摘要 Computer forensics is the technology field that attempts to prove thorough efficient and secure means to investigate
【OpenCV4】C++ 创建二维汉宁窗 Hann Window / Hanning Window

汉宁窗作用防止在 DFT 或 FFT 过程中出现频率泄露代码 include
[vue3]判断存放在state里面的变量的返回值为proxy {}时为空

先说判断方法通过JSON stringify将返回的proxy数据转换成字符串在判断是否为空如果此时options value的返回值是proxy console log JSON stringify options value tr
一键重装系统工具和U盘重装工具有什么区别？

用户常用的系统重装方法就是一键重装系统和U盘装系统了吧但是还有很多小白不清楚一键重装系统工具和U盘装系统工具有什么区别自己重装时要选择哪款工具下面小编就给大家讲讲石大师U盘装系统大师下载石大师U盘重装系统官方版下载系统之家 U盘
【自我提高】树莓派UART的几种语言控制方法 C 篇

自我提高树莓派UART的几种语言控制方法 C语言篇首先要安装wiringPi 具体安装过程见一下链接 https blog csdn net shileiwu0505 article details 106365588 对照树莓派 3
LaTeX中插入jpg图片

documentclass a4paper article usepackage graphicx times usepackage subfigure usepackage natbib usepackage amssymb amsmat
动态测试方法

动态测试方法通过实际执行代码去发现潜在代码错误的测试方法人工动态方法人工动态方法可以真正检测代码的业务逻辑功能其关注点是什么样的输入执行了什么代码产生了什么样的输出主要用于发现算法错误和部分算法错误是最主要的代码级测试手
腾讯xSCR平台源码部署

腾讯xSCR平台源码部署腾讯开源src平台看上去很不错的样子在docker部署成功后再次尝试源码部署 1 环境部署 Centos 7 Apache Nginx 这里我选择的是Apache 个人喜好 yum y install htt
利用spring的profile切换不同的环境

1 profile简单实用简单暴力才是最好的我们就简单地用一下先不考虑和maven的集成使用就可以解决烦人的事情
Lattics：一款简单易用、好看强大的「类脑式」知识管理工具，笔记应用与写作软件二合一

如何选择一款适合自己的知识管理工具随着数字化时代的到来越来越多的人意识到知识管理的重要性笔记软件和写作软件作为一种常用的知识管理工具一直以来备受关注从最早的印象笔记有道云为知笔记幕布mubu到近几年的思源 Siyuan 熊掌
新的选择器+CSS变量
对于System.out.println简单了解

System out println很多人都是处于用的阶段并没有深入的了解我也是之所以来了解这个东西是因为在本地开发的时候启动项目的时候发现内存不足了这个问题就很纳闷明明刚刚还是好好的突然就内存不足了想到在之前写了几个Syst
预防H7N9

传染源目前尚不明确根据以往经验及本次病例流行病学调查推测可能为携带H7N9禽流感病毒的禽类及其分泌物或排泄物 1 症状病情表现为典型的病毒性肺炎起病急病程早期有高热 38度以上可给予物理降温如冰敷乙醇擦浴降温毯等儿童禁
电路基础和电路模拟——复习

目录前言一第一章电路基础 1 参考方向关联参考方向的物理意义参考方向关联参考方向 2 电压与电位的区别 3 在非关联参考方向下欧姆定律功率计算的表达式 4 电容中电流与电压关系式 5 电容储能公式和物理意义电容储能公式物
数据挖掘案例实战：利用LDA主题模型提取京东评论数据（二）

泰迪智能科技数据挖掘平台 TipDM数据挖掘平台最新推出的数据挖掘实战专栏专栏将数据挖掘理论与项目案例实践相结合可以让大家获得真实的数据挖掘学习与实践环境更快更好的学习数据挖掘知识与积累职业经验专栏中每四篇文章为一个完整的数据

数据挖掘案例实战：利用LDA主题模型提取京东评论数据（二）

数据挖掘案例实战：利用LDA主题模型提取京东评论数据（二） 的相关文章

随机推荐

热门标签

数据挖掘案例实战：利用LDA主题模型提取京东评论数据（二）的相关文章