【项目实战】Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序)

2023-11-01

说明：这是一个机器学习实战项目（附带数据+代码），如需数据+完整代码可以直接到文章最后获取。

1.项目背景

随着信息化社会的发展，互联网成为方便、快捷的信息获取渠道之一。在电子商务和社会网站中，大量非结构化的评论文本作为最直观的用户体验数据被保存下来。如何利用这些文字信息归纳出用户对某一事、物的观点态度成为自然语言(NLP)领域一项重要任务。

文本情感分析又称文本意见挖掘，是自然语言处理领域最优吸引力的研究方向之一。文本情感分析通过计算语言学知识量化处理得到一段文字的观点态度和情感倾向。

淘宝作为一个电子商务平台，越来越受欢迎，2020年天猫双十一营业额超过3000多亿。商家销售的商品更是不计其数，每个商品的评论更是非常之多，本项目就是针对商品的评论数据通过建立循环神经网络模型进行情感倾向的分析。

2.数据采集

通过Python撰写爬虫程序，爬取天猫华为手机商品的评论数据。

爬取的数据集如下：

数据集：data_comment.xlsx

数据字段包括：nickname、ratedate、auctionSku、ratecontent

在实际应用中，根据自己的数据进行替换即可。

特征数据：评论文本

标签数据：情感倾向(好评(2)、中评(1)、差评(0))

作为演示，我只弄了75条特征、标签数据，所以最后模型评估的时候，测试集再100次训练下出现了过拟合。

爬虫代码详见：爬虫.py
def GetInfo(num):
    # 定义需要的字段
    nickname = []
    auctionSku = []
    ratecontent = []
    ratedate = []
    # 循环获取每一页评论
    for i in range(num):
        # 头文件，没有头文件会返回错误的js
        headers = {
            'cookie': 'cna=qMU/EQh0JGoCAW5QEUJ1/zZm; enc=DUb9Egln3%2Fi4NrDfzfMsGHcMim6HWdN%2Bb4ljtnJs6MOO3H3xZsVcAs0nFao0I2uau%2FbmB031ZJRvrul7DmICSw%3D%3D; lid=%E5%90%91%E6%97%A5%E8%91%B5%E7%9B%9B%E5%BC%80%E7%9A%84%E5%A4%8F%E5%A4%A9941020; otherx=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0; hng=CN%7Czh-CN%7CCNY%7C156; x=__ll%3D-1%26_ato%3D0; t=2c579f9538646ca269e2128bced5672a; _m_h5_tk=86d64a702eea3035e5d5a6024012bd40_1551170172203; _m_h5_tk_enc=c10fd504aded0dc94f111b0e77781314; uc1=cookie16=V32FPkk%2FxXMk5UvIbNtImtMfJQ%3D%3D&cookie21=U%2BGCWk%2F7p4mBoUyS4E9C&cookie15=UtASsssmOIJ0bQ%3D%3D&existShop=false&pas=0&cookie14=UoTZ5bI3949Xhg%3D%3D&tag=8&lng=zh_CN; uc3=vt3=F8dByEzZ1MVSremcx%2BQ%3D&id2=UNcPuUTqrGd03w%3D%3D&nk2=F5RAQ19thpZO8A%3D%3D&lg2=U%2BGCWk%2F75gdr5Q%3D%3D; tracknick=tb51552614; _l_g_=Ug%3D%3D; ck1=""; unb=3778730506; lgc=tb51552614; cookie1=UUBZRT7oNe6%2BVDtyYKPVM4xfPcfYgF87KLfWMNP70Sc%3D; login=true; cookie17=UNcPuUTqrGd03w%3D%3D; cookie2=1843a4afaaa91d93ab0ab37c3b769be9; _nk_=tb51552614; uss=""; csg=b1ecc171; skt=503cb41f4134d19c; _tb_token_=e13935353f76e; x5sec=7b22726174656d616e616765723b32223a22393031623565643538663331616465613937336130636238633935313935363043493362302b4d46454e76646c7243692b34364c54426f4d4d7a63334f44637a4d4455774e6a7378227d; l=bBIHrB-nvFBuM0pFBOCNVQhjb_QOSIRYjuSJco3Wi_5Bp1T1Zv7OlzBs4e96Vj5R_xYB4KzBhYe9-etui; isg=BDY2WCV-dvURoAZdBw3uwj0Oh2yUQwE5YzQQ9qAfIpm149Z9COfKoZwV-_8q0HKp',
            'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
            'referer': 'https://detail.tmall.com/item.htm?spm=a1z10.5-b-s.w4011-17205939323.51.30156440Aer569&id=41212119204&rn=06f66c024f3726f8520bb678398053d8&abbucket=19&on_comment=1&sku_properties=134942334:3226348',
            'accept': '*/*',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-CN,zh;q=0.9'
        }
        # 解析JS文件内容
        content = requests.get(COMMENT_PAGE_URL[i], headers=headers).text
        print(content)
        nk = re.findall('"displayUserNick":"(.*?)"', content)
        nickname.extend(nk)
        # print(nk)
        auctionSku.extend(re.findall('"auctionSku":"(.*?)"', content))
        ratecontent.extend(re.findall('"rateContent":"(.*?)"', content))
        ratedate.extend(re.findall('"rateDate":"(.*?)"', content))

    data = pd.DataFrame(columns=['nickname', 'ratedate', 'auctionSku', 'ratecontent'])
    data['nickname'] = nickname
    data['ratedate'] = ratedate
    data['auctionSku'] = auctionSku
    data['ratecontent'] = ratecontent
    print(data.head())
    data.to_excel('data_comment_zcy.xlsx', index=False, encoding='utf-8')
3.数据预处理

爬虫爬取下来的数据格式如下：

用户户没有意义，直接去掉；日期转换为以天为单位；auctionSku字段以分号进行分割拆分为网络类型、机身颜色、套餐类型、存储容量4个数据项，方便后续进行数据分析，清洗后的数据如下：

4.探索性数据分析

1）按月统计订单完成交易时间的订单个数：

通过上图可以看到，2021年8月份完成订单交易最多，其次是2021年6月份。
data_group = df_data.groupby('月份').count()

data_group['ratecontent'].plot(kind='pie', title='按月统计订单完成交易时间的订单个数')
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.show()
2）按机型类型进行统计分析：

上图可以看到，SA/NSA双模(5G)、亮黑色、套餐一、8+256GB最多。
data_group = df_data.groupby(['网络类型', '机身颜色', '套餐类型', '存储容量']).count()

data_group['ratecontent'].plot(kind='bar', title='按机型类型进行统计分析')
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.show()
3）按机身颜色进行统计分析：

从上图可以看出，亮黑色最受欢迎。
data_group = df_data.groupby(['机身颜色']).count()

data_group['ratecontent'].plot(kind='barh', title='按机身颜色进行统计分析')
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.show()
3）按存储容量进行统计分析：

从上图可以看出，大部分人都喜欢大容量的。
data_group = df_data.groupby(['存储容量']).count()

data_group['ratecontent'].plot(kind='pie', title='按存储容量进行统计分析')
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.show()
4）制作评论数据词云图

分词：
def SegText():
    import jieba

    # 待分词的文本路径
    sourceTxt = 'source.txt'
    # 分好词后的文本路径
    targetTxt = 'target.txt'

    # 对文本进行操作
    with open(sourceTxt, 'r', encoding='utf-8') as sourceFile, open(targetTxt, 'a+', encoding='utf-8') as targetFile:
        for line in sourceFile:
            seg = jieba.cut(line.strip(), cut_all=False)
            # 分好词之后之间用/隔断
            output = '/'.join(seg)
            targetFile.write(output)
            targetFile.write('\n')
        print('写入成功！')
        sourceFile.close()
        targetFile.close()
词频统计：

词云图：
def Word_Cloud():  # 输出词频前N的词语并且以str的形式返回
    txt = open("shuchu.txt", "r", encoding='utf-8').read()  # 打开txt文件,要和python在同一文件夹
    words = jieba.lcut(txt)  # 精确模式，返回一个列表
    counts = {}  # 创建字典
    for word in words:
        if len(word) == 1:  # 把意义相同的词语归一
            continue
        elif word == "三炮" or  word == "#" or word== "##" or word=="24" or word=="RAP" or word=="video":
            rword = " "
        else:
            rword = word
        counts[rword] = counts.get(rword, 0) + 1  # 字典的运用，统计词频
    items = list(counts.items())  # 返回所有键值对P168
    items.sort(key=lambda x: x[1], reverse=True)  # 降序排序
    N = eval(input("请输入N：代表输出的数字个数")) # 这里输入300就行，因为shuchu01.txt里面的数据有限
    wordlist = list() # 创建列表并赋值
    for i in range(N):
        word, count = items[i]
        #   print("{0:<10}{1:<5}".format(word, count))  # 输出前N个词频的词语
        wordlist.append(word)  # 把词语word放进一个列表
    a = ' '.join(wordlist)  # 把列表转换成str wl为str类型，所以需要转换
    return a


def create_word_cloud():
    wl = Word_Cloud()  # 调用函数获取str！！
    # 图片名字 需一致
    cloud_mask = np.array(Image.open("love.jpg"))  # 词云的背景图，需要颜色区分度高

    wc = WordCloud(
        background_color="black",  # 背景颜色
        mask=cloud_mask,  # 背景图cloud_mask
        max_words=100,  # 最大词语数目
        font_path='simsun.ttf',  # 调用font里的simsun.tff字体，需要提前安装
        height=1200,  # 设置高度
        width=1600,  # 设置宽度
        max_font_size=1000,  # 最大字体号
        random_state=1000,  # 设置随机生成状态，即有多少种配色方案
5.特征工程

1)用Tokenizer给文本分词

评论句子已经被分解为单词

每个单词已经被分配一个唯一的词典索引

分词后输出的值是列表类型的数据：

2)通过直方图显示各条评论中单词个数的分布情况

上图中的评论长度分布情况表明多数评论的词数在5以内，所以我们只需要处理前5个词，就能够判定绝大多数评论的类型。如果这个数目太大，那么将来构造出的词嵌入张量就达不到密集矩阵的效果。
word_per_comment = [len(comment) for comment in X_train_tokenized_lst]
plt.hist(word_per_comment, bins=np.arange(0, 5, 0.2))  # 显示评论长度分布
plt.show()
6.LSTM建模

1)建立LSTM分类模型，模型参数如下：

编号

参数

1

loss=' sparse_categorical_crossentropy '

2

optimizer='adam'

3

metrics=['acc']

其它参数根据具体数据，具体设置。

2)神经网络概要

可以看到每层网络的类型、形状和参数。

一些其它的神经元图可以自行画。

3)训练过程展示
lstm = Sequential()  # 贯序模型
lstm.add(Embedding(dictionary_size, embedding_vecor_length,
                   input_length=max_comment_length))  # 加入词嵌入层
lstm.add(LSTM(100))  # 加入LSTM层
lstm.add(Dense(10, activation='relu'))  # 加入全连接层
lstm.add(Dense(3, activation='softmax'))  # 加入分类输出层
lstm.compile(loss='sparse_categorical_crossentropy',  # 损失函数
             optimizer='adam',  # 优化器
             metrics=['acc'])  # 评估指标
history = lstm.fit(X_train, y,
                   validation_split=0.3,
                   epochs=100,
                   batch_size=64)
7.模型评估

1)损失和准确率图

通过上图可以看到，针对测试集训练100次有些过拟合了，主要原因是总共我只做了75条数据，训练集数据太少。实际操作中，数据集是远远大于这个的。

其它一些评估方法，大家可以自行选择。
def show_history(history):
    loss = history.history['loss']
    val_loss = history.history['val_loss']
    epochs = range(1, len(loss) + 1)
    plt.figure(figsize=(12, 4))
    plt.subplot(1, 2, 1)
    plt.plot(epochs, loss, 'r', label='Training loss')
    plt.plot(epochs, val_loss, 'b', label='Test loss')
    plt.title('Training and Test loss')
    plt.xlabel('Epochs')
    plt.ylabel('Loss')
    plt.legend()
    acc = history.history['acc']
    val_acc = history.history['val_acc']
    plt.subplot(1, 2, 2)
    plt.plot(epochs, acc, 'r', label='Training acc')
    plt.plot(epochs, val_acc, 'b', label='Test acc')
    plt.title('Training and Test accuracy')
    plt.xlabel('Epochs')
    plt.ylabel('Accuracy')
    plt.legend()
    plt.show()
8.实际应用

在日常电子商务运营中，会出现新的评价数据，然后就可以运用此模型进行预测，准确定位客户对产品的评价，然后针对不同的客户要求来进行优化产品以及针对性营销。

本次机器学习项目实战所需的资料，项目资源如下：https://download.csdn.net/download/weixin_42163563/21987564

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

python

神经网络

LSTM

情感分析

【项目实战】Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序) 的相关文章

在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

详细讲解插入排序(JavaScript实现)

function insertSort alist let preindex current for let i 1 i
webpack打包原理解析

文章目录 webpack打包是如何运行的 webpack对CommonJS的模块化处理 webpack对es6 Module模块化的处理 webpack文件的按需加载按需加载输出代码分析总结 webpack打包是如何运行的也可以称为
Nacos框架服务主动下线原理及源代码讲解

原理 Nacos没有想eureka一样在服务端提供API供调用进行服务下线 Nacos的实现方式是通过在客户端提供方法我们自己封装API进行调用然后客户端会进行2个步骤 1 如果是临时服务客户端会把自己发送续约保活心跳的缓存实例给删
window.open对storage有没有影响？

首先在浏览器开发者模式打印如下信息设置storage存值 sessionStorage setItem aaa 111 localStorage setItem bbb 222 新开一个浏览器窗口在开发者模式打印窗口获取上一个窗口存储的
JAVA算法（分糖果）

题目描述有n个小朋友围坐成一圈老师给每个小朋友随机发偶数个糖果然后进行下面的游戏每个小朋友都把自己的糖果分一半给左手边的孩子一轮分糖后拥有奇数颗糖的孩子由老师补给1个糖果从而变成偶数反复进行这个游戏直到所有小朋友的糖果数都
版本记录总结

对构建中使用的版本进行记录
【vue】this.$router.replace跳转不起作用 Router push or replace not working

项目场景商城APP底部导航切换对应页面问题描述提示这里描述项目中遇到的问题 Just sit there clicking the home btn watching log show me home but never getti
Git远程库代码回退

一首先认识两个回退过程中很重要的命令 1 git log 显示所有提交过的版本信息不包括已经被删除的 commit 记录和 reset 的操作空格向下翻页 b 向上翻页 q 退出 git log pretty oneline git
华为od机试 C++ 【计算最少步数】

题目小明计划在周末去爬山他有一份包含山峰高度的地图其中 0 代表平地而 1 到 9 表示不同的山峰高度小明可以向上下左或右移动一步但是由于他不想爬得太累他决定只在高度差不超过 k 的地方移动现在他站在地图的左上角你能
做好五年不跳槽的准备

入职半年了我觉得这里可以长久发展其一工作能胜任我感觉找回自信了甚至有些傲娇了说明osg确实比较对口做擅长的工作会越做越有信心其二老大靠谱老大十几年经验并且很有耐心工作方式也对比如先给你代码在这个基础上改并且
超长整数相加

链接 https www nowcoder com questionTerminal 5821836e0ec140c1aa29510fd05f45fc orderByHotValue 1 mutiTagIds 640 643 page 6
Python数据挖掘数据预处理案例（以航空公司数据为例）

Python数据预处理一内容 1 数据清洗 2 数据集成 3 数据可视化二实验数据根据航空公司系统内的客户基本信息乘机信息以及积分信息等详细数据依据末次飞行日期 LAST FLIGHT DATE 以2014年3月31日为结束时
go build遇见“module *** found, but does not contain package ***”

在实际项目中编译版本时遇见以下问题 common middleware sentinel go 4 2 module github com alibaba sentinel golang latest found v1 0 2 but do
SSH项目所需jar包下载地址

struts2下载地址 http pan baidu com s 1c0joXbi hibernate下载地址 http pan baidu com s 1c0ues1a spring下载地址 http pan baidu com s 1b
JS学习篇（一）—— 数据类型篇

JS学习篇一数据类型篇 JS的有八种数据类型七种基本类型 undefined null Boolean number string symbol bigint 一种引用类型 object 七种基本类型 1 undefined 定义通
（新）关于修改window.navigator.webdriver代码失效问题

文章目录前文回顾溯源追根解决方案新登陆代码写在最后前文回顾前面写过两篇关于sycm自动化爬取的文章关于抓取代码的文章链接出师未捷身先死的sycm数据自动化关于chrome版本迭代后代码失效问题解决方案的文章链接关于修
mysql8.0一服务启动

声明本文禁止转载本文所有观点和概念都系个人总结难免存在疏漏之处为不至于诱导初学者误入歧途望各位以自己实践为准特此声明如有错误请告知启动流程 windows 7系统创建data空目录创建my ini文本文件内容如下
Mac如何通过Xcode安装GCC编译器 How to install gcc on mac with xcode

什么是GCC GCC GNU Compiler Collection 是由自由软件基金会 FSF Free Software Foundation Inc 研发的开源编译器集合用一句话说 GCC就是除Windows以外的平台上使用最广的编
Java反射copy对象源到目标

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一使用反射机制二使用步骤 1 引入库 2 Copy数据 3 Fields 自定义注解总结前言例如随着很多流行的框架出现反射也成了其中必不可少的
【项目实战】Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序)

说明这是一个机器学习实战项目附带数据代码如需数据完整代码可以直接到文章最后获取 1 项目背景随着信息化社会的发展互联网成为方便快捷的信息获取渠道之一在电子商务和社会网站中大量非结构化的评论文本作为最直观的用户体验数据被保

编号	参数
1	loss=' sparse_categorical_crossentropy '
2	optimizer='adam'
3	metrics=['acc']

【项目实战】Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序)

3.数据预处理

8.实际应用

【项目实战】Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序) 的相关文章

随机推荐

热门标签