python2.7爬取京东商品评论

2023-05-16

大神请绕路，新手先别急着上车

我们先来了解一下京东商品评论的地址，他们的客户评论看似是在商品页（item.jd.com），但实际上是在club.jd.com/review/这个url里面，要找到这个只要打开浏览器的console看看页面元素的href的连接看仔细点就行。

club.jd.com/review/在这一页里面留心点看看comment-content，你就会有找到你想要的

#encoding:utf-8
import urllib
from snownlp import SnowNLP
r = False
l = ''
n = 0
sno = raw_input('please input goods number：\n')
f = open('jdpl_data3.txt','w')
try:
    for i in range (1,64) :
        p = urllib.urlopen('http://club.jd.com/review/%s-3-%d-0.html'%(sno,i))
        for j in p.read():
            if j == '\n':
                #print l
                if r :
                    if '</dd>' in l:
                        l = l.replace('\t','')
                        l = l.replace(' ','')
                        l = l.replace('<dd>','')
                        l = l.replace('</dd>','')
                        n = n+1
                        print l
                        f.write(str(n))
                        f.write(' ')
                        f.write(l)
                        f.write(' ')
                        s = SnowNLP(l.decode('gbk')).sentiments
                        f.write(str(s))
                        f.write('\n')
                        r = False
                if 'comment-content' in l :
                    r = True
                l = ''
            else:
                l = l + j
except Exception,e:
    f.close()
f.close()
print 'All Finish!'

里面的snownlp模块是用来进行情感分析的，将评论解码成unicode格式，然后调入snownlp模块的sentisments就可以得到一个感情值，0.5为中性，越接近1越是喜欢，越接近0越是厌恶
在这个url: http://club.jd.com/review/%s-3-%d-0.html

%s是我们一开始输入的商品代号，%d是评论的第几页，京东的客户评论一页有20条，通过for循环，我可以把所有的评论页都遍历一遍

每次抓取网页的主要思路是先找到标签里的comment-content，然后将r设置为true，之后等到爬取的html行中出现<dd>，就提取<dd></dd>标签里的评论，然后将r设置为false继续读取下一行html内容直到读取完网页内容，或者网页不存在为止

程序抓取的评论会保存在同目录下的 jdpl_data3.txt 文件里面

最后实现的效果请看：http://pan.baidu.com/s/1c2kXPSW 或者下载资源包http://download.csdn.net/detail/baidu_28795717/9830483

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python2.7爬取京东商品评论的相关文章

激光数据去畸变

机械激光雷达产生数据原理机械激光雷达中内置高速旋转的电机 xff0c 电机旋转的频率决定了激光雷达产生数据的频率比如一个fov为360度的激光雷达 xff0c 每秒旋转一圈 xff0c 那么激光数据的频率就是1Hz xff1b 如果每秒
rosbag 录包

ros提供了方便的录包指令 xff0c 基本使用如下 xff1a rosbag record topic 1 topic 2 这里记录下 xff0c 类似于滑动窗口的方式录制指定size的N个bag包这主要用于只录制最近一段时间的数据包
pyhon记录cpu数据并保存到日志

import logging import psutil time import re string log filename 61 34 logging txt 34 log format 61 39 asctime s message
ubuntu 修改重启时间

ubuntu 默认重启时间过长 xff0c 默认为90s xff08 太久了 xff09 xff0c 下面为修改重启时间的正确姿势 cd etc systemd sudo vim system conf 打开文件后将下面这两行取消注释并修改
数据分析实战（一）：2019北大软微考研初试分析

2019考研的初试成绩陆续放出 xff0c 也是几家欢喜几家愁北大确实公平公正公开 xff0c 所有成绩 xff0c 排名在其研招网均能悉数找到 xff0c 下面选取了较为热门的北大软件与微电子学院考研初试成绩进行数据分析导入excel
程序员如何写项目经历

对于程序员的简历来说 xff0c 简历的好坏可能影响着你能不能拿到满意的offer和薪资 xff0c 所以写一份高质量的简历 xff0c 突出自己技术能力非常重要 xff0c 就大家如何写简历中最重要的项目经历部分给出一些建议了解项目的背
TypeError: iter() returned non-iterator of type ‘xxx‘

最近在读 Python高级编程 xff08 Ziade著 xff09 xff0c 看到里面的自我设计的迭代器 xff1a 自己写的 xff1a span class token keyword class span span class t
memcpy与memmove函数的区别和实现

1 函数定义 memcpy与memmove都是C语言的库函数 xff0c 在头文件string h中 xff0c 作用是内存拷贝唯一的区别是 xff0c 当内存发生局部重叠时 xff0c memmove保证了拷贝的结果是正确的 xff0c
C语言strstr()函数用法-字符串查找

1 函数定义 strstr 函数是一个参数为两个字符指针类型 xff0c 返回值是char 类型的函数用于找到子串 xff08 str2 xff09 在一个字符串 xff08 str1 xff09 中第一次出现的位置 xff08 不包括s
"XXXX" is not translated in "en" (English), "zh" (Chinese)

http www jianshu com p 39cd21451f06 Android Lint 34 XXXX 34 is not translated in 34 en 34 English 34 zh 34 Chinese 字数269
Qt之make: Nothing to be done for ‘first‘

今天在修改了pro cpp h等文件 xff0c 重新编译时 xff0c 出现了标题所示的内容如下图1所示和同事讨论了一下 xff0c 主要有几个问题 xff0c 可能导致make不成功 1 xff09 工程文件内容没有变化 xff0c
cannot open shared object file: No such file or directory

在一台Linux上编译库文件和执行文件后 xff0c 放到另一台Linux机器上 xff0c 执行报错 xff0c 显示 xff1a cannot open shared object file No such file or direct
C++ float转换int，四舍五入

正常的float 转换为 int 的情况是采用去尾巴的方式 xff0c 也就是说去掉小数点后面的数值 1 常规的float 转换为 int xff1a 例如 xff1a 9 34 61 xff08 int xff09 9 xff1b 9 9
如何隐藏QTabWidget中的一个tab

QTabWidget 中的tab xff0c 采用hide xff0c close xff0c setHidden true xff0c setVisible false 等方式都无法隐藏tab 可以通过以下方式隐藏 ui gt tabWi
C++排序之stable_sort()的方法

stable sort 可以对vector的某个成员进行排序 xff0c 而且可保证相等元素的原本相对次序在排序后保持不变下面是该函数的实现方法代码 xff1a include lt iostream gt include lt math
QString和QDateTime之间的相互转换

1 QDateTime 转换为QString QString strBuffer QDateTime time time 61 QDateTime currentDateTime strBuffer 61 time toString 34
QDateEdit日历修改之QCalendarWidget 样式设置

1 QDateEdit控件显示日历 xff0c 需要用下面的setCalendarPopup true xff1b ui dateEdit gt setCalendarPopup true 2 日历样式的修改需要用到QCalendarWid
解决ssh连接远程机器时提示“ssh_exchange_identification: Connection closed by remote host”或 Connection refused

不少人在ssh连接远程机器时遇到过ssh exchange identification Connection closed by remote host的问题 xff0c 在网上找了一堆教程试了都不行 xff0c 博主总结了常见的几种解决
百度地图POI数据获取并转为Excel文件

查看全文百度地图POI数据获取并转为Excel文件
HAL库版STM32双轮自平衡车(四) ———— 原理图以及PCB绘制

系列文章目录 HAL库版STM32双轮自平衡车一代码思路和PID基础精讲 HAL库版STM32双轮自平衡车二 CubeMX的配置原理图接线物料准备 HAL库版STM32双轮自平衡车三代码精讲 HAL库版STM32双轮自平衡车

随机推荐

关于VR的历史及发展

寒假我看了关于一些虚拟现实的东西 xff0c 并在网上查获了一些资料 xff0c 作出以下归纳总结 xff1a 虚拟现实 xff0c 无法绕开它的历史 xff0c 最早可以追溯到公元前427年的古希腊时代 xff0c 当时的哲学家柏拉图在提
机器人RPY角和Euler角 -- 基本公式

参考 xff1a 机器人学熊有伦等编著机械工业出版社 P36 P40 说明 xff1a 假设两个坐标系A和B xff0c 二者初始时完全重合一绕定轴X Y Z旋转 xff08 RPY角 xff09 过程如下 xff1a B绕A的X
solvepnp函数-世界坐标系

一二世界坐标系是任意选定的 xff0c 可以任意事先定义 xff0c 然后给出每个特征点在世界坐标系下的三维坐标 xff0c 然后以一定顺序存储这些点特征点的像素坐标 xff0c 一般是通过角点检测算法直接得到的 xff0c 角点检测
【C++】STL-迭代器

Iterator xff08 迭代器 xff09 模式又称游标 xff08 Cursor xff09 模式 xff0c 就是把不同集合类的访问逻辑抽象出来 xff0c 使得不用暴露集合内部的结构而达到循环遍历集合的效果 xff0c 而又不需
Windows11 + Linux子系统(ubuntu)体验(篇一)

今年10月份微软发布了新一代的Windows系统 Windows11 xff0c 这距离上一代产品Windows10发布已经有6年之久 xff0c 打破了微软自Windows7之后每三年更新一代操作系统的传统可以说这一代Win11是蓄势已
喜获蚂蚁offer，定级p7，面经分享，万字长文带你走完面试全过程

前言在今天 xff0c 我收到了蚂蚁金服A级的实习录用offer 从开始面试到拿到口头offer xff08 四面技术 43 一面HR xff09 战线大约拉了半个月 xff0c 从拿到口头offer到收到正式录用邮件大概又是半个月思前
C++中 #define的用法

C 43 43 中 define的用法转自 xff1a http www dingge com main article asp id 61 10 今天整理了一些 define的用法 xff0c 与大家共享 xff01 1 简单的defi
LeetCode的语言使用

看来以后不能再用python来写算法的题目了用python竟然是一种取巧的办法 xff0c 以后还是用C 43 43 来写吧 python里面有很多内置的库 xff0c 这也就导致掩盖了很多复杂的算法的特性虽然在写代码的时候很简单 xf
Windows10安装Ubuntu16.04

由于最近要在Ubuntu上面开发 xff0c 得安装一个Ubuntu的系统 xff0c 这些是很常见的安装 xff0c 但是也踩了一些坑 xff0c 下面记录下来安装环境 Windows10Ubuntu16 04 基础理论在安装的时候有
python 下划线 _ __ 开头的变量详解

在python中 xff0c 我们经常能看到很多变量名以下划线开头 xff0c 而且下划线的数量还不一样 xff0c 那么这些变量的作用到底是什么 xff1f 变量名分类 xff1a 以数字字母开头 xff1a 正常的公有变量名 a 6
两个画图工具助力论文绘图

欢迎关注笔者的微信公众号如果使用matplotlib绘制论文图片时需要做非常多的设置 xff0c 字体 xff0c 大小 xff0c 间距 xff0c 多子图配置等 xff0c 而这些操作可以封装好从而简化用户工作量 Proplot对ma
对自然数e的理解，推导(基础)

对自然数e的理解 xff0c 推导基础在前面的博文古典概型事件数计算分房 xff0c 配对 xff0c 乱序概统1 一文中 xff0c 已经写到了对e的理解 xff0c 在n把钥匙配n把锁的乱序配对问题中 xff0c 当n很大
检验和算法

1 CRC xff08 循环冗余码校验和的算法为 xff1a 所有各字节的和模256的余即各字节二进制算术和 xff0c 不计超过256的溢出值 xff08 即只取其和的低8位数据 xff09 xff0c 然后用0x100减去这个算数
我的四轴专用PID参数整定方法及原理---超长文慎入

给四轴调了好久的PID xff0c 总算是调好了 xff0c 现分享 PID 参数整定的心得给大家 xff0c 还请大家喷的时候手下留情首先说明一下 xff0c 这篇文章的主旨并不是直接教你怎么调 xff0c 而是告诉你这么调有什么道理
px4原生源码学习-(1)

接触px4代码有几天了 xff0c 想把自己所学所想记录下来 px4就不过多介绍了 xff0c 算得上目前使用的最广泛的开源飞控了为什么说 px4原生代码学习呢 xff0c 这还得追溯到被大疆干死的3DR xff0c 3DR想做消费级无人
px4原生源码学习-(2)--实时操作系统篇

po上我使用到的硬件和开发环境 px4硬件 xff1a 某宝销量最高的pixhawk套件 xff08 主机 xff0c gps 43 指南针 xff0c 数传 xff0c pwm转pmm xff0c 安全开关 xff0c 蜂鸣器 xff0c
px4原生源码学习-(3)--Nuttx实时操作系统的使用

po上我使用到的硬件和开发环境 px4硬件 xff1a 某宝销量最高的pixhawk套件 xff08 主机 xff0c gps 43 指南针 xff0c 数传 xff0c pwm转pmm xff0c 安全开关 xff0c 蜂鸣器 xff0c
为单反拍摄照片批量加入地理位置信息（POS点）和EXIF信息

很多航测朋友对于照片中没有POS点很是懊恼 xff0c 单反同飞控是分离的 xff0c 照片由单反生成 xff0c 而POS点的数据由飞控生成对于后期数据处理相当不利 xff0c 尤其是目前对于倾斜摄影的朋友 xff0c 地理位置信息一定
解决angular中的版本问题，Metadata version mismatch for module,found version 4, expected 3

angular版本问题解决办法 xff1b 第一步 xff1a 查出错误模块的当前安装版本以 ng bootstrap模块为例 npm list ng bootstrap 第二步 xff1a 查出所有版本号 npm view ng boo
python2.7爬取京东商品评论

大神请绕路 xff0c 新手先别急着上车我们先来了解一下京东商品评论的地址 xff0c 他们的客户评论看似是在商品页 xff08 item jd com xff09 xff0c 但实际上是在club jd com review 这个url

python2.7爬取京东商品评论

python2.7爬取京东商品评论 的相关文章

随机推荐

热门标签

python2.7爬取京东商品评论的相关文章