Python爬虫之使用MongoDB存储数据

2023-11-13

1.MongoDB的安装

MongoDB是一种非关系型数据库

MongoDB官网

选择你的系统对应的版本下载安装即可

2.MongoDB配置

a.在C盘或者D盘建一个文件夹如图mongodb

b.安装成功后里面会有bin文件然后再文件夹里面新建一个data文件夹，data文件里面新建db文件夹

db文件夹用于存储MongoDB数据

c.在bin文件路径下打开命令行工具执行下面的命令

mongod --dbpath C:\mongdb\data\db
复制代码

注意：文件夹路径以自己所建的为准

d.此时在打开一个命令行在bin路径下执行下面的代码

mongo
复制代码

3.安装第三方库pymongo(连接MongoDB)

pip3 install pymongo
复制代码

4.安装Mongodb可视化管理工具Robomongo

Robomongo官网

安装成功之后启动Robomongo，在空白处点击，然后选择Add命令，单击Save,最后点击Connect按钮连接到MongoDB数据库

5.案例代码

引入相应的模块

import requests
from lxml import etree
import re
import pymongo
import time
复制代码

连接mongodb数据库

client = pymongo.MongoClient('localhost', 27017)
mydb = client['mydb']
musictop = mydb['musictop']
复制代码

案例完整代码

import requests
from lxml import etree
import re
import pymongo
import time

client = pymongo.MongoClient('localhost', 27017)
mydb = client['mydb']
musictop = mydb['musictop']

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
}

def get_url_music(url):
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)
    music_hrefs = selector.xpath('//a[@class="nbg"]/@href')
    for music_href in music_hrefs:
        get_music_info(music_href)

def get_music_info(url):
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)
    name = selector.xpath('//*[@id="wrapper"]/h1/span/text()')[0]
    author = re.findall('表演者:.*?>(.*?)</a>', html.text,re.S)[0]
    styles = re.findall('<span class="pl">流派:</span>&nbsp;(.*?)<br/>',html.text,re.S)
    if len(styles) == 0:
        style = '未知'
    else:
        style = styles[0].strip()
    time = re.findall('发行时间:</span>&nbsp;(.*?)<br/>', html.text, re.S)[0].strip()
    publishers = re.findall('出版者:.*?>(.*?)</a>', html.text, re.S)

    if len(publishers) == 0:
        publishers = '未知'
    else:
        publishers = publishers[0].strip()
    score = selector.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()')[0]
    print(name, author, style, time, publishers, score)
    info = {
        'name': name,
        'author': author,
        'style': style,
        'time': time,
        'publisher': publishers,
        'score': score
    }

    musictop.insert_one(info)

if __name__ == '__main__':
    urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0, 250, 25)]
    for url in urls:
        get_url_music(url)
        time.sleep(2)
复制代码

6.执行爬虫代码，然后到Robomongo刷新就会看到数据已经有啦

7.本文配套的demo

GitHub地址

8.本文只是入门级别，我分享出来希望和大家一起学习进步！我还写了Vue插件开发和抢红包的小游戏(欢迎Star)

Vue插件开发

抢红包小游戏

Python爬虫入门

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据库

爬虫

javascript

ViewUI

Python爬虫之使用MongoDB存储数据的相关文章

为什么 `obj.foo = function() { };` 没有将名称 `foo` 分配给函数？

从 ES2015 ES6 开始函数有了专有名称包括官方名称 name属性而函数创建时的赋值除了明显的函数声明和命名函数表达式之外还有多种方式比如给变量赋值函数的名字设置为变量的名字给对象属性赋值函数的名称设置为属性的名称甚至
使用 javascript 调用 ViewComponent

我有一个带有几个视图组件的网页当我单击这些组件时我会为其打开一个简单的编辑器请参见下图如果我编辑文本并按 Enter 键我想重新渲染视图组件而不是孔页面是否可以使用 javascript 调用视图组件来获得此行为通过更新您现
ExtJS 4：克隆商店

我正在尝试找出如何克隆Ext data Store不保留旧的参考让我用一些代码更好地解释一下这是源商店 var source Ext create Ext data Store fields name age data name foo
如何在 Chrome 中实现抓取光标图标？

我知道可以在 Chrome 中使用抓取光标图标当然是在 Gmail 中但我不知道如何在我的代码中实现它我已经尝试过在CSS中 body cursor grab body cursor webkit grab body cursor
捕获外部脚本文件中的 javascript 错误

我有一点 JavaScript Jquery 工具的叠加层 http flowplayer org tools overlay index html 当放到错误使用它的页面上时可能会引发异常我正在尝试优雅地处理它我有一个通用的 wind
如何从 URL 字符串中删除某些参数？

我有这个var存储表示充满参数的 URL 的字符串我正在使用 AngularJS 我不确定是否有任何有用的模块或者可能使用纯 JavaScript 来删除不需要的 URL 参数而无需使用正则表达式例如我需要删除 month 05并且
检测 iframe 内容加载失败

我可以使用以下命令检测 iframe 的内容何时加载load事件不幸的是就我的目的而言这有两个问题如果加载页面时出现错误 404 500 等则永远不会触发加载事件如果某些图像或其他依赖项加载失败则会照常触发加载事件有什么方法
如何向尚未添加到页面的元素注册 Javascript 事件处理程序

我正在尝试构建一个greasemonkey 脚本它将根据用户与其他动态创建的数据表的交互动态创建数据表我的问题是每次创建表时我都必须进行两次传递一次用于创建表另一次用于获取表中我想要添加事件处理程序的所有对象通过 id 并添加
Angular-Datatables + Angular-xeditable：取消可编辑行

当组合 Angular DataTables 和 Angular XEditable 时添加新行时会取消可编辑行这是jsfiddle https jsfiddle net faj61h5d 10 示例操作如下 1 这是初始状态 2 将第
使用 ES6 模块导出/导入单个类方法？

假设我有一个像这样的简单课程fileA js class foo constructor x this name x fooMethod x return x hello 我想导入并使用fooMethod in fileB js像这样 im
如何在参数上使用 .reduce() 而不是特定的数组或对象？

我想定义一个函数 flatten 将多个元素展平为一个数组我知道以下是不可能的但本质上我想这样做 var flatten function var flattened arguments reduce function acc elem
有没有办法在 TypeScript 2+ 中全局添加类型定义？

我有一堆简单的 ts files 不是项目即独立的 ts 脚本他们使用一些 Node js 功能 TypeScript 和节点类型定义通过安装 npm install g typescript npm install g types n
页面点击其他路径后 $timeout 继续运行

我在用yo angular fullstack生成器来构建我的网站当用户注册该网站时它将发送一封带有链接的激活电子邮件当用户点击该链接时会显示激活成功并超时进入主页但是当超时未结束用户点击页面中的任何其他链接时会跳转到其他页
用于导出到 CSV/Excel 的数据 URI（无服务器端请求）：浏览器支持/限制？

以下问题 Javascript 或 Flash 导出至 CSV Excel https stackoverflow com questions 8150516 javascript or flash export to csv excel
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
Google 地图 v3 中标准缩放控件的样式

有没有一种简单的方法可以在 Google Maps JavaScript API v3 中设置缩放控件的样式我想要的只是改变标准图像 http maps gstatic com intl en ALL mapfiles mapcontro
while 循环元素状态 cypress

我有一个问题我想单击一个按钮直到它消失但次数可能会有所不同所以我想检查可见性状态当可见 true时单击按钮当可见 false时结束测试但问题是我不知道如何循环从获取元素到末尾的所有链单击按钮一次由于中断而停止如果我删除中断
使用 dnode 从服务器向客户端发送消息

几个月前我发现了 nowjs 和 dnode 并最终使用了 nowjs 并且https github com Flotype nowclient https github com Flotype nowclient 用于客户端服务器双向
响应式菜单：悬停子菜单显示错误

简而言之我根据教程创建了一个响应式菜单当您将鼠标悬停在投资组合按钮上时菜单应该显示子菜单而在移动模式下您需要按该按钮才能显示子菜单效果很好问题是该教程有一个错误如果您在桌面模式下按组合按钮子菜单将不会再次显示除非您按单
从 Node.js 调用 execl、execle、execlp、execv、execvP 或 execvp 的方法

POSIX 系统公开了一系列exec函数允许人们将可能不同的东西加载到当前进程中保留打开的文件描述符进程标识符等可以出于多种原因执行此操作在我的情况下这是引导我想更改我自己的进程的命令行选项然后在现有进程上重新加载它这样就

随机推荐

Spring Boot 2.2.6 源码之旅二十五SpringMVC源码之RequestMappingHandlerMapping的初始化三

Spring Boot 2 2 6 源码之旅二十五SpringMVC源码之RequestMappingHandlerMapping的初始化三简单流程图 MappingRegistry的一些映射 urlLookup一键多值的url和Requ
那些会阻碍程序员成长的细节[4]

照例如果没有读过之前的系列在这里可以先回顾一下那些会阻碍程序员成长的细节 1 那些会阻碍程序员成长的细节 2 那些会阻碍程序员成长的细节 3 本文共 1637 字预计阅读时间 5 分钟不愿意跟领导走的近是不是有这样的体会凡事有
【python标准库学习】re模块

1 什么是re 正则表达式一门相对通用的语言在python中也有对正则表达式的支持那就是的内置re模块正则表达式就是一系列的规则去匹配字符串然后进行相应的操作这些规则网上一搜一大片而re则是运用正则表达式来提供一系列的功能强大的接
Vue中如何进行打包与部署？

Vue中如何进行打包与部署 Vue是一款流行的JavaScript框架它提供了丰富的功能和组件可以用于构建现代化的Web应用程序在开发Vue应用程序时我们通常需要进行打包和部署本文将介绍Vue中的打包和部署包括使用Webpack
STL list合并

知识点来源 cplusplus STL list 网上很多关于list的操作很少有提及到怎么合并要说这个合并几乎是每个数据结构课提及到的O 1 操作的必修知识点同时还有人甚至搞不清楚什么叫Merge 归并和合并 Union 归并的意思
linux 查看端口连接数

一查看哪些IP连接本机 netstat an 二查看TCP连接数 1 统计80端口连接数 netstat nat grep i 80 wc l 2 统计httpd协议连接数 ps ef grep httpd wc l 3 统计已连接上的
高斯列主消元法求非齐次线性方程组 C语言实现代码

高斯列主元素消去法是由高斯消去法改进的算法下面浅浅分享一下本人对该方法的理解 Ax b 先说高斯消去法感觉基本的思路就跟我们手算非齐次线性方程组差不多在线性代数中我们求解方程组都是这种思路消元的过程相当于是由系数矩阵A和非齐次项
linux下代码分析工具Splint

1 C代码静态分析工具 Its4 读取一个或多个 C C 源程序将每个源程序分割成函数标志流然后检查生成的标志是否存在于漏洞数据库中从而得到每个源程序的所有错误警告列表并带有相关的描述其规则库vulns i4d定义了各种函数的危
【医学图像分割】 MIXED Transformer 、DS-TransUNet、Swin-Unet
Qt开发北斗定位系统融合百度地图API及Qt程序打包发布

Qt开发北斗定位系统融合百度地图API及Qt程序打包发布 1 上位机介绍最近有个接了一个小型项目内容很简单就是解析北斗GPS的串口数据然后输出经纬度但接过来觉得太简单就发挥了主观能动性增加了百度地图API 不但能实时定位还能在
波兰表达式 & 逆波兰表达式

1 概述 1 1 什么是波兰表达式先来看看维基百科对于波兰表达式和逆波兰表单的解释波兰表示法 Polish notation 或波兰记法是一种逻辑算术和代数表示方法其特点是操作符置于操作数的前面因此也称做前缀表示法如果操作符的
C++ 大话设计之《观察者模式》（优缺点，设计原理，常用场景）

观察者模式是一种行为型模式优点松散耦合观察者模式提供了一种松散耦合的设计使得当一个对象的状态发生变化时它不需要知道其他对象是如何使用这些信息的这使得系统更容易扩展和维护动态关联观察者模式允许在运行时动态地添加或删除观察者而
#bat 利用bat脚本添加/删除环境变量

目录添加到Path 从Path中删除操作环境变量有风险目标文件夹 current path bin 添加到Path echo path gt gt log txt echo off set pathStr path set mingw
从周赛中学算法-2023上

从周赛中学算法 2023上 https leetcode cn circle discuss v2RXSN 文章目录从周赛中学算法 2023上一技巧类 2730 找到最长的半重复子字符串 https leetcode cn probl
SpringCloudAlibaba之Sentinel 自定义熔断逻辑处理

Sentinel服务熔断环境搭建服务熔断应对微服务雪崩效应的一种链路保护机制类似保险丝需要完成Sentinel整合Ribbon openFeign 所以我们先要搭建环境那么先从整合Ribbon开始环境搭建为了演示操作所以在这
手把手教你上手Apache DolphinScheduler机器学习工作流

摘要 Apache DolphinScheduler 3 1 0发版后添加了诸多AI组件帮助用户在Apache DolphinScheduler上更方便地构建机器学习工作流本文介绍如何建立DolphinScheduler与一些机器学习
Windows中如何查看日志（如查看远程登陆的IP地址）以及常用日志ID

时间 2018 12 12 题目 Windows中如何查看日志如查看远程登陆的IP地址以及常用日志ID 概述在Windows中可以使用事件查看器来查看相关日志并结合日志ID进行日志筛选常见的日志有 4634 帐户被注销 464
将SSE指令转换为ARM NEON指令

相关资料 sse指令集 sse指令解释 sse2neon仓库可以在sse2neon h中寻找对应的neon指令转换方法注意事项将sse指令转换为arm neon指令往往很难起到优化作用甚至可能产生负优化因此该部分优化仅供参考 mm
12.计算机网络---iptables防火墙管理工具

文章目录一防火墙基础知识 1 1 防火墙是什么 1 2 iptables基础知识 1 3 netfilter和iptables的关系 1 4 新型防火墙工具 firewalld 二 iptables的四表五链 2 1 规则表 2 2 规
Python爬虫之使用MongoDB存储数据

1 MongoDB的安装 MongoDB是一种非关系型数据库 MongoDB官网选择你的系统对应的版本下载安装即可 2 MongoDB配置 a 在C盘或者D盘建一个文件夹如图mongodb b 安装成功后里面会有bin文件然后再文件夹里面