python爬网站数据实例-利用Python爬虫爬取NBA数据功能实例分享

2023-05-16

Python实现爬虫爬取NBA数据功能示例

本文实例讲述了Python实现爬虫爬取NBA数据功能。分享给大家供大家参考,具体如下:

爬取的网站为:stat-nba.com,这里爬取的是NBA2016-2017赛季常规赛至2017年1月7日的数据

改变url_header和url_tail即可爬取特定的其他数据。

源代码如下:

#coding=utf-8

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import requests

import time

import urllib

from bs4 import BeautifulSoup

import re

from pyExcelerator import *

def getURLLists(url_header,url_tail,pages):

"""

获取所有页面的URL列表

"""

url_lists = []

url_0 = url_header+'0'+url_tail

print url_0

url_lists.append(url_0)

for i in range(1,pages+1):

url_temp = url_header+str(i)+url_tail

url_lists.append(url_temp)

return url_lists

def getNBAAllData(url_lists):

"""

获取所有2017赛季NBA常规赛数据

"""

datasets = ['']

for item in url_lists:

data1 = getNBASingleData(item)

datasets.extend(data1)

#去掉数据里的空元素

for item in datasets[:]:

if len(item) == 0:

datasets.remove(item)

return datasets

def getNBASingleData(url):

"""

获取1个页面NBA常规赛数据

"""

# url = 'http://stat-nba.com/query_team.php?QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017'

# html = requests.get(url).text

html = urllib.urlopen(url).read()

# print html

soup = BeautifulSoup(html)

data = soup.html.body.find('tbody').text

list_data = data.split(' ')

# with open('nba_data.txt','a') as fp:

# fp.write(data)

# for item in list_data[:]:

# if len(item) == 0:

# list_data.remove(item)

return list_data

def saveDataToExcel(datasets,sheetname,filename):

book = Workbook()

sheet = book.add_sheet(sheetname)

sheet.write(0,0,u'序号')

sheet.write(0,1,u'球队')

sheet.write(0,2,u'时间')

sheet.write(0,3,u'结果')

sheet.write(0,4,u'主客')

sheet.write(0,5,u'比赛')

sheet.write(0,6,u'投篮命中率')

sheet.write(0,7,u'命中数')

sheet.write(0,8,u'出手数')

sheet.write(0,9,u'三分命中率')

sheet.write(0,10,u'三分命中数')

sheet.write(0,11,u'三分出手数')

sheet.write(0,12,u'罚球命中率')

sheet.write(0,13,u'罚球命中数')

sheet.write(0,14,u'罚球出手数')

sheet.write(0,15,u'篮板')

sheet.write(0,16,u'前场篮板')

sheet.write(0,17,u'后场篮板')

sheet.write(0,18,u'助攻')

sheet.write(0,19,u'抢断')

sheet.write(0,20,u'盖帽')

sheet.write(0,21,u'失误')

sheet.write(0,22,u'犯规')

sheet.write(0,23,u'得分')

num = 24

row_cnt = 0

data_cnt = 0

data_len = len(datasets)

print 'data_len:',data_len

while(data_cnt< data_len):

row_cnt += 1

print '序号:',row_cnt

for col in range(num):

# print col

sheet.write(row_cnt,col,datasets[data_cnt])

data_cnt += 1

book.save(filename)

def writeDataToTxt(datasets):

fp = open('nba_data.txt','w')

line_cnt = 1

for i in range(len(datasets)-1):

#球队名称对齐的操作:如果球队名字过短或者为76人队是 球队名字后面加两个table 否则加1个table

if line_cnt % 24 == 2 and len(datasets[i]) < 5 or datasets[i] == u'费城76人':

fp.write(datasets[i]+' ')

else:

fp.write(datasets[i]+' ')

line_cnt += 1

if line_cnt % 24 == 1:

fp.write(' ')

fp.close()

if __name__ == "__main__":

pages = int(1132/150)

url_header = 'http://stat-nba.com/query_team.php?page='

url_tail = '&QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017#label_show_result'

url_lists = getURLLists(url_header,url_tail,pages)

datasets = getNBAAllData(url_lists)

writeDataToTxt(datasets)

sheetname = 'nba normal data 2016-2017'

str_time = time.strftime('%Y-%m-%d',time.localtime(time.time()))

filename = 'nba_normal_data'+str_time+'.xls'

saveDataToExcel(datasets,sheetname,filename)

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

以上就是本次给大家分享的关于java的全部知识点内容总结,大家还可以在下方相关文章里找到相关文章进一步学习,感谢大家的阅读和支持。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬网站数据实例-利用Python爬虫爬取NBA数据功能实例分享 的相关文章

  • 机器视觉(5)-realsense相机使用教程

    realsense相机是英特尔开发的RGBD相机系列 xff0c 我们可以通过相机得到彩色图和深度图 xff0c 方便我们后续进行视觉开发 根据不同的需求 xff0c 我们一般要经过图像采集的几个步骤 xff0c 具体如下 一 打开相机并获
  • 激光雷达与毫米波雷达对比

    激光雷达是一种采用非接触激光测距技术的扫描式传感器 xff0c 其工作原理与一般的雷达系统类似 xff0c 通过发射激光光束来探测目标 xff0c 并通过搜集反射回来的光束来形成点云和获取数据 xff0c 这些数据经光电处理后可生成为精确的
  • Android Studio Build Output 栏内乱码的解决方案

    一 如图1 所示 xff0c Android Studio版本是4 1 3 xff0c AS工具Help About即可看到下图 图1 二 乱码如下图 xff1a 如图2所示 xff0c Build Output栏中出现了乱码 xff0c
  • 网络工程师必须搞清楚MPLS与专线的区别

    今天同事突然问我一个问题 xff0c MPLS与专线的区别 我想了想 xff0c 然后稀里糊涂的说了一堆 xff0c 感觉自己没讲清楚 xff0c 所以 xff0c 网上找了点资料 xff0c 结合自己的理解 xff0c 码文如下 xff1
  • 我的ADRC调参经验总结

    提示 xff1a 本文是在前人基础上搭建的ADRC模型 xff0c 并根据这一模型学习如何对其进行调参时产生的 xff0c 部分结论来自论文 目录 前言一 控制系统简介二 调参步骤1 前后结果效果对比2 调参经验 总结参考链接 前言 ADR
  • k8s client-go workqueue

    1 基础队列 1 1 基础队列接口 type Interface interface Add item interface 向队列中添加一个元素 xff0c interface 类型 xff0c 说明可以添加任何类型的元素 Len int
  • 相机与imu的标定(Kalibr)

    在进行vio算法开发前最重要的事是对设备内参外参的标定 xff0c 其准确性直接决定了算法的有效性 xff0e 这里我将对最著名的kalibr标定工具的使用步骤进行说明 xff0c 包括安装 相机标定 imu标定 相机与imu联合标定等步骤
  • 解决cv_bridge依赖opencv版本问题

    1 问题来源 在安装ros的过程中 xff0c 系统会默认安装cv bridge库 xff0c 但该库指定了依赖的opencv库路径 xff0c 拿ros melodic版本来说 xff0c 默认依赖opencv库 usr lib x86
  • 使用ORB_SLAM3运行Realsense T265

    关于硬件 官网说明 使用说明 Realsense T265是一款跟踪相机 xff0c 配有两个FOV为111 7 x 108 6的广角相机 xff0c 并且带有IMU BMI055 惯性测量单元 设备内部配有vpu处理器并嵌入了建图和定位算
  • ceres-solver和g2o性能比较

    前言 ceres solver 和 g2o 是slam领域常见的优化器 xff0c 其中ceres solver被vins mono使用 xff0c 而g2o被orb slam3使用 xff0c 因此到底哪个优化器更适合于在slam算法开发
  • FreeRTOS的vTaskDelete使用说明

    FreeRTOS的vTaskDelete使用说明 函数说明 参数 xff1a xTaskToDelete 要删除的任务的任务句柄 返回值 无 说明 删除一个用函数xTaskCreate 或者xTaskCreateStatic 创建的任务 x
  • 机器学习——随机森林(Random Forest)

    1 随机森林 xff08 random forest xff09 简介 随机森林是一种集成算法 xff08 Ensemble Learning xff09 xff0c 它属于Bagging类型 xff0c 通过组合多个弱分类器 xff0c
  • 《基础知识——C和C++的主要区别》

    C和C 43 43 的主要区别 设计思想上 xff1a C 43 43 是面向对象的语言 xff0c 而C是面向过程的结构化编程语言 语法上 xff1a C 43 43 具有封装 继承和多态三种特性 C 43 43 相比C xff0c 增加
  • 数据库原理及应用(十三)E-R图、关系模式

    数据库设计的过程 数据分析 gt 数据建模 gt 关系数据库模式 gt 关系数据库管理 用户需求 gt 概念模型 E R Model gt 逻辑模型 xff08 三层结构 xff09 现实世界 gt 信息世界 gt 机器世界 概念设计工具E
  • Ubuntu数据备份与恢复工具(一)

    在我们日常工作中 xff0c 个人文件 业务数据及应用信息的备份与恢复策略是一个重要的环节 意外删除 硬件故障 操作失误 网络攻击 xff0c 甚至是自然灾害 xff0c 都可以直接或间接导不可估价的数据损失 为了避免损失 xff0c 缩少
  • 百度移动端面试回忆

    百度一面 xff1a 1 自我介绍 2 悲观锁和乐观锁 乐观锁 xff1a 总是认为不会产生并发问题 xff0c 每次去取数据的时候总认为不会有其他线程对数据进行修改 xff0c 因此不会上锁 xff0c 但是在更新时会判断其他线程在这之前
  • Quagga编译安装

    Quagga源码编译安装 1 Quagga下载 1 官网下载quagga 1 2 4 tar gz并拖入虚拟机桌面 2 解压到 opt目录下 sudo tar zxvf Desktop quagga 1 2 4 tar gz C opt 2
  • VINS-FUSION 源码 双目 单线程 按执行顺序阅读

    VINS FUSION 源码 双目 单线程 按执行顺序阅读 Keywords xff1a VINS FUSION vins 源码解读 源码梳理 vins数据结构 vinsfusion vins双目 双目vins 双目vinsfusion 双
  • 【C语言】__attribute__使用

    一 介绍 GNU C 的一大特色就是 attribute 机制attribute 可以设置函数属性 xff08 Function Attribute xff09 变量属性 xff08 Variable Attribute xff09 和类型
  • Ubuntu20.04下CUDA、cuDNN的详细安装与配置过程(图文)

    Ubuntu20 04下CUDA cuDNN的详细安装与配置过程 xff0c 亲测试可用 xff08 图文 xff09 一 NVIDIA xff08 英伟达 xff09 显卡驱动安装1 1 关闭系统自带驱动nouveau2 2 NVIDIA

随机推荐