python爬虫 -- 12306登录刷票

2023-11-09

# -*- coding: utf-8 -*-

from splinter.browser import Browser
from time import sleep
import traceback
# Message: 'phantomjs' executable needs to be in PATH.
#    geckodriver 要自行下载
#    phantomjs 自行下载
# we need:
# sudo mv geckodriver /usr/local/bin/
# 1. 自动识别验证码--文字 图片等
# 2. 选择: G?D?C? 靠窗?走廊? 二等座?头等座?
# 3. 12306的验证码是一个jpg,如果你是通过url获取这个图片,会和登陆界面的不同,由随机因子产生的.通过截图方式来解析:
#      识别文字: 转换为图片中的图画,给个位置然后触发click事件
#初始化信息
# 用户名，密码
username = u"username@mail.cn"
passwd = u"yourpassword"
# cookies值: 页面信息--安全--查看cookies
shenzhen = u"%u6DF1%u5733%2CSZQ" #深圳
wuhan = u"%u6B66%u6C49%2CWHN" #武汉
yueyangdong = u"%u5CB3%u9633%u4E1C%2CYIQ" #岳阳东
#shanghai = u"%u4E0A%u6D77%2CSHH" #上海
#taiyuan = u"%u592A%u539F%2CTYV" # 太原
#hangzhou = u"%u676D%u5DDE%u4E1C%2CHGH" #杭州东
starts = shenzhen
ends = yueyangdong
# 时间格式2018-01-02
dtime = u"2018-02-10"
# 车次，选择第几趟，0则从上之下依次点击
order = 0
###乘客名,如果是自己，则上面有个链接是自己的，会跳转到个人中心,用index[1]
#如果乘客不是自己，则用index[0]
pa = u"张三"
###乘客名
users = [u"张三", u"李四"]

"""网址"""
ticket_url = "https://kyfw.12306.cn/otn/leftTicket/init"
login_url = "https://kyfw.12306.cn/otn/login/init"
initmy_url = "https://kyfw.12306.cn/otn/index/initMy12306"


def login():
    #点击登录，从购票页面调到了登录页面
    b.find_by_text(u"登录").click()
    sleep(3)
    #给name为loginUserDTO.user_name附上用户名
    #也可以用Id查找的方法b.find_by_id(‘username‘).fill(username)
    b.fill("loginUserDTO.user_name", username)
    sleep(1)
    #给name为userDTO.password值
    b.fill("userDTO.password", passwd)
    sleep(1)
    # 手动输入验证码, 自动验证的方式还在研究中: a.获取图片验证码(截图方式,应该是不能通过获取图片的链接地址来获取图片?,或者其他方式:cookies/session? b.解析图片验证码(通过位置?还是真正意义的图像识别?) 
    # 了解下ocr( tesseract-ocr), pytesseract?CNN卷积神经网络?
    print u"等待验证码，自行输入..."
    #检测页面是否跳转（用户是否输入了验证码并且提交）
    while True:
        if b.url != initmy_url:
            sleep(1)
        else:
            break

def huoche():
    global b
#    b = Browser(driver_name="firefox", executable_path="/usr/bin/firefox")
    b = Browser(driver_name="firefox")
    print u"访问12306..."
    b.visit(ticket_url)

    #查找带登录的字符串，u是避免中文报错
    while b.is_text_present(u"登录"):
        sleep(1)
        #如果存在调用登录方法
        login()
        if b.url == initmy_url:
            break
        #当执行完login方法后，登录成功，继续向下执行
    try:
        print u"购票页面..."
        # 跳回购票页面
        b.visit(ticket_url)

        # 加载查询信息
        b.cookies.add({"_jc_save_fromStation": starts})
        b.cookies.add({"_jc_save_toStation": ends})
        b.cookies.add({"_jc_save_fromDate": dtime})
        b.reload()

        sleep(2)
        # 增加过滤条件,,,
        b.find_by_text(u"GC-高铁/城际").click()
        count = 0
        # 循环点击预订
        #order=0则从第一班车开始全部一次预订
        if order != 0:
            #如果页面没有跳转到，说明没有抢到票，继续抢票
            while b.url == ticket_url:
                #点击查询进行刷新
                b.find_by_text(u"查询").click()
                count +=1
                print u"循环点击查询... 第 %s 次" % count
                sleep(1)
                try:
                    #点击预订的那班车
                    b.find_by_text(u"预订")[order - 1].click()
                except:
                    print u"还没开始预订"
                    continue
        else:
            while b.url == ticket_url:
                b.find_by_text(u"查询").click()
                count += 1
                print u"循环点击查询... 第 %s 次" % count
                sleep(1)
                try:
                    #从第一个开始一次预订
                    for i in b.find_by_text(u"预订"):
                        i.click()
                except:
                    print u"还没开始预订"
                    continue
        sleep(1)
        print u"开始选择用户..."
        for user in users:
            b.find_by_text(user).last.click()
        #for user in self.users:
        #    b.find_by_text(user).last.click()
        print u"提交订单..."
        sleep(1)
        b.find_by_text(u"提交订单").click()
        sleep(0.5)
        b.find_by_text(u"确认").click()#此处是脚本,待改善
        #若循环结束了，则选择联系人
        #b.find_by_text(pa)[0].click()
        print  u"能做的都做了.....不再对浏览器进行任何操作"
    except Exception as e:
        print(traceback.print_exc())

if __name__ == "__main__":
    huoche()

# -*- coding: utf-8 -*-

# 仅可用来爬取数据后来进行测试分析
#import ssl
import urllib2
import time

i=1
while(1):
    print "开始捕获第%s张图片" % str(i)
    #if hasattr(ssl, '_create_unverified_context'):
    #    ssl._create_default_https_context = ssl._create_unverified_context
    #ssl._create_default_https_context = ssl._create_unverified_context
    #req = urllib2.Request("https://kyfw.12306.cn/passport/captcha/captcha-image?login_site=E&module=login&rand=sjrand&0.03777190844118017")
    req = urllib2.Request("https://kyfw.12306.cn/passport/captcha/captcha-image?*")
    u = urllib2.urlopen(req)
    data = u.read()
    print "捕获中.........."
    with open("CodePng20180119-"+str(i)+".jpg", 'wb') as f:
        time.sleep(2)
        f.write(data)
        i += 1
        print "捕获结束!"
# python3中使用 urllib.request 代替urllib2

补充下: 获取验证码,用于今后自动识别的源.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python爬虫 -- 12306登录刷票的相关文章

如何检索分配给 Django 中的组的所有权限

我正在执行一项任务来检索分配给 Django 中的组的一组权限我可以使用以下代码获取创建的组但无法使用它来获取分配给它们的权限 from django contrib auth models import Group Permissio
在 Jupyter Notebook 中设置环境变量的不同方法

在某些情况下我在 Windows 10 计算机上使用 Jupyter 笔记本我想通过设置环境变量 GOOGLE APPLICATION CREDENTIALS 来向 GCP 进行身份验证我想知道这两种设置环境变量的方式有什么区别当
如何使用 python、openCV 计算图像中的行数

我想数纸张所以我正在考虑使用线条检测我尝试过一些方法例如Canny HoughLines and FLD 但我只得到处理过的照片我不知道如何计算有一些小线段就是我们想要的线我用过len lines or len contours
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
Python 中 time.sleep 和多线程的问题

我对 python 中的 time sleep 函数有疑问我正在运行一个脚本需要等待另一个程序生成 txt 文件虽然这是一台非常旧的机器所以当我休眠 python 脚本时我遇到了其他程序不生成文件的问题除了使用 time sl
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
从字典中绘制直方图

我创建了一个dictionary计算 a 中出现的次数list每个键的内容我现在想绘制其内容的直方图这是我想要绘制的字典的内容 1 27 34 1 3 72 4 62 5 33 6 36 7 20 8 12 9 9 10 6 11 5
dask apply：AttributeError：“DataFrame”对象没有属性“name”

我有一个参数数据框并对每一行应用一个函数该函数本质上是几个 sql queries 和对结果的简单计算我正在尝试利用 Dask 的多处理同时保持结构和界面下面的例子有效并且确实有显着的提升 def get metrics row
无法在我的程序中使用 matplotlib 函数

我正在 Windows 10 中运行 Anaconda 安装 conda 版本 4 3 8 这是我尝试在 python 命令行中运行的代码 import matplotlib pyplot as plt x 1 2 3 4 y 5 6 7
Django Web 应用程序中的 SMTP 问题

我被要求向使用 Django Python 框架实现的现有程序添加一个功能此功能将允许用户单击一个按钮该按钮将显示一个小对话框表单以输入值我确实编写了一些代码显示电子邮件已发送的消息但实际上它没有发送 My code from
Bokeh 中单独的节点和边缘悬停工具？

我正在尝试为 Bokeh 中的节点和边缘获取单独的悬停工具提示但未能使其正常工作有人可以指出我做错了什么吗我相信代码应该如下所示 from bokeh io import show output notebook from bokeh
Python：“直接”调用方法是否实例化对象？

我是 Python 新手在对我的对象进行单元测试时我注意到一些奇怪的东西 class Ape object def init self print ooook def say self s print s def main Ape
如何让 Streamlit 每 5 秒重新加载一次？

我必须每 5 秒重新加载 Streamlit 图表以便在 XLSX 报告中可视化新数据如何实现这一目标 import streamlit as st import pandas as pd import os mainDir os pa
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
我可以在 if 语句中使用“as”机制吗

是否可以使用as in if类似的声明with我们使用的例如 with open tmp foo r as ofile do something with ofile 这是我的代码 def my list rtrn lst True if
操作错误：尝试在 ubuntu 服务器中写入只读数据库

我正在使用 FlaskApp 运行mod wsgi and apache2在 Ubuntu 服务器上我尝试运行烧瓶应用程序localhost成功然后部署到ubuntu服务器上但是当我尝试更新数据库时出现错误 Failed to up
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
如何在supervisord中设置组？

因此我正在设置 Supervisord 并尝试控制多个进程并且一切正常现在我想设置一个组以便我可以启动停止不同的进程集而不是全部或全无这是我的配置文件的片段 group tapjoy programs tapjoy game1
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构

随机推荐

matlab由频率响应计算差分方程,现代线性系统：使用MATLAB

中译本出版者的话译者的话出版者的话符号一览表全书内容简介前言第1章信号与序列概述基本概念与解说题信号序列和系统 IP1 1 描述连续时间信号 IP1 2 序列表述连续和离散信号之间的转换采样定理本书梗概兼学习
PyTorch深度学习实战（6）——神经网络性能优化技术

PyTorch深度学习实战 6 神经网络性能优化技术 0 前言 1 数据准备 1 1 数据集分析 1 2 数据集加载 2 使用 PyTorch 训练神经网络 2 1 神经网络训练流程 2 2 PyTorch 神经网络训练 3 缩放数据集 4
可以白嫖的语音识别开源项目whisper的搭建详细过程

原文来自我个人的博客 1 前提条件服务器为GPU服务器点击这里跳转到我使用的GPU服务器我搭建 whisper 选用的是 NVIDIA A 100显卡 4GB显存 Python版本要在3 8 3 11之间输入下面命令查看使用的Pyt
origin图上显示数据标签_origin中如何在图中添加标签

展开全部方法步骤如下 1 首先打开计算机在计算机内进入origin 在里面新建一个三维表面图与标注数据点的初始数据 62616964757a686964616fe58685e5aeb931333431353866 2 选中所有数据执行
element ui el-date-picker 组件默认值

element ui el date picker 组件默认当前月份 1 html 代码
已解决（Python爬虫requests库报错请求异常SSL错误，证书认证失败问题）requests.exceptions.SSLError: HTTPSConnectionPool

成功解决 Python爬虫requests库报错请求异常 SSL错误证书认证失败问题 requests exceptions SSLError HTTPSConnectionPool host httpbin org port 443
[html+css+js] 小米官网首页制作

实现效果源码及图片素材地址 https gitee com jie shao1112 xiaomihttps gitee com jie shao1112 xiaomi 这里进行一些说明在index html里引入了三个css文件第一
QT 界面强制刷新

针对qt的界面刷新显示在qwidget中可以使用 show exec setup repaint paintEvent 等都可以实现界面刷新和重新绘制但是如果需要在控件外进行刷新就需要下面方法 include
HDMI CEC协议简介

一概述 1 HDMI HDMI High Definition Multimedia Interface 高清多媒体接口是一种专用的音频视频接口用于发送未压缩的视频数据和压缩未压缩的音频数据 HDMI是模拟视频标准的数字替代品 H
STM32 W5500 MQTT Client 发布订阅及断线重连

使用STM32 W5500做MQTT Client 使得数据上传broker 并接收broker传来的消息并支持断网拔网线再插入网线能够重新连接broker这样的功能需要具备以下条件 1 STM32 W5500基础入网配置使能PC电
IT界大佬告诉你，程序员接私活的7大平台利器

今天小编在网上汇集了一些国内程序员接私活的平台希望对大家能够有用 1 程序员客栈程序员的经纪人如果有想学习java的程序员可来我们的java学习扣qun 94311 1692免费送java的视频教程噢我整理了一份适合18年学习的j
Haproxy负载均衡和动静分离配置

Haproxy Haproxy安装 yum y install haproxy 配置负载均衡 frontend ds 80 定义前端服务器名为ds 监听地址为所有ip的80端口 default backend webservers 默认请求
SSRF(服务端请求伪造)

SSRF Server side Request Forge 服务端请求伪造 1 概念它是一种由攻击者构造形成由服务端发起请求的一个安全漏洞一般情况下 SSRF攻击的目标是从外网无法访问的内部系统正是因为它是由服务端发起的所以它能够
Linux中的中断机制 2

Linux中的中断机制 2009 06 11 23 03 44 分类 LINUX Linux中的中断机制 X86里面中断发生时CPU控制单元工作流程也就是硬件需要做的事情在CPU执行下一条instruction之前首先判断有没有发生异
unity 2019 点击脚本启动不了VS_Unity-利用免费资源快捷实现第三人称角色控制

by 临界荷本例目标学习使用unity商店免费资源中的模型和代码轻松快捷实现第三人称视角玩家多种行为的设定举一反三可方便灵活地添加到自己的3D模型绑定了骨骼和动作的人物模型不支持动物模型实现步骤找到并体验资源项目 1 打开
Qt常见警告问题：请更新您的工具包(Desktop Qt 5.14.1MSVC2017 64位)或为qmake选择更符合您的目标环境的mkspec

2021 03 28T17 32 05 Clang Code Model Error The clangbackend executable D Qt Qt5 12 9 Tools QtCreator bin clangbackend ex
ORACLE深入第五章 Locking and Latching

ORACLE深入第五章 Locking and Latching Locks 在单用户系统 LOCKS是不需要的在多用户系统为了让多用户访问数据修改数据修改数据结构就需要一个机制来保证大家的一致性修改该用LOCK的时候就用LO
Selenium基础知识

关于selenium你应该知道的 selenium是什么一个自动化测试的工具系统测试测试阶段单元测试集成测试系统测试验收测试自动化测试属于系统测试自动测试工具自动化功能测试工具和自动化性能测试 selenium包括什么
Salary Changing【Codeforces 1251 D】【二分答案】

Educational Codeforces Round 75 Rated for Div 2 D 题意有N名员工和S元钱然后我们想知道在每一名员工有薪资要求在 li ri 的情况下我们如何在总共就S元钱的情况下做到员工薪资的中位数最
python爬虫 -- 12306登录刷票

coding utf 8 from splinter browser import Browser from time import sleep import traceback Message phantomjs executable n

python爬虫 -- 12306登录刷票

python爬虫 -- 12306登录刷票 的相关文章

随机推荐

热门标签

python爬虫 -- 12306登录刷票的相关文章