linux下,用crontab定时执行scrapy任务

2023-11-13

之前尝试过很多方法用crontab执行scrapy的爬虫任务,但是都没出成功,总结下来有两点错误与相应的解决方法:

1、手动执行时,在工程目录下输入scrapy crawl xxx就可以执行爬虫脚本了,但是用crontab时,如果直接在crontab -e中输入00 00 * * * scrapy crawl xxx,定时任务是不会生效的,因为我们不知道crontab执行时,其所处的目录,很有可能就没有scrapy命令。

2、为了解决第一个问题,我尝试如下做法00 00 * * * /usr/local/bin/scrapy crawl xxx,貌似解决了第一个找不到scrapy命令的问题,但是又有新的问题出现,即找不到crawl命令,在不同的路径下scrapy后面跟的命令是不一样的,只有在scrapy的工程目录下才会有crawl命令,因此,我们需要先进入工程目录再执行启动命令,因此,书写如下crontab的指令:00 00 * * * cd /home/workspace/scrapy && /usr/local/bin/scrapy crawl xxx,就可以正常的执行定时任务了,有时候爬虫比较多,需要shell脚本集中管理00 00 * * * cd /home/workspace/scrapy && sh startup.sh,在shell脚本中的代码是:

#!/bin/sh
. ~/.bash_profile
/usr/local/bin/scrapy crawl xxx
/usr/local/bin/scrapy crawl xxx

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

linux下,用crontab定时执行scrapy任务 的相关文章

  • cv2.error: OpenCV(4.6.0) :-1: error: (-5:Bad argument) in function ‘cvtColor‘> Overload resolution

    不知道有没有小伙伴遇到了和我一样的报错 查找相关解决办法 大多的回答是让我降opencv版本 降版本过程中遇到问题 无法找到相关版本 可能是python版本的问题 最后经过不断尝试搜索解决问题 发现只是自己的函数用法写错了 有相同错误的小伙
  • 精通python100天——第二天:python基础

    1 熟悉交互式环境 python交互式环境虽然不像IDE在开发中天天要用到 但它也是我们入门不可忽视的一个环节 那怎么进入python交互式环境呢 分两种情况 第一种 安装了annocoda 点击Windows桌面左下角徽标 找到Anaco
  • 几种经典排序算法的演示(C++实现)

    该文章所有代码均基于SortView类 头文件及基本代码如下 include
  • Trie树 与 三分树(Ternary Trees)

    总结 为什么用Trie树 词频统计 可能有人要说了 词频统计简单啊 一个hash或者一个堆就可以打完收工 但问题来了 如果内存有限呢 还能这么玩吗 所以这里我们就可以用trie树来压缩下空间 因为公共前缀都是用一个节点保存的 前缀匹配 如果
  • ndk-build编译64位.so,出现ndk error: cast from 'int*' to 'int' loses precision [-fpermissive]

    这是因为Linux 64位系统上指针类型占用8个字节 而int类型占用4个字节 所以会出现loses precision 可以先将int 转成long类型 long类型可以隐式类型转换到int类型 如下 int func int p p 赋
  • 【vue】websocket封装&使用

    本文章向大家介绍使用websocket 主要包括使用websocket使用实例 应用技巧 基本知识点总结和需要注意事项 具有一定的参考价值 需要的朋友可以参考一下 小程序封装sokect传送门 创建一个websocket js utils
  • C++基础——匿名对象介绍、拷贝对象时的一些编译器优化

    目录 创建对象的几种方式 匿名对象的创建格式 二 编译器对于拷贝对象做出的优化 场景一 检测 优化 检测 场景二 检测 优化 场景三 检测 优化 场景四 优化 检测 整体优化总结 通过C 长时间的学习 我们已经学会了好多通过类定义对象的方法
  • 深入探究Selenium定位技巧及最佳实践

    在使用Selenium进行Web自动化测试时 准确地定位元素是非常重要的一步 Selenium提供了多种元素定位方法 本文将深入探究这八大元素定位方法 帮助读者更好地理解和应用Selenium的定位技巧 1 ID定位 ID是元素在HTML中
  • JAVA的类加载机制

    类加载机制 参考 https blog csdn net zhangliangzi article details 51319033 https www jianshu com p 3556a6cca7e5 https blog csdn
  • 以promise方式调用微信小程序的api

    仅仅适用于部分API需要用到promise方式调用 封装一个方法如下 export const promisify method options gt return new Promise resolve reject gt 将option
  • 用c语言编写lr(1)文法,C语言编写源程序建立LR(1)分析器.pdf

    目 录 前 言2 用C语言编写源程序建立LR 1 分析器3 一 设计目的 要求 算法与设计思想3 1 设计内容3 2 设计要求3 3 设计的基本原理3 1 CLOSURE I 的构造3 2 GO I X 的构造3 3 FIRST集合的构造4
  • Android屏幕适配全攻略(最权威的官方适配指导)

    转载请注明出处 http blog csdn net zhaokaiqiang1992 Android的屏幕适配一直以来都在折磨着我们这些开发者 本篇文章以Google的官方文档为基础 全面而深入的讲解了Android屏幕适配的原因 重要概
  • Java for Web学习笔记(五九):Controller替代Servlet(1)请求匹配

    URL匹配 书写方式 是对DispatcherServlet所匹配的URL进行二次匹配 本例DispatcherServelt的servlet mapping中
  • Echarts隐藏坐标轴

    xAxis show false 不显示坐标轴线 坐标轴刻度线和坐标轴上的文字 axisTick show false 不显示坐标轴刻度线 axisLine show false 不显示坐标轴线 axisLabel show false 不
  • GNU许可证常见问题

    最新在学习开源软件 开源软件的组成最重要的一个就是license 及许可证 开源License在法律上赋予用户相关权利和义务 任何开源应用行为都必须围绕此 游戏规则 进行 其中重点学习了GUN GPL的许可证 本地记录下一个重要的网站 方便
  • 数据库出错提示Duplicate entry * for key *的解决方法

    错误编号 1062 错误提示 查询语句错误 1062 ERR Duplicate entry 16777215 for key PRIMARY SQL INSERT INTO forum attachment SET tid 0 pid 0
  • 揭秘Kaggle神器xgboost

    在 Kaggle 的很多比赛中 我们可以看到很多 winner 喜欢用 xgboost 而且获得非常好的表现 今天就来看看 xgboost 到底是什么以及如何应用 本文结构 什么是 xgboost 为什么要用它 怎么应用 学习资源 什么是

随机推荐

  • CROSS使用说明书 发行和拍卖NFT完整攻略

    鉴于目前去中心化NFT发行和拍卖平台CROSS是英文版本 对部分中国区用户存在操作困难 为了方便投资者和NFT爱好者能及时了解CROSS的相关信息和使用流程 现在CyberVein推出了更加详细的CROSS完整版教程 若还存有疑问 可添加中
  • windows7虚拟拔号服务器,ADSL采用虚拟拨号上网,使用Windows 7如何设置PPPoE宽带连接...

    今天介绍ADSL采用虚拟拨号上网 使用Windows 7操作系统如何设置PPPoE宽带连接 连接网络的方式有很多 现在小伙伴们上网使用的连接方式主要有以下几种 ADSL宽带上网 小区宽带上网 无线局域上网和无线移动上网 其中ADSL宽带上网
  • 使用Python实现二分查找算法及其应用场景详解

    引言 二分查找是一种常用的搜索算法 它可以在有序数组中高效地查找指定元素 本文将详细介绍二分查找算法的原理 实现方法 并探讨其在实际应用场景中的使用 通过深入了解二分查找算法 你将能够更好地理解它的工作原理并灵活应用于各种问题中 目录 引言
  • 像打王者荣耀一样的学习/工作?(转)

    https blog csdn net dataiyangu article details 97544551 depth 1 utm source distribute pc feed none task blog alirecmd 2
  • GET和POST的区别,java模拟postman发post

    题解 空心正方形图案 include
  • MFC对话框中屏蔽Enter键与ESC键

    文章内容无意义 存档用 MFC对话框应用程序中 按下回车键或者ESC键 对话框会自动关闭 原因在于 当用户按下Enter键时 Windows就会自动去查找 输入焦点 落在了哪一个按钮上 获得焦点的按钮的四周将被点线矩形框所包围 如果所有按钮
  • 关于hexo的笔记 以及 常见问题

    在 Hexo 中有两份主要的配置文件 其名称都是 config yml 其中 一份位于站点根目录下 blog config yml 主要包含 Hexo 本身的配置 另一份位于主题目录下 blog themes next config yml
  • 程序员的算法课(15)-分治法获取文件中出现频次最高100词

    一 问题描述 这个问题在大数据面试中容易出现 问题如下 有一个1G大小的一个文件 里面每一行是一个词 词的大小不超过16字节 内存限制大小是1M 要求返回频数最高的100个词 二 思路 此处1G文件远远大于1M内存 分治法 先hash映射把
  • sp3585调试

    最近在调试sp3485目前已调试成功 后续把调试过程补全
  • 用Python获取链家二手房房源数据,做可视化图分析数据

    前言 数据采集的步骤是固定 发送请求 模拟浏览器对于url地址发送请求 获取数据 获取网页数据内容 gt 请求那个链接地址 返回服务器响应数据 解析数据 提取我们需要的数据内容 保存数据 保存本地文件 所需模块 win R 输入cmd 输入
  • 从计组和操作系统详解IO控制方式

    IO控制方式 实际上IO在操作系统和计组里面都有讲到 这两个内容各有侧重 又有很大的重合 这里就整理一下 操作系统里面就讲了一下基本的过程 计组还讲了各个接口电路 1 直接程序控制方式 直接程序控制方式由用户进程直接控制主存或 CPU 和外
  • ARP报文头部格式和请求流程

    文章目录 ARP头部格式 ARP请求流程 ARP头部格式 格式说明 硬件类型 16位字段 用来定义运行ARP的网络类型 每个局域网基于其类型被指派一个整数 例如 以太网的类型为1 ARP可用在任何物理网络上 协议类型 16位字段 用来定义使
  • 随记:Flutter获取widget的大小位置,状态栏高度

    也可参考 https www jianshu com p 8117fbc5b4d3 1 获取状态栏高度 MediaQueryData fromWindow WidgetsBinding instance window padding top
  • Spring Boot日志

    目录 1 日志的作用 2 自定义打印日志 3 日志级别 4 日志持久化 5 使用lombok输出日志 1 日志的作用 日志是程序的重要组成部分 其实我们几乎无时无刻都在接触日志 简单的说它其实就是程序运行过程中产生的信息 它的主要作用就是帮
  • k8s之Deployment篇

    Deployment控制器 概念 原理解读 Deployment官方文档 https kubernetes io docs concepts workloads controllers deployment Deployment概述 Dep
  • 大数据——Ubuntu配置docker的阿里云镜像加速

    Ubuntu配置docker的阿里云镜像加速 阿里云镜像加速 阿里云镜像加速 由于docker的官方的镜像源速度太慢 在国内可以通过使用阿里云或者网易云的镜像源提高下载速度 通常使用阿里云的镜像源 下面介绍怎么使用阿里云的镜像加速器 注册阿
  • python编程练习题:随机生成的各科成绩,60分以下为10-15%之间,60-90分的占70-75%之间,90分以上10%-15%之间

    d 题目 python编程练习题 随机生成的各科成绩 60分以下为10 15 之间 60 90分的占70 75 之间 90分以上10 15 之间 分析 各分数之间生成分数的概率并不是独立的 而是相互影响的 比如60分以下的占10 那么为了满
  • html纵向导航,【练习实例】HTML+CSS制作导航栏(横向与纵向)

    纵向导航栏 建立一个列表 主页 新闻 联系 关于 2 定义列表基本样式 ul 去掉列表的样式 list style type none width 200px background color DDDDDD li a 将内联元素转换为块级元
  • 安装并使用 iDRAC 服务模块

    DELL服务器 Integrated Dell Remote Access Controller 8 7 默认增加了iDRAC Service Module 但是根据官方文档 这个功能默认是没有打开 需要在服务器上安装 未安装前方法如下 1
  • linux下,用crontab定时执行scrapy任务

    之前尝试过很多方法用crontab执行scrapy的爬虫任务 但是都没出成功 总结下来有两点错误与相应的解决方法 1 手动执行时 在工程目录下输入scrapy crawl xxx就可以执行爬虫脚本了 但是用crontab时 如果直接在cro