Scrapy Python Craigslist Scraper

2024-04-25

我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品。

我能够提取日期、帖子标题和帖子 URL但提取时遇到问题price.

由于某种原因，当前代码提取all的价格，但是当我删除//在价格范围之前查找价格字段返回为空。

有人可以查看下面的代码并帮助我吗？

from scrapy.spider import BaseSpider
    from scrapy.selector import HtmlXPathSelector
    from craigslist_sample.items import CraigslistSampleItem

    class MySpider(BaseSpider):
        name = "craig"
        allowed_domains = ["craigslist.org"]
        start_urls = ["http://longisland.craigslist.org/search/sss?sort=date&query=raptor%20660&srchType=T"]

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    titles = hxs.select("//p")
    items = []
    for titles in titles:
        item = CraigslistSampleItem()
        item['date'] = titles.select('span[@class="itemdate"]/text()').extract()
        item ["title"] = titles.select("a/text()").extract()
        item ["link"] = titles.select("a/@href").extract()
        item ['price'] = titles.select('//span[@class="itempp"]/text()').extract()
        items.append(item)
    return items

itempp似乎在另一个元素的内部，itempnr。如果你改变的话也许会有效//span[@class="itempp"]/text() to span[@class="itempnr"]/span[@class="itempp"]/text().

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

scraper

craigslist

Scrapy Python Craigslist Scraper 的相关文章

收据褪色部分可以恢复吗？

我有一些包含一些扫描收据的文件我需要使用 OCR 从中提取文本由于收据上打印的文字在一段时间后会褪色导致收据上的某些文字不清晰影响OCR结果褪色单词的一些示例有什么方法可以恢复褪色的部分以便提高 OCR 结果吗我在OpenC
如何下载 NLTK 数据？

更新的答案 NLTK 适用于 2 7 我有3 2 我卸载了3 2并安装了2 7 现在可以了我已经安装了 NLTK 并尝试下载 NLTK 数据我所做的是按照该网站上的说明进行操作 http www nltk org data html h
生成非连续组合

我正在尝试创建一个生成器支持执行 next 的迭代器可能在 python 中使用yield 它给出来自 1 2 n n 和 r 是参数的 r 元素的所有组合这样在选出的r个元素没有两个是连续的例如对于 r 2 且 n 4 生成
如何在 Linux 上调用 Python 中的内联机器代码？

我正在尝试从 Linux 上的纯 Python 代码调用内联机器代码为此我将代码嵌入到字节文字中 code b x55 x89 xe5 x5d xc3 然后打电话mprotect http www kernel org doc man
Python 中意外的缩进错误[重复]

这个问题在这里已经有答案了我有一段简单的代码我不明白我的错误来自哪里解析器在第 5 行 if 语句上用意外的缩进向我咆哮有人看到这里的问题吗我不 def gen fibs a b 0 1 while True a b b a b
为 Mercurial 执行 hgweb.cgi 时，指定的 CGI 应用程序行为不当...

我有 IIS 6 我将 Mercurial 安装在 c program files mercurial 中我在 c program files python 中安装了 Python 2 6 I added extension handli
scikit-learn - 具有置信区间的 ROC 曲线

我可以使用 ROC 曲线scikit learn with fpr tpr thresholds metrics roc curve y true y pred pos label 1 where y true是基于我的黄金标准的值列表即
有效地减去不同形状的 numpy 数组

使用 numpy 出色的广播规则您可以减去形状 3 数组v来自形状 5 3 数组X with X v 结果是一个形状 5 3 数组其中每一行i是有区别的X i v 有没有办法减去形状 n 3 数组w from X使得每一行w从整个数组中
计算两个表中等效行的交集

我有两个 FITS 文件让我们考虑一下例如第一个文件有 100 行和 2 列第二个文件有 1000 行和 2 列 FITS FILE 1 FITS FILE 2 A B C D 1 2 1 2 1 3 1 2 2 4 1 2 我需要采取
Python NET 调用具有返回值和输出参数的 C# 方法

我有以下静态 C 方法 public static bool TryParse string s out double result 我想使用 Python NET 包从 Python 调用它 import clr from System
Requests-html 导致 OSError: [Errno 8] 调用 html.render() 时执行格式错误

我正在使用 requests html 并尝试渲染功能但收效甚微当我使用 python3 8 运行这个脚本时 usr bin python3 from requests html import HTML file scrape temp
您忽略了哪些 PEP 8 准则，哪些是您坚持的？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案多年来我编写的 Python 越多我就越发现自己同意大多数准则尽管我出于自己的原因始终有意地违反了一些准则我很想知道 PEP 8 也可能
如何让 list_blobs 表现得像 gsutil

我只想获得 GCS 上假文件夹结构的第一级如果我运行例如 gsutil ls gs gcp public data sentinel 2 tiles 我得到一个这样的列表 gs gcp public data sentinel 2 til
pyspark：将 schemaRDD 保存为 json 文件

我正在寻找一种将数据从 Apache Spark 以 JSON 格式导出到各种其他工具的方法我认为一定有一种非常简单的方法来做到这一点示例我有以下 JSON 文件 jfile json key value a1 key2 value
将 2D 数组中的每一列与另一个 2D 数组中的每一列相乘

我有两个 Numpy 数组x有形状 m i and y有形状 m j 所以行数是相同的我想将每一列相乘x每一列y逐元素使结果具有形状 m i j Example import numpy as np np random seed 1 x
如何在 python pandas 中的同一列上进行分组并将唯一值的计数和某些值的计数作为聚合？

我的问题与我之前的问题有关Question https stackoverflow com questions 42022767 how to do group by and take count of one column divide
如何提取Python代码文件中使用的函数？

我想创建代码文件中使用的所有函数的列表例如如果我们在名为 add random py 的文件中有以下代码 import numpy as np from numpy import linalg def foo print np rand
如何使用电子表格中的第一行作为 Dataframe 列名称而不是 0 1 2...等？

我希望我的数据框将第一行名称显示为数据框列名称而不是从 0 等编号我该如何执行此操作我尝试使用 pandas 和 openpyxl 模块将我的 Excel 电子表格转换为数据框 import pandas as pd from ope
Python：从 apache authnz_ldap 获取用户

我正在通过 Apache2 的 authnz ldap 模块成功验证 ldap 用户我不清楚如何在他们登录后获取他们的用户名以便我可以通过任何以下表单网页与他们交互我尝试过典型的方法 os getenv os environ get
Mac OS X 上的 Python 框架和非框架构建之间的差异

Question Mac OS X 上的 Python 框架构建和非框架构建即标准 UNIX 构建之间有什么区别另外各自的优点和缺点是什么初步研究以下是我在发布此问题之前找到的信息 Pythonmac SIG Why is Fr

随机推荐

如何使用 Arm 模板获取应用服务中的主体 Id？

您好我正在编写 ARM 模板来部署我的应用程序服务我想在我的手臂模板中创建系统标识在应用程序服务臂模板部分中我有以下代码 identity principalId reference variables identity resou
在 Jersey Rest 中使用 @Consume 和 GET 请求

我正在尝试将 GET 请求中的值绑定到 POJO 这些值是 HTTP GET 请求中的参数我使用 JSONP 来传递参数但看起来 JSONP 将 JSON 对象推到请求行上因此它实际上并不是正在发送的 JSON 对象而只是 URL
JavaFX Span Tableview 通过 MapEntries 合并单元格

你好我有以下地图 Map
在 Android Oreo 及更高版本上根据 FCM 通知唤醒我的应用程序

我的应用程序的一个重要部分是处理即时消息并接收 FCM 通知应用程序如何在收到高重要性通知后唤醒几秒钟从服务器进行短暂的提取并返回到之前的状态我看过很多理论解释但没有真正的源代码示例来实现这一点有人可以帮忙吗 Extend Fir
如何让键盘显示返回键？

我想我已经尝试了所有组合但我无法让字母键盘显示返回键它始终是一个完成按钮没有什么用处在 Nexus 7 4 1 上情况更糟并显示一个愚蠢的笑脸按钮和完成按钮这对我的应用程序没有任何意义只要有返回按钮就可以有完成
如何将欢迎页面设置为 struts 操作？

我有一个基于 struts 的 web 应用程序我希望默认的欢迎页面成为一个操作我发现的唯一解决方案似乎是使欢迎页面成为包含操作重定向的 JSP 例如在web xml
AsyncTask 真的在概念上存在缺陷还是我只是错过了一些东西？

我已经研究这个问题几个月了提出了不同的解决方案但我对此并不满意因为它们都是大规模的黑客攻击我仍然不敢相信一个设计上有缺陷的类进入了框架并且没有人谈论它所以我想我一定是错过了一些东西问题在于AsyncTask 根据文档它允许执行
Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
对于来自 Vevo 的视频，Youtube IFrame API onError 触发，错误代码为 150

让我解释一下我的情况我想用YouTube IFrame API https developers google com youtube iframe api reference在我的网站上嵌入一些视频我用id测试了视频wdGZBRAWW
如何启动docker容器（ubuntu镜像）

如何统计 Docker 容器我是用它创建的 docker run d P v Users bsr usr local users name test ubuntu 我确实安装了虚拟盒来宾附加功能并且安装工作正常但是我不知道为什么我不
将业务层与数据层分离时对实体进行限制的位置

我正在尝试为我的大型 ASP NET MVC 应用程序创建业务层和数据层因为这是我第一次尝试这种规模的项目所以我正在阅读一些书籍并努力小心地将事物正确地分开通常我的应用程序混合了业务逻辑和数据访问层并且多个业务实体在单个类中交织
Android 在 ScrollView 上 PullTo 刷新

我知道类似 pullToRefresh 的功能在 iPhone 中可用而对于 Android 我们必须手动管理它我得到了一些使用 pullToRefresh 的示例但它仅适用于 ListView 就我而言我想实现滚动视图 Googl
哪些浏览器支持console.log()？

所有浏览器都支持这个吗我想使用输出错误console log 但想知道是否所有浏览器都支持此功能 console log Error etc 不并非所有浏览器都支持console log因为它不是标准的一部分而是 DOM 的扩展因此
存储对字符串的引用

我有一个具有 3 个字符串属性的类我想将它们存储在一个列表中以便当我更改列表的字符串时它们也会在类中更新如果我使用类对象这很容易做到但字符串似乎表现不同它似乎为列表创建了对象的副本而不是拥有指向该对象的指针如果是 C 我该
在 R 中使用 stringr 的具有非捕获组的正则表达式

我正在尝试将非捕获组与str extract函数从stringr包裹这是一个例子 library stringr txt lt foo str extract txt f o 这返回 foo 虽然我希望它只会返回 oo 就像在这篇文章中一
在 Windows Vista / 7 中从 C# 访问网络摄像头的“首选”方法

我发现了很多讨论 WIA Windows 便携式设备 API 和 DirectShow 并给出示例代码用于从 C 访问网络摄像头的帖子但是当您研究每种方法时您似乎会遇到这些都是旧方法的参考资料因此问题是当运行 Windows
将外部链接设为 target="_blank" 是否可以接受？

我有点困惑是否应该在我的网站上创建指向外部的链接 target blank 这种做法是否会对您网站的可用性产生负面影响即破坏后退按钮轨迹大多数用户是否普遍认为它很烦人在某些情况下可以接受但在其他情况下则不能接受吗我希望为我的所有
kubectl：描述与获取 -o <格式>

在 kubectl 中两者describe and get o
我们如何以编程方式检测设备正在运行哪个 iOS 版本？ [复制]

这个问题在这里已经有答案了我想检查用户是否在低于 5 0 的 iOS 上运行应用程序并在应用程序中显示标签如何以编程方式检测用户设备上正在运行哪个 iOS Thanks 当前最佳版本不需要在 NSString 中处理数字搜索就是定义m
Scrapy Python Craigslist Scraper

我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品我能够提取日期帖子标题和帖子 URL但提取时遇到问题price 由于某种原因当前代码提取all的价格但是当我删除在价格范围之前查找价格字段返回为空有人可以查看

Scrapy Python Craigslist Scraper

Scrapy Python Craigslist Scraper 的相关文章

随机推荐

热门标签