Scrapy Python Craigslist Scraper

2024-04-25

我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品。

我能够提取日期、帖子标题和帖子 URL但提取时遇到问题price.

由于某种原因,当前代码提取all的价格,但是当我删除//在价格范围之前查找价格字段返回为空。

有人可以查看下面的代码并帮助我吗?

from scrapy.spider import BaseSpider
    from scrapy.selector import HtmlXPathSelector
    from craigslist_sample.items import CraigslistSampleItem

    class MySpider(BaseSpider):
        name = "craig"
        allowed_domains = ["craigslist.org"]
        start_urls = ["http://longisland.craigslist.org/search/sss?sort=date&query=raptor%20660&srchType=T"]

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    titles = hxs.select("//p")
    items = []
    for titles in titles:
        item = CraigslistSampleItem()
        item['date'] = titles.select('span[@class="itemdate"]/text()').extract()
        item ["title"] = titles.select("a/text()").extract()
        item ["link"] = titles.select("a/@href").extract()
        item ['price'] = titles.select('//span[@class="itempp"]/text()').extract()
        items.append(item)
    return items

itempp似乎在另一个元素的内部,itempnr。如果你改变的话也许会有效//span[@class="itempp"]/text() to span[@class="itempnr"]/span[@class="itempp"]/text().

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy Python Craigslist Scraper 的相关文章

随机推荐

  • 如何使用 Arm 模板获取应用服务中的主体 Id?

    您好 我正在编写 ARM 模板来部署我的应用程序服务 我想在我的手臂模板中创建系统标识 在应用程序服务臂模板部分中 我有以下代码 identity principalId reference variables identity resou
  • 在 Jersey Rest 中使用 @Consume 和 GET 请求

    我正在尝试将 GET 请求中的值绑定到 POJO 这些值是 HTTP GET 请求中的参数 我使用 JSONP 来传递参数 但看起来 JSONP 将 JSON 对象推到请求行上 因此它实际上并不是正在发送的 JSON 对象 而只是 URL
  • JavaFX Span Tableview 通过 MapEntries 合并单元格

    你好 我有以下地图 Map
  • 在 Android Oreo 及更高版本上根据 FCM 通知唤醒我的应用程序

    我的应用程序的一个重要部分是处理即时消息并接收 FCM 通知 应用程序如何在收到高重要性通知后唤醒几秒钟 从服务器进行短暂的提取并返回到之前的状态 我看过很多理论解释 但没有真正的源代码示例来实现这一点 有人可以帮忙吗 Extend Fir
  • 如何让键盘显示返回键?

    我想我已经尝试了所有组合 但我无法让字母键盘显示返回键 它始终是一个 完成 按钮 没有什么用处 在 Nexus 7 4 1 上 情况更糟 并显示一个愚蠢的笑脸按钮和 完成 按钮 这对我的应用程序没有任何意义 只要有返回按钮 就可以有 完成
  • 如何将欢迎页面设置为 struts 操作?

    我有一个基于 struts 的 web 应用程序 我希望默认的 欢迎 页面成为一个操作 我发现的唯一解决方案似乎是使欢迎页面成为包含操作重定向的 JSP 例如 在web xml
  • AsyncTask 真的在概念上存在缺陷还是我只是错过了一些东西?

    我已经研究这个问题几个月了 提出了不同的解决方案 但我对此并不满意 因为它们都是大规模的黑客攻击 我仍然不敢相信一个设计上有缺陷的类进入了框架并且没有人谈论它 所以我想我一定是错过了一些东西 问题在于AsyncTask 根据文档它 允许执行
  • Hadoop setInputPathFilter错误

    我正在使用 Hadoop 0 20 2 无法更改 并且我想向我的输入路径添加一个过滤器 数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
  • 对于来自 Vevo 的视频,Youtube IFrame API onError 触发,错误代码为 150

    让我解释一下我的情况 我想用YouTube IFrame API https developers google com youtube iframe api reference在我的网站上嵌入一些视频 我用id测试了视频wdGZBRAWW
  • 如何启动docker容器(ubuntu镜像)

    如何统计 Docker 容器 我是用它创建的 docker run d P v Users bsr usr local users name test ubuntu 我确实安装了虚拟盒来宾附加功能 并且安装工作正常 但是 我不知道为什么我不
  • 将业务层与数据层分离时对实体进行限制的位置

    我正在尝试为我的大型 ASP NET MVC 应用程序创建业务层和数据层 因为这是我第一次尝试这种规模的项目 所以我正在阅读一些书籍 并努力小心地将事物正确地分开 通常 我的应用程序混合了业务逻辑和数据访问层 并且多个业务实体在单个类中交织
  • Android 在 ScrollView 上 PullTo 刷新

    我知道类似 pullToRefresh 的功能在 iPhone 中可用 而对于 Android 我们必须手动管理它 我得到了一些使用 pullToRefresh 的示例 但它仅适用于 ListView 就我而言 我想实现滚动视图 Googl
  • 哪些浏览器支持console.log()?

    所有浏览器都支持这个吗 我想使用输出错误console log 但想知道是否所有浏览器都支持此功能 console log Error etc 不 并非所有浏览器都支持console log因为它不是标准的一部分 而是 DOM 的扩展 因此
  • 存储对字符串的引用

    我有一个具有 3 个字符串属性的类 我想将它们存储在一个列表中 以便当我更改列表的字符串时 它们也会在类中更新 如果我使用类对象 这很容易做到 但字符串似乎表现不同 它似乎为列表创建了对象的副本 而不是拥有指向该对象的指针 如果是 C 我该
  • 在 R 中使用 stringr 的具有非捕获组的正则表达式

    我正在尝试将非捕获组与str extract函数从stringr包裹 这是一个例子 library stringr txt lt foo str extract txt f o 这返回 foo 虽然我希望它只会返回 oo 就像在这篇文章中一
  • 在 Windows Vista / 7 中从 C# 访问网络摄像头的“首选”方法

    我发现了很多讨论 WIA Windows 便携式设备 API 和 DirectShow 并给出示例代码 用于从 C 访问网络摄像头的帖子 但是当您研究每种方法时 您似乎会遇到这些都是 旧 方法的参考资料 因此 问题是 当运行 Windows
  • 将外部链接设为 target="_blank" 是否可以接受?

    我有点困惑是否应该在我的网站上创建指向外部的链接 target blank 这种做法是否会对您网站的可用性产生负面影响 即破坏 后退按钮轨迹 大多数用户是否普遍认为它很烦人 在某些情况下可以接受 但在其他情况下则不能接受吗 我希望为我的所有
  • kubectl:描述与获取 -o <格式>

    在 kubectl 中 两者describe and get o
  • 我们如何以编程方式检测设备正在运行哪个 iOS 版本? [复制]

    这个问题在这里已经有答案了 我想检查用户是否在低于 5 0 的 iOS 上运行应用程序并在应用程序中显示标签 如何以编程方式检测用户设备上正在运行哪个 iOS Thanks 当前最佳版本 不需要在 NSString 中处理数字搜索就是定义m
  • Scrapy Python Craigslist Scraper

    我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品 我能够提取日期 帖子标题和帖子 URL但提取时遇到问题price 由于某种原因 当前代码提取all的价格 但是当我删除 在价格范围之前查找价格字段返回为空 有人可以查看