我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品。
我能够提取日期、帖子标题和帖子 URL但提取时遇到问题price.
由于某种原因,当前代码提取all的价格,但是当我删除//在价格范围之前查找价格字段返回为空。
有人可以查看下面的代码并帮助我吗?
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from craigslist_sample.items import CraigslistSampleItem
class MySpider(BaseSpider):
name = "craig"
allowed_domains = ["craigslist.org"]
start_urls = ["http://longisland.craigslist.org/search/sss?sort=date&query=raptor%20660&srchType=T"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("//p")
items = []
for titles in titles:
item = CraigslistSampleItem()
item['date'] = titles.select('span[@class="itemdate"]/text()').extract()
item ["title"] = titles.select("a/text()").extract()
item ["link"] = titles.select("a/@href").extract()
item ['price'] = titles.select('//span[@class="itempp"]/text()').extract()
items.append(item)
return items
itempp
似乎在另一个元素的内部,itempnr
。如果你改变的话也许会有效//span[@class="itempp"]/text()
to span[@class="itempnr"]/span[@class="itempp"]/text()
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)