用于 python 的网页抓取 remax.com

2024-01-07

这与我的问题类似here https://stackoverflow.com/questions/54892103/web-scrapping-remax-com-in-python。这得到了完美的回答。现在我有一些事情要做，我现在要做的就是不要手动输入网址来获取数据。我想开发一个函数，只接受地址和邮政编码并返回我想要的数据。

现在的问题是修改url以获得正确的url。例如

url = 'https://www.remax.com/realestatehomesforsale/25-montage-way-laguna-beach-ca-92651-gid100012499996.html'

我看到除了地址、州和邮政编码之外，后面还有一个数字，即 gid100012499996，它似乎对每个地址都是唯一的。所以我不知道如何才能实现我想要的功能。

这是我的代码：

import urllib
from bs4 import BeautifulSoup
import pandas as pd

def get_data(url):
    hdr = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
            'Accept-Encoding': 'none',
            'Accept-Language': 'en-US,en;q=0.8',
            'Connection': 'keep-alive'}
    request = urllib.request.Request(url, headers=hdr)
    html = urllib.request.urlopen(request).read()

    soup = BeautifulSoup(html,'html.parser')
    foot = soup.find('span', class_="listing-detail-sqft-val")
    print(foot.text.strip())

url = 'https://www.remax.com/realestatehomesforsale/25-montage-way-laguna-beach-ca-92651-gid100012499996.html'
get_data(url)

我想要的是类似上面的东西，但 get_data() 将接受地址、州和邮政编码。如果这不是一个适合本网站的问题，我深表歉意。

该网站有一个 JSON API，可让您获取给定矩形中属性的所有详细信息。该矩形由西北角和东南角的纬度和经度坐标给出。以下请求显示了可能的搜索：

import requests

params = {
    "nwlat" : 41.841966864112,          # Calculate from address
    "nwlong" : -74.08774571289064,      # Calculate from address
    "selat" : 41.64189784194883,        # Calculate from address
    "selong" : -73.61430363525392,      # Calculate from address
    "Count" : 100,
    "pagenumber" : 1,
    "SiteID" : "68000000",
    "pageCount" : "10",
    "tab" : "map",
    "sh" : "true",
    "forcelatlong" : "true",
    "maplistings" : "1",
    "maplistcards" : "0",
    "sv" : "true",
    "sortorder" : "newest",
    "view" : "forsale",
}

req_properties = requests.get("https://www.remax.com/api/listings", params=params)
matching_properties_json = req_properties.json()

for p in matching_properties_json[0]:
    print(f"{p['Address']:<40}  {p.get('BedRooms', 0)} beds | {int(p.get('BathRooms',0))} baths | {p['SqFt']} sqft")

这会产生 100 个响应（显然，更紧密的矩形会减少结果）。例如：

3 Pond Ridge Road                         2 beds | 3.0 baths | 2532 sqft
84 Hudson Avenue                          3 beds | 1.0 baths | 1824 sqft
116 HUDSON POINTE DR                      2 beds | 3.0 baths | 2455 sqft
6 Falcon Drive                            4 beds | 3.0 baths | 1993 sqft
53 MAPLE                                  5 beds | 2.0 baths | 3511 sqft
4 WOODLAND CIR                            3 beds | 2.0 baths | 1859 sqft
.
.
.
95 S HAMILTON ST                          3 beds | 1.0 baths | 2576 sqft
40 S Manheim Boulevard                    2 beds | 2.0 baths | 1470 sqft

如果您有一个地址，那么您需要计算该地址的纬度和经度。然后在其周围为西北角和东南角创建一个小矩形。然后用这些数字构建一个 URL。然后，您将获得该地区所有房产的列表（希望是 1 个）。

要创建搜索方块，您可以使用以下内容：

lat = 41.841966864112
long = -74.08774571289064
square_size = 0.001

params = {
    "nwlat" : lat + square_size,
    "nwlong" : long - square_size,
    "selat" : lat - square_size,
    "selong" : long + square_size,
    "Count" : 100,
    "pagenumber" : 1,
    "SiteID" : "68000000",
    "pageCount" : "10",
    "tab" : "map",
    "sh" : "true",
    "forcelatlong" : "true",
    "maplistings" : "1",
    "maplistcards" : "0",
    "sv" : "true",
    "sortorder" : "newest",
    "view" : "forsale",
}

square_size需要根据您的地址的准确性进行调整。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

urllib

用于 python 的网页抓取 remax.com 的相关文章

在 Mac OS 10.14.2 上的 Python 3.7 中安装 JPype1 时出错

我在系统中安装 JPype1 时遇到错误我正在使用Python 3 7 JPype1 是 Jaydebeapi 的依赖项 pip install Jpype1 以下是错误消息 Collecting jpype1 Using cached
Python：用中值替换异常值

我有一个 python 数据框其中有一些异常值如果这些值不存在的话我想用数据的中值替换它们 id Age 10236 766105 11993 288 9337 205 38189 88 35555 82 39443 75 10762
BeautifulSoup 不适用于某些网站

我有这个脚本 import urrlib2 from bs4 import BeautifulSoup url http www shoptop ru page urllib2 urlopen url read soup Beautiful
django/whitenoise 存储后端导致错误

我在调试关闭时在 heroku 上运行 django 应用程序时遇到了 500 错误使用 rollbar 了解发生错误的原因后它报告了以下内容 ValueError The file media img 1 jpg could not
Python - 在先前已在全局范围内查找的函数内重新分配名称

为什么我在下面的第三个代码中出现错误但在前两个代码中却没有出现错误我使用的是 Python 3 6 0 Anaconda 4 3 1 64 位 Jupyter Code 1 c 100 def fib c 20 a c print a
如何消除 matplotlib 轴的相对偏移

当我尝试对具有足够大数字的范围进行绘图时我得到一个所有刻度都有相对偏移的轴例如 plot 1000 1001 1002 1 2 3 我在横坐标轴上得到这些刻度 0 0 0 5 1 0 1 5 2 0 1e3 问题是如何删除 1e3并得到
类型错误：无法连接“str”和“instance”对象（python urllib）

写一个python程序我在使用时遇到了这个错误urllib urlopen功能 Traceback most recent call last File ChurchScraper py line 58 in
Altair 条形图具有可变宽度的条形？

我正在尝试在 Python 中使用 Altair 制作条形图其中条形的宽度根据源数据帧列中的数据而变化最终目标是获得如下所示的图表条形的高度对应于每种能源技术的边际成本在源数据框中以列形式给出条形宽度对应于每种能源技术的容量也以
如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件？

这段代码有效但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
python 中使用 scipy 截断正态分布

我正在尝试使用截断正态分布scipy在Python3 我想做一些简单的事情绘制以 0 5 为中心范围从 0 到 1 的截断法线的 pdf 我有以下代码行 from scipy import truncnorm import matplo
继承类中的python __init__方法[重复]

这个问题在这里已经有答案了我想为子类提供一些额外的属性而不必显式调用新方法那么有没有办法给继承的类一个 init 不重写的类型方法 init 父类的方法我编写下面的代码纯粹是为了说明我的问题因此属性等的命名很糟糕 class in
os.path.expanduser("~") 的替代方案？

在Python 2 7 x中 os path expanduser Unicode 已损坏这意味着如果的扩展中包含非 ASCII 字符则会出现异常 http bugs python org issue13207 http bugs p
仅打印字符串中的元音

我是Python新手我正在尝试打印字符串中的所有元音因此如果有人输入嘿一切都好吗所有元音都需要打印但我不知道怎么做所以这不是计算元音而是打印元音现在我已经得到了这个 sentence input Enter your s
将 Python 3 的“范围”“向后移植”到 Python 2 是一个坏主意吗？

我的一门课程要求用 Python 完成作业作为练习我一直使用如下脚本确保我的程序可以在 Python 2 和 Python 3 中运行 bin bash Run some PyUnit tests python2 test py pyt
导入pytorch时，未安装microsoft Visual C++ Redistributable

我在一台带有 GPU 的 Windows 机器上工作我已经在 conda 环境中安装了 pytorch conda install pytorch torchvision cudatoolkit 10 1 c pytorch 然后我运行
Django 1.6：如何在视图中访问静态文件

我已经尝试过解决方案here https stackoverflow com questions 11721818 django get the static files url in view这对我不起作用我正在为 Python 创建一
python 中的优化标准化

在优化过程中对输入参数进行归一化使它们处于同一数量级通常会很有帮助这样收敛效果会更好例如如果我们想要最小化 f x 而合理的近似值是 x0 1e3 1e 4 则将 x0 0 和 x0 1 归一化到大约相同的数量级可能会有所帮助
通过 Tweepy 在 Twitter 上更新状态时的回溯

我一直在尝试使用 Twitter 在 Twitter 上发布我的 Rpi 读数tweepy 但首先我想检查一下是否tweepy本来可以正常工作但事实并非如此我正确安装了软件包但是当我尝试运行简单的代码来发布某些内容时出现错误是的
从另一个列表的元素创建一个新列表，引用后者的元素

我想从前一个元素创建一个新列表但不复制它们这就是发生的事情 In 23 list range 10 In 24 list2 list 0 4 In 25 list Out 25 0 1 2 3 4 5 6 7 8 9 In 26 lis
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth

随机推荐

没有互联网的远程主机上的 git 更新/补丁

我有一个可以访问的主机例如 10 0 0 2 该主机无法访问我的 git 存储库也根本无法访问互联网我不想一直复制包含完整项目的 zip 存档并将其解压缩到 10 0 0 2 git format patch mybranch roo
Python 图像库保存函数语法

我认为很简单但本质上我需要知道 PIL 上保存函数的语法是什么帮助真的很模糊我在网上找不到任何东西任何帮助都会很棒谢谢来自太平船务手册 http effbot org imagingbook image htm tag Imag
ws4j 对于应该返回 1 的相似性度量返回无穷大

我有一个非常简单的代码取自这个例子 https code google com p ws4j source browse trunk edu cmu lti ws4j src main java edu cmu lti ws4j demo
无法在 Android 上生成 RSA 私钥

我有一个 PEM RSA 私钥并从硬线字符串中读取它它适用于 Android 4 3 以下版本但不适用于 Android 4 4 和 5 在 Android 4 4 上面我收到错误 01 08 11 49 31 004 W Syste
如何将 SQL Server DB 加载到数据集中？

我想将我拥有的整个数据库 SQL Server 加载到数据集中以便我可以处理多个表及其关系我知道这可能会让人皱眉但我该如何做到这一点我将使用 DataRelation 和 Table 对象 Thanks 除非我遗漏了某些内容否则这
在 SignalR 中向除自身之外的所有客户端广播消息

我意识到这些问题是相似的 SignalR 向除呼叫者之外的所有客户端广播 https stackoverflow com questions 11155008 signalr broadcast to all clients except
使用 Cloudformation 进行 DynamoDB 自动扩展

AWS发布自动缩放 https aws amazon com pt about aws whats new 2017 06 announcing amazon dynamodb auto scaling 对于 DynamoDB 我想知道如何
使用 Google Analytics 自定义变量跟踪个人用户

我一直在为我的公司建立一个支持中心我们需要在个人用户登录时对其进行跟踪如果可能的话我们还想跟踪详细信息例如访问的页面和在网站上花费的时间我可以跟踪有多少人使用自定义变量登录该网站但我无法跟踪单个用户这是我一直用来尝试获取个人用
配置 Cygwin Path 变量以查找 Android NDK

我正在尝试设置我的 PC 以在我的项目中使用 Android NDK 我安装了 Cygwin 我下载了Android NDK 假设我将 NDK 放在 PC 上的以下文件夹中 c Android ndk
手风琴标题中的引导链接：stopPropagation 不起作用

我正在尝试在单击事件上使用 stopPropagation 将外部链接添加到引导手风琴标头不幸的是链接不起作用手风琴的展开折叠仍然发生 html ul class accordion li div class accordion b
为什么 $_REQUEST 为空

我有 Ubuntu 10 10 和 apache2 php 5 3 3 1 和 mysql 5 1 我通过 URL 将一些值传递到页面在那个页面上如果我这样做print r GET 然后我看到数组内容但如果我这样做print r RE
PHP：在move_uploaded_file()之后添加对文件的写权限

使用PHP上传图像后我想让图像文件可写以便为其添加水印这是我使用的代码 if isset FILES file poster tmp name FILES file poster tmp name random filename su
如何使用 Bootstrap 下拉菜单作为 HTML 表单