通过 POST 抓取 Bandcamp 粉丝收藏

2024-02-02

我一直在尝试抓取 Bandcamp 粉丝页面以获取他们购买的专辑列表，但我在有效地做到这一点时遇到了困难。我用 Selenium 写了一些东西，但它有点慢，所以我想学习一个解决方案，可以向网站发送 POST 请求并从那里解析 JSON。

这是一个示例集合页面：https://bandcamp.com/nhoward https://bandcamp.com/nhoward

这是硒代码：

def scrapeFanCollection(url):
    browser = getBrowser()
    setattr(threadLocal, 'browser', browser)
    #Go to url
    browser.get(url)
    
    try:
        #Click show more button
        browser.find_element_by_class_name('show-more').click()
        
        #Wait two seconds
        time.sleep(2)
        #Scroll to the bottom loading full collection
        scroll(browser, 2)
    except Exception:
        pass
    
    #Return full album collection
    soup_a = BeautifulSoup(browser.page_source, 'lxml', parse_only=SoupStrainer('a', {"class": "item-link"}))
        
    #Empty array
    urls = []
    
    # Looping through all the a elements in the page source
    for item in soup_a.find_all('a', {"class": "item-link"}):
        url = item.get('href')
        if(url != None):
            urls.append(url)
    
    return urls

可以通过以下方式访问该API：

$ curl -X POST -H "Content-Type: Application/JSON" -d \
'{"fan_id":82985,"older_than_token":"1586531374:1498564527:a::","count":10000}' \
https://bandcamp.com/api/fancollection/1/collection_items

我没有遇到过这样的情况"older_than_token"已经过时了，所以问题归结为获取"fan_id"给定一个 URL。

此信息位于 blob 中id="pagedata"元素。

>>> import json
>>> import requests
>>> from bs4 import BeautifulSoup
>>> res = requests.get("https://www.bandcamp.com/ggorlen")
>>> soup = BeautifulSoup(res.text, "lxml")
>>> user = json.loads(soup.find(id="pagedata")["data-blob"])
>>> user["fan_data"]["fan_id"]
82985

将它们放在一起（建立在这个答案 https://stackoverflow.com/a/56519102/6243352):

import json
import requests
from bs4 import BeautifulSoup

fan_page_url = "https://www.bandcamp.com/ggorlen"
collection_items_url = "https://bandcamp.com/api/fancollection/1/collection_items"
res = requests.get(fan_page_url)
soup = BeautifulSoup(res.text, "lxml")
user = json.loads(soup.find(id="pagedata")["data-blob"])

data = {
    "fan_id": user["fan_data"]["fan_id"],
    "older_than_token": user["wishlist_data"]["last_token"],
    "count": 10000,
}
res = requests.post(collection_items_url, json=data)
collection = res.json()

for item in collection["items"][:10]:
    print(item["album_title"], item["item_url"])

我在用着user["wishlist_data"]["last_token"]其格式与"older_than_token"以防万一这很重要。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

通过 POST 抓取 Bandcamp 粉丝收藏的相关文章

如何查找 pandas 数据框中连续相同字符串值的计数？

假设我们有以下 pandas 数据框 df pd DataFrame col1 A gt G C gt T C gt T G gt T C gt T A gt G A gt G A gt G col2 TCT ACA TCA TCA GCT
Python：多处理和请求

以下是我正在运行的使用多处理并行触发 HTTP 请求的代码片段在控制台上运行后它挂在 requests get url 处既不继续前进也不抛出错误 def echo 100 q print before r requests get
刷新访问令牌时出现“invalid_grant”错误的情况？

最近我一直在为这个问题揪心一些背景使用oauth2客户端 https code google com p google api python client 库来管理用户的令牌这些令牌用于定期并发执行各种后台任务每次要为用户运行其中一
同情因子简单关系

我在 sympy 中有一个简单的因式分解问题无法解决我在 sympy 处理相当复杂的积分方面取得了巨大成功但我对一些简单的事情感到困惑如何得到 phi 2 2 phi phi 0 phi 0 2 8 因式分解 phi phi 0 2
01 无效令牌[重复]

这个问题在这里已经有答案了嘿学习 python3有一段时间了遇到字典和dictionary name get 方法并尝试获取随机键值问题 data data get key 1 它有效并且返回 1 但如果我使用data get ke
代理阻止网络套接字？如何绕行

我有一个用 Python 编写的正在运行的 websocket 服务器来自https github com opiate SimpleWebSocketServer https github com opiate SimpleWebSoc
使用 Pandas 查找自滚动高点以来的周期数

我在 Pandas 中使用rolling max函数 http pandas pydata org pandas docs stable computation html moving rolling statistics moments
Python NLP 英式英语与美式英语

我目前正在用Python 进行NLP 工作然而在我的语料库中既有英式英语也有美式英语实现实现我正在考虑将英式英语转换为美式英语但是我没有找到一个好的工具包来做到这一点有什么建议么我也找不到包但试试这个请注意我必须
打印一个 Jupyter 单元中定义的所有变量

有没有一种更简单的方法来以漂亮的方式显示单个单元格中定义的所有变量的名称和值我现在做的方式是这样的但是当有30个或更多变量时我浪费了很多时间您可以使用whos http ipython readthedocs io en stable
将 JSON 字符串传递给 Django 模板

我一直在用头撞墙试图找出为什么我无法将从 Django 模型生成的 JSON 字符串传递到模板的 javascript 静态文件中事实证明问题不在模型级别使用serializers serialize 在脚本本身中放入相同的字符串将
获取 zeep.exceptions.ValidationError：缺少与 suds 一起使用的方法的元素

我正在移植开发的代码suds 0 6到zeep 2 4 0 以前的泡沫代码 client Client WSDLfile proxy proxy faults True config client factory create perUse
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2
如何创建指向指针数组的 Python ctypes 指针

我需要学习如何处理char 在下面的 C 方法中通过 Python ctypes 我通过使用调用其他只需要单个指针的方法做得很好create string buffer 但此方法需要一个指向指针数组的指针 ladybugConvertToM
如何在 Tkinter 的 Button 小部件中创建多个标签？

我想知道如何在 Tkinter 中创建具有多个标签的按钮小部件如下图所示带有子标签的按钮 https i stack imgur com jOZRw jpg正如您所看到的在某些按钮中有一个子标签例如按钮 X 有另一个小标签 A 我试
pandas apply：函数名是否带引号的区别

简单数据框定义示例 df pd DataFrame A 2 4 1 B 8 4 1 C 6 2 7 df A B C 0 2 8 6 1 4 4 2 2 1 1 7 尝试理解以下块中函数参数调用的差异 df apply sum df app
Python：使用列表创建二叉搜索树

我的代码的目标是从 txt 文件中获取每个单独的单词并将其放入列表中然后使用该列表创建二叉搜索树来计算每个单词的频率并按字母顺序打印每个单词及其频率中的每个单词只能包含字母数字或我无法用我的初学者编程知识来做的部分是使用我拥有的
如何在 Pandas 数据框中用 NaN 替换一系列值？

我有一个巨大的数据框我应该如何用 NaN 替换一系列值 200 100 数据框您可以使用pd DataFrame mask https pandas pydata org pandas docs stable generated pan
升级后 pip 损坏

我做了 pip install U easyinstall 然后 pip install U pip 来升级我的 pip 但是当我尝试使用 pip 时我现在收到此错误 root d8fb98fc3a66 which pip usr lo
提供节点名或服务名，或未知

我收到这个 Python 错误 File Library Frameworks Python framework Versions 2 7 lib python2 7 urllib2 py line 1184 in do open rais
在 pip 中为 Flask 应用程序构建 docker 映像失败

from alpine latest RUN apk add no cache python3 dev pip3 install upgrade pip WORKDIR backend COPY backend RUN pip no cac

随机推荐

如何以编程方式获取 ios 项目中包含的框架和库的列表？

我正在尝试使用 Objective C 以编程方式获取 ios 项目中包含的所有库和框架的列表并将列表发送到服务器如何获得这个列表 From NSBundle https developer apple com library ios
Visual Studio Code 中 launch.json 的常用变量

我已经看到如何launch json对于 Visual Studio Code 可以访问 workspaceFolder 它还可以访问其他公共变量吗我想访问当前用户的 AppData 文件夹以便我可以执行以下操作 program app
在 ASP.NET Core MVC 中显示 React 应用程序的方法

我有一个现有的 ASP NET Core MVC 网站并且正在考虑将 React 应用程序放到服务器端视图之一上例如在Views gallery cshtml 这里不涉及复杂的路线因为它纯粹是 React 应用程序的单个视图顺便说
webViewDidFinishLoad() 似乎没有在 Swift 中运行

我有一个用于网络视图的视图控制器通过设置KIN浏览器 https github com dfmuir KINWebBrowser 我尝试了多种方法来执行这些方法 func webViewDidStartLoad webView UIWeb
悬停时创建 CSS“路径”

我正在尝试使用主要 CSS 生成一个漂亮的 CSS 菜单但是使用tiny bit of jQuery http en wikipedia org wiki JQuery还有我的总体想法是 lt Hover this center
有没有办法在构建 Cocoapod 时指定对另一个分支的依赖关系？

我正在尝试构建一个依赖于 Alamofire 和 SwiftyJSON 不同分支的 Cocoapod 目前当 iOS 9 和 Xcode 7 超出测试版时这将会改变这是因为我的 Cocoapod 是用 Swift 2 0 编码的更具
使用 GD ( imagettftext() ) 和 UTF-8 字符

仅供记录我在这里提出的第一个问题但希望不是我在社区中的最后一个意见但这不是我来这里的原因我目前正在开发一个简单的系统它必须生成带有文本的图像一切都很顺利直到我意识到 GD 无法处理 UTF 8 字符例如等等为了澄清事情
Python Tkinter 按钮没有出现？

我是 tkinter 的新手我在 python 中有这段代码 import the tkinter module from tkinter import import tkinter calc window tkinter Tk calc
jQuery .load（或$.ajax）来获取和设置页面标题？

迄今为止 container load hash page function container fadeIn fast document title title load hash title text 不起作用有更好正确的方法来做到
valgrind --trace-children=yes 报告泄漏，尽管 atexit 清理

我试图避免 valgrind 的误报但我对以下组合感到很糟糕atexit and fork 尽管使用 trace children yes 我的代码 include
如何在 XPath 中使用 not contains() ？

我有一些 XML 的结构如下
将 groovy 数组传递给 javascript 代码

我尝试将数组从控制器传递到 JavaScript 代码到 gsp 页面我尝试过控制器 def stat def listSubject Physique 10 85 1 Arabe 20 14 3 listSubject 统计数据 gsp
Informix：如何将单个参数中的多个值传递、使用和执行到存储过程

如何将单个参数中的多个值传递给存储过程Informix 这是一个常见的问题但我没有看到任何关于 informix 的信息我找到了一个post http www mombu com programming informix t pass
具有任何主体和标头的 Webmock 存根请求

如何使用 Webmock 来存根带有任何正文和标头的请求我尝试使用正则表达式 WebMock stub request post api quickblox com with body gt headers gt to return st
AudioKit：如何对AKPlayer进行调频

我正在尝试对来自 AKPlayer 的信号执行频率调制从而播放 mp3 文件我尝试使用 AKOperationEffect 但它没有按预期工作 let modulatedPlayer AKOperationEffect player p
暂时使用另一个功能分支的提交

我的 git 流程如下所示 x x feature branch a master x x develop x x feature branch b 目前有一个提交和 PRbranch a to develop 我先等一下branch aP
钥匙串无法正确导入 p12 并且系统钥匙串看起来很混乱

I have p12 file of ios Development certificate I want to import it into my login keychain But when I double tap it goes
R ggplot2拼凑公共轴标签

根据下面的代码和数据是否可以拥有通用的图例标签而无需删除xlab and ylab来自ggplot代码使用patchwork 我之所以问这个问题是因为我有很多ggplots所以我觉得删除它并不理想xlab and ylab从每个ggplo
如何在我的应用程序中显示网页？

我需要从服务器端发送简单网页带有图像 mht 或压缩网页文件夹并在没有浏览器控制的情况下将其显示在我的 Android 应用程序的 UI 上有人可以建议我如何在 Android 设备上继续执行此操作要在应用程序中显示网页有两种方法
通过 POST 抓取 Bandcamp 粉丝收藏

我一直在尝试抓取 Bandcamp 粉丝页面以获取他们购买的专辑列表但我在有效地做到这一点时遇到了困难我用 Selenium 写了一些东西但它有点慢所以我想学习一个解决方案可以向网站发送 POST 请求并从那里解析 JSON 这是

通过 POST 抓取 Bandcamp 粉丝收藏

通过 POST 抓取 Bandcamp 粉丝收藏 的相关文章

随机推荐

热门标签

通过 POST 抓取 Bandcamp 粉丝收藏的相关文章