使用 BeautifulSoup 抓取 Instagram

2024-03-03

我正在尝试从 Instagram 中的“按标签搜索”获取特定字符串。我想从这里获取 url img：

<img alt="#yeşil  #manzara #doğa  
#yayla #nature #naturelovers #adventuretime #adventures #mountainstaries 
#picture #şehirdenuzak  #tatil #holiday #cow  #potography #view #kütükev 
#naturelife #animal #amazing  #kar #winter #winteriscomming #mapavr1 #artvin 
#tulumile #insaatr #tulumci #rize 
class="_2di5p" sizes="171px" srcset="https://scontent-mxp11.cdninstagram.com/vp/c883e0c4267c003843fafeda255f1329/5A9D3C97/t51.2885-15/s150x150/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg 150w,
https://scontent-mxp1-1.cdninstagram.com/vp/6a3480f8658b50c691bcc100a96cc6f0/5A9CC9DC/t51.2885-15/s240x240/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg 240w,
https://scontent-mxp1-1.cdninstagram.com/vp/461c138e15f52420c3fbc075fab027eb/5A9DD808/t51.2885-15/s320x320/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg 320w,
https://scontent-mxp1-1.cdninstagram.com/vp/ad5d67f1c9ea77d78d145501e73c2ea0/5A9CAF9D/t51.2885-15/s480x480/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg 480w,
https://scontent-mxp1-1.cdninstagram.com/vp/e0636f79adc1ae53f7321d10fe60f275/5A9CD134/t51.2885-15/s640x640/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg 640w" 
src="https://scontent-mxp1-1.cdninstagram.com/vp/e0636f79adc1ae53f7321d10fe60f275/5A9CD134/t51.2885-15/s640x640/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg" style="">

所以基本上我想得到这个字符串（即末尾带有 240w 的字符串）：

https://scontent-mxp1-1.cdninstagram.com/vp/6a3480f8658b50c691bcc100a96cc6f0/../n.jpg

我尝试用 Python 编写这段代码，但它不起作用

import requests
from bs4 import BeautifulSoup

request = requests.get("https://www.instagram.com/explore/tags/nature/")
content = request.content
soup = BeautifulSoup(content,"html.parser")
element = soup.find("srcset")
print(element.text.strip())

也许真正的问题是页面中有 21 个这样的元素但首先我想了解如何获取该字符串。

（并且，如果你们中有人知道 bs4 的好教程或书籍可以告诉我吗？）

您看不到任何输出的原因是图像是使用 JavaScript 动态添加到页面源的。因此，您提供的 HTML 在页面源中不可用。克服这个问题最简单的方法是使用Selenium https://pypi.python.org/pypi/selenium.

但是，还有另一种方法可以解决这个问题。查看页面源，您需要的数据可以在<script>JSON 形式的标签。相关数据的形式为：

"thumbnail_resources": [
    {
        "src": "https://instagram.fpnq3-1.fna.fbcdn.net/vp/a3ed0ee1af581f1c1fe6170b8c080e7c/5B2CA660/t51.2885-15/s150x150/e35/28433503_571483933190064_5347634166450094080_n.jpg",
         "config_width": 150,
         "config_height": 150
     },
     {
         "src": "https://instagram.fpnq3-1.fna.fbcdn.net/vp/7a0bb4fb1b5d5e3b179c58a2b9472b9f/5B2C535F/t51.2885-15/s240x240/e35/28433503_571483933190064_5347634166450094080_n.jpg",
         "config_width": 240,
         "config_height": 240
     },

要获取 JSON，您可以使用此（代码取自这个答案 https://stackoverflow.com/a/49044294/7832176):

script = soup.find('script', text=lambda t: t.startswith('window._sharedData'))
page_json = script.text.split(' = ', 1)[1].rstrip(';')
data = json.loads(page_json)

获取所有图像的图像链接的代码：

import json
import requests
from bs4 import BeautifulSoup

r = requests.get('https://www.instagram.com/explore/tags/nature/')
soup = BeautifulSoup(r.text, 'lxml')

script = soup.find('script', text=lambda t: t.startswith('window._sharedData'))
page_json = script.text.split(' = ', 1)[1].rstrip(';')
data = json.loads(page_json)

for post in data['entry_data']['TagPage'][0]['graphql']['hashtag']['edge_hashtag_to_media']['edges']:
    image_src = post['node']['thumbnail_resources'][1]['src']
    print(image_src)

部分输出：

https://instagram.fpnq3-1.fna.fbcdn.net/vp/e8a78407fb61de834cad7f10eca830fc/5A9DC375/t51.2885-15/s240x240/e15/c0.80.640.640/28766397_174603559842180_1092148752455565312_n.jpg
https://instagram.fpnq3-1.fna.fbcdn.net/vp/3a20f36647c86c2196f259b5d14ebf82/5A9D5BC9/t51.2885-15/s240x240/e15/28433802_283862648812409_3322859933120069632_n.jpg
https://instagram.fpnq3-1.fna.fbcdn.net/vp/82216be4596dd9da862ba267cdeab517/5B144226/t51.2885-15/s240x240/e35/c0.135.1080.1080/28157436_941679549319762_5605299824451649536_n.jpg
https://instagram.fpnq3-1.fna.fbcdn.net/vp/e50eab90b2e0951d67922e49b495e1fc/5B3EC9B8/t51.2885-15/s240x240/e35/c135.0.810.810/28754107_179533402825352_1137703808411893760_n.jpg
https://instagram.fpnq3-1.fna.fbcdn.net/vp/d3a13e7b81a65421b4318b57fb8ee24e/5B4D9EFF/t51.2885-15/s240x240/e35/28433583_375555202918683_1951892035636035584_n.jpg
https://instagram.fpnq3-1.fna.fbcdn.net/vp/1b0aeea1b9be983498192d350e039aa0/5B43C583/t51.2885-15/s240x240/e35/28156427_154249191953160_9219472301039288320_n.jpg
...

Note: The [1]在行中image_src = post['node']['thumbnail_resources'][1]['src']是240w的。您可以分别使用 0、1、2、3 或 4 来表示 150w、240w、320w、480w 或 640w。另外，如果您想要有关任何图像的任何其他数据，例如，喜欢的数量，评论，标题等；一切都可以在这个 JSON 中找到（data多变的）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 BeautifulSoup 抓取 Instagram 的相关文章

此 TypeError 消息中提到的“代码对象”是什么？

在尝试使用Python时exec声明我收到以下错误 TypeError exec arg 1 must be a string file or code object 我不想传递字符串或文件但什么是代码对象如何创建一个创建代码对象的
Virtualenv 在 OS X Yosemite 上失败并出现 OSError

我最近更新到 OSX Yosemite 现在无法使用virtualenv pip 每当我执行 virtualenv env 它抛出一个 OSError Command Users administrator ux env bin pytho
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
是否可以从 Julia 调用 Python 函数并返回其结果？

我正在使用 Python 从网络上抓取数据我想使用这些数据在 Julia 中运行计算是否可以在 Julia 中调用该函数并返回其结果或者我最好直接导出到 CSV 并以这种方式加载数据绝对地看PyCall jl https gith
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
rpy2 无法加载外部库

希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包该包以 rJava 作为依赖项 venneuler 和 rJa
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
如何使用 python 定位和读取 Data Matrix 代码

我正在尝试读取微管底部的数据矩阵条形码我试过libdmtx http libdmtx sourceforge net 它有 python 绑定当矩阵的点是方形时工作得相当好但当矩阵的点是圆形时工作得更糟如下所示另一个复杂问题是在某
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

我可以拥有在单个 js 文件中发出 Angular 元素的 Angular 库吗？

我开始接触 Angular 6 位并且对 Angular Elements 以及新的库项目非常感兴趣我即将开展一个项目可能需要这两个新功能我需要创建可跨 Web 框架重用的自定义 UI 组件但我也希望获得在 Angular 项目中
忽略版本控制上的文件夹元文件

Unity 创建和删除元文件folders在资源文件夹内在使用版本控制时这可能会产生令人烦恼的情况您可以跳过并转到问题有人创建了一个将被忽略的文件文件夹但忘记忽略该文件夹的元文件 Unity 创建元文件此人将元添加到版本控制中
Android 获取设备区域设置

安装 Android 程序后我检查设备区域设置 String deviceLocale Locale getDefault getLanguage 如果 deviceLocale 在我支持的语言英语法语德语内我不会更改区域设置
如何在 where 子句中使用别名？

我试图在多列文本和备忘录中搜索我不想看到的某些短语和黑名单短语假设如下表 stories id title author publisher content 前任我想找到所有提到在任何领域苹果但将苹果酱列入黑名单的故事 SEL
Apple Silicon 上的 ARCHFLAGS 值正确吗？

在我以前的基于 Intel 的 Mac 上我曾经包含 export ARCHFLAGS arch x86 64 在我的 shell 资源文件中新的基于 ARM 的 Apple 芯片上的正确编译标志是什么 arm arm64 arm 64
WPF：OnCollectionChanged 未触发

使用 VS 2102 NET 4 0 和 MVVM Light 我有以下代码可将 XML 文件中的项目读取到 ObservableCollection 中然后如果集合发生更改使用 IsDirty 标志但 OnCodeCollect
如何将 pandas 列的值除以其他列

我有一个数据框 gt gt gt dt COL000 COL001 QT STK ID RPT Date STK000 20120331 2 6151 2 1467 1 20120630 4 0589 2 3442 2 20120930 4
如何从 django 选择字段中的值检索键？

示例代码如下 REFUND STATUS S SUCCESS F FAIL refund status models CharField max length 3 choices REFUND STATUS 我知道在模型中我可以使用 get
GitHub：是否可以搜索内部代码并按星号排序

我不确定这是否是解决这个问题的正确论坛在 GitHub 上看到不少与搜索相关的 Q A 故在此发帖例如在 Github 项目中搜索代码 https stackoverflow com q 3616221 781695 GitHub 高
带有 Swift 和 iOS 8 Storyboard 的登录屏幕

我在处理 iOS 应用程序的登录流程时遇到了很多麻烦我想要实现的故事板的图像如下我正在尝试实现一个可选的登录屏幕仅当用户首次打开应用程序且尚未登录时才会显示该屏幕目前我将选项卡栏控制器设置为根视图控制器然而我不知道如何处理这些
添加CSS边框改变HTML5网页中的定位

当我在 HTML 5 文档中添加边框时我遇到了页面元素移动的问题我期望包含标题元素灰色出现在屏幕顶部但它似乎占用了内部 div 红色的边距但是如果我向标题添加边框它就会出现在我期望的位置并且红色内部 div 只会稍微移动
sap.ui.core.routing.Router.navTo() 和 sap.m.routing.Targets.display() 有什么区别？

假设我们有一条路线和一个目标 routes pattern modify name modify target master modify targets modify viewName Modify viewId modify viewL
在ansible模板中生成元组变量

我正在尝试设置一个剧本来部署 influxdb 集群一切正常除了我们使用INfluxDB集群客户端 http influxdb python readthedocs org en latest api documentation htm
PySpark - 从 Numpy 矩阵创建 DataFrame

我有一个 numpy 矩阵 arr np array 2 3 2 8 2 3 4 5 我需要创建一个 PySpark Dataframearr 我无法手动输入值因为长度值arr将动态变化所以我需要转换arr进入数据框我尝试了以下代码
decltype 中的表达式是被执行，还是只是被检查以进行验证？ [复制]

这个问题在这里已经有答案了通过使用表达SFINAE https stackoverflow com questions 12654067 what is expression sfinae 你可以检测是否有一些operator https
使用 nvidia-docker-compose 启动一个容器，但很快就退出了

My docker compose yml file version 2 services zl image zl caffe torch gpu 12 27 ports 8801 8888 6001 6008 devices dev nv
通过 Cursor.getSystemCustomCursor 可以使用哪些游标？

java awt Cursor有一个方法getSystemCustomCursor String name http docs oracle com javase 8 docs api java awt Cursor html getSys
在 R 中定义一个矩阵并将其传递给 C++

我有一个在 R 中定义的矩阵我需要将该矩阵传递给 C 函数并在 C 中执行操作示例在 R 中定义一个矩阵 A lt matrix c 9 3 1 6 2 2 byrow T PROTECT A AS NUMERIC A double
是否有可能破解 128 位密钥？

我是一名程序员对密码学相对较新所以请原谅我的菜鸟问题假设我们有一条消息既采用纯文本格式又使用 128 位密钥加密理论上有可能找到关键吗如果是的话我们谈论的计算时间是多少 Thanks 是的这是一个所需时间的问题使用暴力
使用 BeautifulSoup 抓取 Instagram

我正在尝试从 Instagram 中的按标签搜索获取特定字符串我想从这里获取 url img img alt

使用 BeautifulSoup 抓取 Instagram

使用 BeautifulSoup 抓取 Instagram 的相关文章

随机推荐

热门标签