从网站获取html源代码，然后从html文件中获取元素

2024-03-21

我想获取网站的 HTML 代码，然后从该 HTML 文件中获取某个元素。

有些东西可以获取 HTML 代码，例如 ajax 和 jquery。我正在使用节点并希望它是完整的JavaScript。另外，我不知道如何从中获取某个元素。

我已经在 python 中完成了此操作，但我需要在 javascript 中完成此操作。为了简单起见。我们以网站为例——https://example.com https://example.com。这是网站 HTML 代码的主体。

<body>
<div>
    #Some Stuff 
</div>
</body>

我想要获得 div 类，让我们来吧<div> to be <div class="test">让事情变得更容易。

最后，我想得到-的内容<div class="test">

像这样-

<div class="test">
    #Some Stuff 
</div>

提前致谢

对于 Node.js 有两个本机获取模块：http and https。如果您想使用 Node.js 应用程序进行抓取，那么您可能应该使用https，获取页面的 html，用 html 解析器解析它，我推荐cheerio。这是一个例子：

// native Node.js module
const https = require('https')
// don't forget to `npm install cheerio` to get the parser!
const cheerio = require('cheerio')

// custom fetch for Node.js
const fetch = (method, url, payload=undefined) => new Promise((resolve, reject) => {
    https.get(
        url,
        res => {
            const dataBuffers = []
            res.on('data', data => dataBuffers.push(data.toString('utf8')))
            res.on('end', () => resolve(dataBuffers.join('')))
        }
    ).on('error', reject)
})

const scrapeHtml = url => new Promise((resolve, reject) =>{
  fetch('GET', url)
  .then(html => {
    const cheerioPage = cheerio.load(html)
    // cheerioPage is now a loaded html parser with a similar interface to jQuery
    // FOR EXAMPLE, to find a table with the id productData, you would do this:
    const productTable = cheerioPage('table .productData')

    // then you would need to reload the element into cheerio again to
    // perform more jQuery like searches on it:
    const cheerioProductTable = cheerio.load(productTable)
    const productRows = cheerioProductTable('tr')

    // now we have a reference to every row in the table, the object
    // returned from a cheerio search is array-like, but native JS functions
    // such as .map don't work on it, so we need to do a manually calibrated loop:
    let i = 0
    let cheerioProdRow, prodRowText
    const productsTextData = []
    while(i < productRows.length) {
      cheerioProdRow = cheerio.load(productRows[i])
      prodRowText = cheerioProdRow.text().trim()
      productsTextData.push(prodRowText)
      i++
    }
    resolve(productsTextData)
  })
  .catch(reject)
})

scrapeHtml(/*URL TO SCRAPE HERE*/)
.then(data => {
  // expect the data returned to be an array of text from each 
  // row in the table from the html we loaded. Now we can do whatever
  // else you want with the scraped data. 
  console.log('data: ', data)
})
.catch(err => console.log('err: ', err)

快乐刮擦！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

html

从网站获取html源代码，然后从html文件中获取元素的相关文章

jQuery 选择器定位具有 id AND class 的元素不起作用

我有以下事件处理函数 jQuery document on click button submitb function e alert jQuery 包含在 html 文档中但是如果我点击 div class submitb Go di
修剪日期格式 PrimeNG 日历 - 删除时间戳、角度反应形式

我将以下内容推入我的反应形式 obj 中2016 01 01T00 00 00 000Z但我想要以下2016 01 01 有谁知道有一个内置函数可以实现上述目的我已经搜索过文档here https www primefaces org p
如何避免 TypeScript 中出现虚假的“未使用参数”警告

我遇到过很多次这种情况最后决定弄清楚正确的方法是什么如果我有一个声明方法的抽象父类然后一些具体子类在其实现中实现真正的逻辑并且显然使用方法参数但某些子类不需要在该方法中执行任何操作因此不要使用方法参数那些不必执行任何操作的方法
Next.js：如何将 source-map-explorer 与 Next.js 一起使用

我想分析我的 Next js 构建源地图浏览器 https www npmjs com package source map explorer 有人可以帮我编写脚本吗对于 React CRA 我使用以下脚本 build analyze n
创建 html 结构，每个 li 中仅允许 3 个 div 元素。在 React + underscore.js 中

这是以下内容的位副本如何创建每个 li 中仅允许 3 个 div 元素的 html 结构在 React underscore js 中 https stackoverflow com questions 38008023 how to c
Browserify：如果需要，使用 module.exports，否则暴露全局

我正在考虑采用浏览器化 http browserify org 对于我的一些项目但想确保其他人如果想使用捆绑的代码就不必使用 browserify 执行此操作的明显方法是通过以下方式公开模块导出module exports以及通过一个
将字符串转换为正确的 URI 格式？

有没有简单的方法可以将电子邮件地址字符串转换为正确的 URI 格式 Input http mywebsite com validate email 3DE4ED727750215D957F8A1E4B117C38E7250C33 email
如何更改元素的 CSS 类并在单击时删除所有其他类

我如何处理 AngularJS 2 中的一种情况即单击一个元素需要更改其自己的样式并且如果其他元素具有该样式则需要将其删除最好在一个函数中如同Angular js 如何在单击时更改元素 css 类并删除所有其他元素 https s
如何动态隐藏和显示html元素

html 输入元素使用链接标记隐藏和显示示例雅虎邮件密件抄送隐藏和显示这是用 JavaScript 完成的对于简单的 Javascript 即不使用jQuery你可以这样做 document getElementById idOfE
Facebook API Javascript JSON 响应

function getUser FB api me function response console log Response is response alert Your name is response first name ale
如何显示 GroupList 的 FormArray？

我正在尝试制作一个交互式表单在每一行上列出一个项目以及一个删除按钮在我的示例中称为 verwijderen 这些项目是从数据库中检索的并且每个项目都实例化为名为的自定义对象LaborPeriod 然后这些对象被转化为FormGroup
CSS 动画自定义属性/变量

一段时间以来我一直在努力让它发挥作用关键是内部 div 将具有某种形状并且可能会不止一个这就是为什么我使用nth child选择器这个内部 div 应该显示然后再次隐藏一段时间问题是我想在一个动画中为所有后来的多个内部 di
如何使用 Jquery .animate() 函数创建连续滚动内容？ [复制]

这个问题在这里已经有答案了可能的重复在jquery中实现圆形滚动条 https stackoverflow com questions 812049 implementing circular scroller in jquery 我想
在React组件中使用的字符串变量中插入html

我正在为我的投资组合网站构建一个反应应用程序目前我已经用 JSX 编写了应用程序因此我可以添加以下内容 class Project extends React Component render return div h1 this pr
Babel/RequireJS + typeof“RangeError：超出最大调用堆栈大小”

我有一个非常基本的 JS 错误我很羞愧无法解决它我正在使用 ES6 和 Babel 进行开发并且正在做一些实验请注意我在 Babel 中使用了这些参数 presets es2015 plugins transform es2015
JavaScript 正则表达式两个标签之间的多行文本

我编写了一个正则表达式来从 HTML 中获取字符串但似乎多行标志不起作用这是我的模式我想将文本输入h1 tag var pattern div class box content 5 h1 lt lt h1 gt mi m html
iframe 主体删除空间

我的 iframe 风格为style width 100 几乎覆盖了页面宽度但它在左侧和右侧留下了一个小边距所以我添加了body margin 0px 删除空间它有效但问题是删除边距影响其他事物例如段落 p inside 有没有办
优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS
我如何用 javascript/jquery 进行两指拖动？

我正在尝试创建当有两个手指放在 div 上时拖动 div 的功能我已将 div 绑定到 touchstart 和 touchmove 事件我只是不确定如何编写这些函数就像是if event originalEvent targetTo
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每

随机推荐

如何解析MICR线数据？

我有一台数字支票扫描仪能够从支票中捕获 MICR 线它将以字符串形式返回原始格式的 MICR 行并使用分隔符分隔帐号路由号码和支票号码然而每个银行对该 MICR 行的格式都不同因此没有标准的方法来解析该数据我尝试过的一些公司
Pandas 更新多索引数据框中的值

如何编辑多索引数据框的值如果它是一个非多索引数据框我知道我可以这样做 df at 0 foo 12 3 另外这不起作用 df loc 0 foo a 12 3 考虑一个多索引列数据框 colnames foo foo foo po p
启动 spring web mvc 应用程序时出现异常

当我使用 spring 3 2 9 时我的 spring 项目工作正常但如果我将其更改为 4 1 4 则在启动应用程序时会出现以下异常
使用 C# 向 GMail 发送 IMAP 命令

我一直在尝试访问我的 GMail 帐户以从我的电子邮件帐户中检索未读电子邮件但是我只执行登录之后的任何操作都不起作用首先我连接到服务器然后发送登录命令最后发送检查命令问题是收到的响应仅涉及连接和登录之后它就停止等待从 S
通用保存方法

在我的通用存储库中我需要编写通用 Save 方法该方法将根据 id 编辑现有实体或添加新实体 public void Save
Docker：更改存储 docker 卷的文件夹

On my Ubuntu EC2我使用 docker 容器托管一个应用程序 db数据和upload数据存储在卷中CaseBook data db and CaseBook data uploads这是使用以下命令创建的 docker vol
EFcore 中“FromSql”操作的结果中不存在所需的列“id”

我有一个大问题FromSql就是这样我有一个这样的模型 public partial class model public string name 我想从数据库 sql server 中的过程中获得一些结果当我执行下面的代码时 var
Android 中的处理程序和内存泄漏

请看下面的代码 public class MyGridFragment extends Fragment Handler myhandler new Handler Override public void handleMessage Me
将一个静态共享库链接到我的共享库

我在链接我当前正在从事的项目的一些选项方面遇到了一些困难我正在尝试创建一个与其他 2 个库链接的共享库我们称他们为libfoo so and libbar so 我的输出库必须是共享库并且我想要静态链接libfoo so到生成的库但
无需 Visual Studio 即可部署到 Azure WebRole

有没有一种方法可以将我的整个网站 Web 应用程序部署到 Azure WebRole 而不需要 Visual Studio Context IIS 网络部署 http www iis net downloads microsoft web
如何在React Native中以redux形式设置隐藏字段？

如何在React Native中以redux形式设置隐藏字段我只是找不到任何方法来做到这一点有什么帮助吗我结束使用这个 this props dispatch change FORM NAME FIELD NAME VALUE 运行此
为什么这个图在添加散点时失败，但在删除散点时却有效？

我正在使用以下内容来绘制 x 日期和 y 小数如果没有注释行散点它的效果很好但是如果您取消注释它它会在一个 x 轴上显示所有内容我缺少什么 thanks import matplotlib pyplot as plt impor
使用 TypeScript 实现流畅的 API？

我正在尝试用 TypeScript 开发一个流畅的 api 我想使用它如下所示 export interface Person firstName string lastName string new Builder
您如何比较今年和去年同一周的同一天？

大多数零售商在销售报告中使用商品日历这可以帮助他们找到当年和上一年同一周的同一天例如今天是 2016 10 10 星期一上一年 2015 年同一周星期一是 2015 年 10 月 12 日我们如何通过 SQL 查询捕获这一点并将它
分页库和房间具有不同的 PagedLists，取决于不同的请求

我正在尝试使用新的 Android 架构组件设置所有列表房间持久性库 https developer android com topic libraries architecture room html and 分页库 https dev
如何使用批处理文件构建解决方案

我想使用批处理文件构建 NET 解决方案我知道我需要使用以下语句 devenv build release D Source Code Source test sln 但我不知道如何创建将在 VS 命令提示符下执行的批处理文件 Visua
.Net 的 RSS/Atom 解析库

我正在尝试找到一个可以读取给定 RSS Atom 提要的库并且可以猜测其格式并将其抽象为项目列表这个想法是构建一个可以接收任何提要的简单 RSS 阅读器我知道 PHP 有一些库可以做到这一点但我找不到任何 Net 版本如果您使用的
仅获取未隐藏的元素.. Jquery

我只需要获取 jquery foreach 循环中的 show 元素在下面的代码中我得到了所有带有类测试的元素即隐藏和显示的元素但只需要显示而不是隐藏一个如何过滤并在这一行本身中获取它 element find test each
将 Symfony 翻译传递给 Symfony Webpack Encore

对于 Symfony 我使用翻译 https symfony com doc current components translation html 树枝和Webpack 再来一次 https symfony com doc current
从网站获取html源代码，然后从html文件中获取元素

我想获取网站的 HTML 代码然后从该 HTML 文件中获取某个元素有些东西可以获取 HTML 代码例如 ajax 和 jquery 我正在使用节点并希望它是完整的JavaScript 另外我不知道如何从中获取某个元素我已经在 p

从网站获取html源代码，然后从html文件中获取元素

从网站获取html源代码，然后从html文件中获取元素 的相关文章

随机推荐

热门标签

从网站获取html源代码，然后从html文件中获取元素的相关文章