通过抓取信息创建新列

2023-12-07

我正在尝试将从网站上抓取的信息添加到列中。我有一个数据集，如下所示：

COL1   COL2    COL3
...     ...    bbc.co.uk

我想要一个包含新列的数据集：

 COL1   COL2    COL3          Website Address   Last Analysis   Blacklist Status \  
...     ...    bbc.co.uk

IP Address  Server Location    City       Region

这些新专栏来自该网站：https://www.urlvoid.com/scan/bbc.co.uk。我需要在每一列中填写相关信息。

例如：

  COL1   COL2    COL3          Website Address   Last Analysis   Blacklist Status \  
...     ...    bbc.co.uk         Bbc.co.uk         9 days ago       0/35

Domain Registration               IP Address       Server Location    City       Region
1996-08-01 | 24 years ago       151.101.64.81    (US) United States   Unknown    Unknown

不幸的是，我在创建新专栏并用从网站上抓取的信息填充它们时遇到了一些问题。我可能还有更多网站要检查，不仅仅是 bbc.co.uk。请参阅下面使用的代码。我确信有更好的（并且不那么混乱）的方法来做到这一点。如果您能帮我解决问题，我将非常感激。谢谢

EDIT:

如上例所示，对于已经存在的数据集，包括三列（col1, col2 and col3）我还应该添加来自抓取的字段（Website Address,Last Analysis,Blacklist Status, ...）。对于每个 url，我应该有与其相关的信息（例如bbc.co.uk在示例中）。

 COL1   COL2    COL3          Website Address   Last Analysis   Blacklist Status \  
...     ...    bbc.co.uk          Bbc.co.uk         9 days ago       0/35
...     ...    stackoverflow.com
...     ...    ...


IP Address  Server Location    City       Region
  COL1   COL2    COL3          Website Address   Last Analysis   Blacklist Status \  
...     ...    bbc.co.uk         Bbc.co.uk         9 days ago       0/35
...     ...    stackoverflow.com Stackoverflow.com  7 days ago      0/35


Domain Registration               IP Address       Server Location    ...
996-08-01 | 24 years ago       151.101.64.81    (US) United States    ...
2003-12-26 | 17 years ago      ...

（格式不好，但我认为这足以让您了解预期的输出）。

更新的代码：

urls= ['bbc.co.uk', 'stackoverflow.com', ...]

for x in urls:
        print(x)
        r = requests.get('https://www.urlvoid.com/scan/'+x)
        soup = BeautifulSoup(r.content, 'lxml')
        tab = soup.select("table.table.table-custom.table-striped")
        dat = tab[0].select('tr')
        for d in dat:
                row = d.select('td')
                original_dataset[row[0].text]=row[1].text

不幸的是，我做错了一些事情，因为它仅将网站（即 bbc.co.uk）上检查的第一个网址中的信息复制到新列下的所有行上。

让我知道这是否是您正在寻找的：

cols = ['Col1','Col2']
rows = ['something','something else']
my_df= pd.DataFrame(rows,index=cols).transpose()
my_df

从这一行获取现有代码：

dat = tab[0].select('tr')

add:

for d in dat:
    row = d.select('td')
    my_df[row[0].text]=row[1].text
my_df

输出（抱歉格式问题）：

    Col1       Col2       Website Address   Last Analysis   Blacklist Status    Domain Registration     Domain Information  IP Address  Reverse DNS     ASN     Server Location     Latitude\Longitude  City    Region
0   something   something else  Bbc.com     11 days ago  |  Rescan  0/35    1989-07-15 | 31 years ago   WHOIS Lookup | DNS Records | Ping   151.101.192.81   Find Websites  |  IPVoid  |  ...   Unknown     AS54113 FASTLY  (US) United States  37.751 / -97.822   Google Map   Unknown     Unknown

Edit:

要使用多个 url 来执行此操作，请尝试如下操作：

urls = ['bbc.com', 'stackoverflow.com']
ares = []
for u in urls:
    url = 'https://www.urlvoid.com/scan/'+u
    r = requests.get(url)
    ares.append(r)
rows = []
cols = []
for ar in ares:
    soup = bs(ar.content, 'lxml')
    tab = soup.select("table.table.table-custom.table-striped")        
    dat = tab[0].select('tr')
    line= []
    header=[]
    for d in dat:
        row = d.select('td')
        line.append(row[1].text)
        new_header = row[0].text
        if not new_header in cols:
            cols.append(new_header)

    rows.append(line)

my_df = pd.DataFrame(rows,columns=cols)   
my_df

Output:

Website Address     Last Analysis   Blacklist Status    Domain Registration     Domain Information  IP Address  Reverse DNS     ASN     Server Location     Latitude\Longitude  City    Region
0   Bbc.com     12 days ago  |  Rescan  0/35    1989-07-15 | 31 years ago   WHOIS Lookup | DNS Records | Ping   151.101.192.81   Find Websites  |  IPVoid  |  ...   Unknown     AS54113 FASTLY  (US) United States  37.751 / -97.822   Google Map   Unknown     Unknown
1   Stackoverflow.com   5 minutes ago  |  Rescan    0/35    2003-12-26 | 17 years ago   WHOIS Lookup | DNS Records | Ping   151.101.1.69   Find Websites  |  IPVoid  |  Whois   Unknown     AS54113 FASTLY  (US) United States  37.751 / -97.822   Google Map   Unknown     Unknown

请注意，这没有您现有的两个列（因为我不知道它们是什么），因此您必须将它们单独附加到数据框。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过抓取信息创建新列的相关文章

如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
AttributeError：“模块”对象没有属性[重复]

这个问题在这里已经有答案了我有两个 python 模块 a py import b def hello print hello print a py print hello print b hi b py import a def hi
如何使用 Rrank() 函数创建新的ties.method？ [复制]

这个问题在这里已经有答案了我试图按人口和日期排序这个数据框所以我使用order and rank 功能 gt df lt data frame idgeoville c 5 8 4 3 4 5 8 8 date c rep 1950 4
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
Airflow 1.9 - 无法将日志写入 s3

我在 aws 的 kubernetes 中运行气流 1 9 我希望将日志发送到 s3 因为气流容器本身的寿命并不长我已经阅读了描述该过程的各种线程和文档但我仍然无法让它工作首先是一个测试向我证明 s3 配置和权限是有效的这是在我们
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

gapi 帐户数据 url 变为 404

有谁知道 GAPI 1 3 1 类使用的新帐户数据 url 目前的一个是 https www google com analytics feeds accounts default但它会转到 404 Regards 转到 https cod
使用元素将 xml 加载到 mysql 表中

我正在尝试在表中加载 xml 文件问题在于 XML 元素与其数据一起插入到表中这是表字段节目名程序地址目录名称最近更新时间姓名关键词描述存货单元制造商制造商编号统一产品代码货币价格购买网址印象网址图片网址
C# NetSuite WebServices：从保存的搜索中的自定义字段获取值 (ItemSearchAdvanced)

我正在使用 C MVC 通过其 WebServices API 连接到 NetSuite 我有一些当前的代码可以调用已保存的库存项目搜索这是当前运行完美的代码 ItemSearchAdvanced searchItems new Ite
Firebase firestore 查询：“错误：9 FAILED_PRECONDITION：查询需要索引。您可以在此处创建它”

我有一个我认为是对名为电子邮件的集合的简单查询 const emailQuery admin firestore collection email where sendAt gt new Date where orderId doc o
在 SQL Server 2014 中使用 sp_send_dbmail 出现一般失败

我正在尝试使用sp send dbmail通过 SQL Server 2014 中的 SQLAgent 作业发送查询结果我相信我的 DBMail 配置文件设置正确但运行此命令时 exec msdb dbo sp send dbmail
如何合并两个 csv 文件中的所有内容，其中记录与 1 列匹配

我有两个 csv 文件他们都有SamAccountName共同点用户记录可能会也可能不会为两个文件之间的每条记录找到匹配项这一点非常重要我基本上试图将所有列及其值合并到一个文件中基于第一个文件中找到的 SamAccountNa
Miniconda 无法激活虚拟环境

当我在 Windows 8 上的 Miniconda 中创建虚拟环境并在 PowerShell 中激活它 activate env 时它说该环境正在被激活但是在输入 conda env list 时它显示我仍然在根环境我检查了 Mi
Javascript如何合并数组以使两个数组中原始元素的索引保持相同

如何在JS中合并数组以使两个数组中原始元素的索引保持相同看来扩展数组没有满足我的需要 let testArray Array
moment js 返回 iso 时间戳的错误格式值

我路过 2018 01 31T22 55 02 907Z 这个时间戳到moment 函数但在格式化日期部分后返回错误的值 console log moment 2018 01 31T22 55 02 907Z format YYYY MM
jQuery.load()，混合 HTTP/HTTPS 和 Internet Explorer

我正在尝试使用以下命令加载远程 HTML 页面jQuery load https someurl com someClass 执行加载的页面位于 HTTPS 上远程页面可用作 HTTP 和 HTTPS 在合理的浏览器中一切正常但 IE
vb.net SQL 查询在 SQL Server 中有效，但从复选框调用时无效

我有一个带有复选框的数据网格它调用一个名为 checkbox CheckedChanged 的例程到目前为止一切都很好我已经设法让它计算出数据视图中另一列的值这使我能够确定正在处理的行的 id 我试图让它更改定义复选框初始值的列
Javascript 自执行应该可以工作吗？

我有这个代码 function i alert i 3 它不起作用所以在 StackOverFlow 问题之后我将其更改为 function i alert i 3 它有效我不得不 wrap所有代码但后来我在其他网站上看到了这段代码
FileSystemWatcher 一段时间后不会触发

我有以下代码用于监视目录中的文本文件该目录每天两次获取新文件代码在一段时间内工作正常但之后它停止触发 OnCreated 事件 PermissionSet SecurityAction Demand Name FullTrust p
elmah 错误处理 - 存储在数据库中

如何让 ELMAH 将缓存的错误存储在我的数据库中有人已经实施了吗如果是请指导我如何一步一步地做到这一点谢谢以下文章介绍了如何配置 ELMAH 以登录到 SQL Server 数据库 http www codeproject co
TypeScript：接口多态问题

我有一个基地Account界面 interface Account id number email string password string type AccountType where 帐户类型 enum AccountType Fo
如何将 OO Perl 转换为 Java？

我继承了庞大的 OO Perl 代码需要逐渐转换为 Java 根据客户端请求我懂两种语言但对 Perl 技能却很生疏你们有没有可以推荐的工具 Eclipse 插件来减轻痛苦 OO 代码使用 Moose 吗如果是则可以使用内省自
mysqlclient 构建轮子失败

我下载了wheel到最新版本但我不完全确定如何理解这个半神秘的错误消息 Failed building wheel for mysql python Command Users username Desktop Project venv
php curl：我需要一个简单的发布请求和页面示例检索

我想知道如何在curl中发送post请求并获取响应页面像这样的事情怎么样 ch curl init curlConfig array CURLOPT URL gt http www example com yourscript php C
如何获取有关 SQLite 中外键的信息？

sqlite master 表似乎缺少信息我如何获得有关我的表的一些额外信息例如约束信息等有什么例子吗或者是否有一些我从未听说过的有用的图书馆 Use PRAGMA foreign key list table 它返回表的外键然后
通过抓取信息创建新列

我正在尝试将从网站上抓取的信息添加到列中我有一个数据集如下所示 COL1 COL2 COL3 bbc co uk 我想要一个包含新列的数据集 COL1 COL2 COL3 Website Address Last Analysis Bl

通过抓取信息创建新列

通过抓取信息创建新列 的相关文章

随机推荐

热门标签

通过抓取信息创建新列的相关文章