如何在标题中仅保留唯一值并在不同行中获取与这些值相对应的值？

2024-03-18

我有一个链接，在该链接中我有一些产品。每个产品中都有一个规格表。该表的第一列应为标题，第二列应为与其对应的数据。每个表的第一列都不同，有一些重叠的类别。我想要一张大表，其中包含所有这些类别，并且按行排列不同的产品。我能够获取一张表（一种产品）的数据，如下所示：

import requests
import csv
from bs4 import BeautifulSoup 
def cpap_spider(max_pages):
    page=1
    while page<=max_pages:
        url= "https://www.1800cpap.com/cpap-masks/nasal?page=" +str(page)
        source_code= requests.get(url)
        plain_text= source_code.text
        soup= BeautifulSoup(plain_text, 'html.parser')
        for link in soup.findAll("a", {"class":"facets-item-cell-grid-title"}):
            
            href="https://www.1800cpap.com"+link.get("href")
            title= link.string
            each_item(href)
            print(href)
            #print(title)
        page+=1
        
data=[] 
def each_item(item_url):
    source_code= requests.get(item_url)
    plain_text= source_code.text
    soup= BeautifulSoup(plain_text, 'html.parser')
    table=soup.find("table", {"class":"table"})
    
    table_rows= table.find_all('tr')
    for row in table_rows:
        cols = row.find_all('td')
        cols = [ele.text.strip() for ele in cols]
        data.append([ele for ele in cols if ele]) # Get rid of empty values
    b = open('all_appended.csv', 'w')
    a = csv.writer(b)
    a.writerows(data)
    b.close()
    
    
            
cpap_spider(1)

此代码将所有表一个接一个地附加。但是，我想要一个大表，其第一行具有唯一的标题，并且按顺序排列相应的产品值。

Use xlsxwriter代替csv因为如果文本包含一个逗号，旁边没有空格","而不是逗号旁边有空格", "那么您的 csv 文件将导致问题，因为每个列值都由","例如如果text = "aa,bb"那么 csv 会认为这个文本包含两列，例如"aa" and "bb".

这就是你需要的

import requests
import xlsxwriter
from bs4 import BeautifulSoup 
def cpap_spider(max_pages):
    global row_i
    page=1
    while page<=max_pages:
        url= "https://www.1800cpap.com/cpap-masks/nasal?page=" +str(page)
        source_code= requests.get(url)
        plain_text= source_code.text
        soup= BeautifulSoup(plain_text, 'html.parser')
        for link in soup.findAll("a", {"class":"facets-item-cell-grid-title"}):
            href="https://www.1800cpap.com"+link.get("href")
            title = link.string
            worksheet.write(row_i, 0, title)
            each_item(href)
            print(href)
            #print(title)
        page+=1

def each_item(item_url):
    global cols_names, row_i
    source_code= requests.get(item_url)
    plain_text= source_code.text
    soup= BeautifulSoup(plain_text, 'html.parser')
    table=soup.find("table", {"class":"table"})
    if table:
        table_rows = table.find_all('tr')
    else:
        return
    for row in table_rows:
      cols = row.find_all('td')
      for ele in range(0,len(cols)):
        temp = cols[ele].text.strip()
        if temp:
          # Here if you want then you can remove unwanted characters like : ? from temp
          # For example "Actual Weight" and ""
          if temp[-1:] == ":":
            temp = temp[:-1]
          # Name of column
          if ele == 0:
            try:
              cols_names_i = cols_names.index(temp)
            except:
              cols_names.append(temp)
              cols_names_i = len(cols_names) -  1
              worksheet.write(0, cols_names_i + 1, temp)
              continue;
          worksheet.write(row_i, cols_names_i + 1, temp)      
    row_i += 1
    
cols_names=[]
cols_names_i = 0
row_i = 1
workbook = xlsxwriter.Workbook('all_appended.xlsx')
worksheet = workbook.add_worksheet()
worksheet.write(0, 0, "Title")
    
cpap_spider(1)
#each_item("https://www.1800cpap.com/viva-nasal-cpap-mask-by-3b-medical")       
workbook.close()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

如何在标题中仅保留唯一值并在不同行中获取与这些值相对应的值？的相关文章

在 python 的 Visual Studio 工具中按下 ctrl+F5 后，控制台窗口立即关闭

我已经安装了 Visual Studio 的 Python 工具但在控制台窗口中看不到输出就像我在 Visual Studio 中运行 C 控制台应用程序时按以下快捷键时看到的输出一样 F5 开始调试程序并关闭 C 和 Python 中
OpenCV 错误：使用 COLOR_BGR2GRAY 函数时断言失败

我在使用 opencv 时遇到了一个奇怪的问题我在 jupyter 笔记本中工作时没有任何问题但在尝试运行此 Sublime 时却出现问题错误是 OpenCV错误 cvtColor中断言失败深度 CV 8U 深度 CV 16U 深度
根据 pandas 中的条件交换列值

我想按条件重新定位列如果国家地区是日本我需要将姓氏和名字反向重新定位 df pd DataFrame France Kylian Mbappe Japan Hiroyuki Tajima Japan Shiji Kagawa Eng
如何在groupby之后将pandas数据框拆分为许多列

我希望能够在 pandas 中使用 groupby 按列对数据进行分组然后将其拆分以便每个组都是数据框中自己的列 e g time data 0 1 2 0 1 2 3 0 2 3 4 0 3 1 2 1 4 2 3 1 5 3 4 1
如何有条件地组合两个相同形状的 numpy 数组

这听起来很简单但我想我把它想得太复杂了我想创建一个数组其元素是从两个形状相同的源数组生成的具体取决于源数组中哪个元素更大为了显示 import numpy as np array1 np array 2 3 0 array2 np
如何用spaCy获取依赖树？

我一直在尝试寻找如何使用 spaCy 获取依赖树但我找不到任何有关如何获取树的信息只能在如何导航树 https spacy io usage examples subtrees 如果有人想轻松查看 spacy 生成的依赖关系树一种解决
对打开文件的脚本进行单元测试

我编写了一个脚本它打开一个文件读取内容并进行一些操作和计算并将它们存储在集合和字典中我该如何为这样的事情编写单元测试我的问题具体是我会测试文件是否打开文件很大这是unix字典文件我如何对计算进行单元测试我真的必须手动计算
无法将较大的 blob 上传到 Azure：azure.core.exceptions.ServiceRequestError：操作未完成（写入）(_ssl.c:2317)

我正在尝试使用 Python SDK 将一些较大的 blob gt 50MB 上传到我的 Azure 存储容器 connect str os environ AZURE STORAGE CONNECTION STRING blob serv
为 PyCharm 中的所有配置设置相同的环境变量

我有一个与 Celery 和很多不同的工作人员一起的项目如何避免每次将 PyCharm 中的环境变量复制粘贴到每个运行调试配置有什么方法可以在项目设置中设置它们吗找到解决方案here https stackoverflow com
一起使用 Argparse 和 Json

我是 Python 初学者我想知道 Argparse 和 JSON 是否可以一起使用说我有变量p q r 我可以将它们添加到 argparse 中 parser add argument p param1 help x variabl
使用reduce方法的斐波那契数列

于是我看到有人用reduce方法来计算斐波那契数列这是他的想法 1 0 1 1 2 1 3 2 5 3 对应于 1 1 2 3 5 8 13 21 代码如下所示 def fib reduce n initial 1 0 dummy ra
Pandas，按最大返回值进行分组 AssertionError：

熊猫有问题我想听听你的意见我有这个数据框我需要在其中获取最大值代码就在下面 df stack pd DataFrame 1 0 2016 0 NonResidential Hotel 98101 0 DOWNTOWN 47 6122
如何在python中递归复制目录并覆盖全部？

我正在尝试复制 home myUser dir1 及其所有内容及其内容等 home myuser dir2 在Python中此外我希望副本覆盖中的所有内容dir2 It looks like distutils dir util co
如何将reportlab与Google应用程序引擎一起使用

我无法在谷歌应用程序引擎下正确导入reportlab 根据以下guide http blog notdot net 2010 04 Generating PDFs on App Engine Python and introducing M
Docker 日志中的 Python 异常标记为流：stdout

我想解析和处理来自 docker 容器的所有错误但当我期望 stderr 时 Python 异常标记为 stdout 举个简单的例子app py raise Exception 然后我在 docker 容器中运行这个文件但在 var l
与函数复合 UniqueConstraint

一个快速的 SQLAlchemy 问题我有一个文档类其属性为数字和日期我需要确保没有重复的号码同年是有没有办法对数字年份日期进行UniqueConstraint 我应该使用唯一索引吗我如何声明功能部分 SQLA
Python：如何从文件中的一行读取字符并将它们转换为浮点数和字符串，具体取决于它们是数字还是字母？

我有一个如下所示的文件 1 1 C C 1 9873 2 347 3 88776 1 2 C Si 4 887 9 009 1 21 我想逐行读取文件的内容当我使用的行上只有数字时 for line in readlines file d
dask allocate() 或 apply() 中的变量列名

我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column
本地设置的 Cython 编译器指令是否影响一个或所有函数？

我正在努力使用 Cython 加速一些 Python Numpy 代码并且对本地设置如定义的here http docs cython org en latest src reference compilation html在文档中
将数组从 .npy 文件读入 Fortran 90

我使用 Python 以二维数组例如 X 的形式生成一些初始数据然后使用 Fortran 对它们进行一些计算最初当数组大小约为 10 000 x 10 000 时 np savetxt 在速度方面表现良好但是一旦我开始增加数组的维

随机推荐

Cythonized 函数出乎意料地慢

我想加快我经常使用的功能并且我考虑使用 cython 然而在尝试了我在文档中找到的所有可能的 cython 优化之后 cython 代码比 python numpy 函数慢大约 6 倍令人失望这是我的测试代码 forward1是py
BLE不同的MTU用于不同的实现

我在 Android 上尝试了 BLE 连接的不同实现一种使用 RxAndroidBle 另一种使用简单的 Android API 我使用 RxAndroidBle 示例应用程序进行测试我连接到具有相同服务和特征的相同外围设备不过当
MUI - 单击文本字段中的任意位置时打开日期选择器

我有一个日期选择器当用户单击字段中的任意位置而不仅仅是日历图标时我想显示该日期选择器这是选择器 export function DatePickerField props return
React.js - 使用 svg 线性渐变不起作用

我有一个圆圈和一个渐变来填充它我放入渐变并按样式填充在路径中调用他 import React PropTyoes from react import connect from react redux import as Actions f
是否可以使用页面对象为多个类似屏幕创建可重用且通用的 Specflow 步骤定义？

我正在开发一个具有许多类似数据表 CRUD 屏幕的应用程序我使用带有页面对象模式的 Selenium 在应用程序中进行导航并使用对象母体来创建预定义的测试数据特别是对于具有许多输入的表单在编写功能文件时我突然想到这些测试彼此非常相
哪个 JavaScript 框架可以搜索 CSS 样式表规则并编辑其属性？

问题 Which JavaScript 框架原型 script aculo us Mootools MochiKit 不错的 CSS 规则编辑支持这是关于改变风格规则我希望有动态 CSS 类哪个改变例子现在通过 JavaScri
如何在 iOS 4.0+ 中获取 UIImage 的大小（以字节为单位）？

我正在尝试从照片库或相机中选取图像委托方法 void imagePickerController UIImagePickerController picker didFinishPickingImage UIImage image edi
d3.js：放大点击事件

我试图得到同样的行为威尔林森的实施 http bl ocks org linssen 7352810但在 d3 js 版本 4 上我对版本 4 中的 Zoom api 感到很困惑我在原始实现中所做的更改是 zoom translate
用于分隔 Excel 工作表的多个数据框列表

我有一个可变长度的数据框列表我想将每个数据框列表转换为每个 Excel 工作表这是我的代码 for i in range 1 len dfs frames sheetName i dfs i for sheet df in frames
AlertDialog 不显示列表上的分隔线

我有这门课 public class PageDetailInfoView extends FrameLayout few constructors and methods method to show an AlertDialog wit
GradleWorkerMain 内存不足错误

我正在尝试对基于 ant 的 Netbeans RCP 项目进行 gradle 并发现奇怪的 gradle 行为我用探查器进行了一些观察并得到了下一个结果环境配置 Gradle 1 9 Build time 2013 11 19 08
include_directories 用于导入库

我正在用 c 编写项目并且在 cmake 中导入库时遇到问题正在导入的第三方库不会传播包含目录根目录 CMakeLists txt Top level CMakeLists txt cmake minimum required VER
OpenMp 根据变量设置并行循环的线程数

有没有办法根据变量的值设置 OpenMP 并行区域的线程数最初整个应用程序的线程数 nofCores 在我的 AMD FX 8350 上 nofCores 8 对于这个区域如果变量是 3 那么我只需要 3 个线程如果变量 gt 核心
Twitter“无法验证您的身份”错误

我正在使用 Rails 应用程序的 twitter gem 这样我就可以将我的博客文章自动更新到我的 twitter feed 上我跟着gem 自述文件说明 https github com sferik twitter 将其放入 con
有什么方法可以从内部函数中退出外部函数吗？

在 PHP 中如果我有一个函数调用另一个函数有没有办法让被调用函数退出调用者函数而不杀死整个脚本例如假设我有一些类似的代码 p This is some text After this text I m going to call
如何在seaborn catplot中旋转xticklabel

我无法在 Seaborn Matplotlib 中旋转我的 xlabel 我尝试了很多不同的解决方案但无法修复它我在 stackoverflow 上看到了很多相关问题但它们对我不起作用我当前的绘图如下所示但我希望 xlabel 旋
Django 检查查询集模型类型的最佳方法

我有一个 Django 操作函数我想在基于不同模型的查询集上使用它检查我的查询集组成的模型类型的最佳方法是什么假设我想检查 models py 中定义的 Library 类目前我可以使用它来工作 for object in quer
使用 CreateEvent 创建/打开已存在的事件是否会重置信号？

如果我使用 CreateEvent 打开一个事件 responseWaitEvent CreateEvent NULL no security TRUE manual reset event FALSE not signaled LPTST
将成员添加到 MailChimp 列表时出现 400 错误请求

我正在发送一个POST请求以下资源 http developer mailchimp com documentation mailchimp reference lists members 并得到 400 我明白错误意味着什么 http d
如何在标题中仅保留唯一值并在不同行中获取与这些值相对应的值？

我有一个链接在该链接中我有一些产品每个产品中都有一个规格表该表的第一列应为标题第二列应为与其对应的数据每个表的第一列都不同有一些重叠的类别我想要一张大表其中包含所有这些类别并且按行排列不同的产品我能够获取一张表一种产品

如何在标题中仅保留唯一值并在不同行中获取与这些值相对应的值？

如何在标题中仅保留唯一值并在不同行中获取与这些值相对应的值？ 的相关文章

随机推荐

热门标签

如何在标题中仅保留唯一值并在不同行中获取与这些值相对应的值？的相关文章