Pandas——读/写不同数据源的数据

2023-11-12

一、读/写数据库数据

1、SQLAlchemy连接MySQL数据库

from sqlalchemy import create_engine

# 创建一个mysql连接器,用户名为root,密码为1234
# 地址为127.0.0.1,数据库名称为testdb,编码为utf-8
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:\
3306/testdb?charset=utf8')
print(engine)
Engine(mysql+pymysql://root:***@127.0.0.1:3306/testdb?charset=utf8)

2、使用read_sql_query、read_sql_table、read_sql函数取数据库数据

# 这里接上一条代码
import pandas as pd

# 使用read_sql_query查看tesdb中的数据表数目
formlist = pd.read_sql_query('show tables', con=engine)
print('testdb数据库数据表清单为:', '\n', formlist)

# 使用read_sql_table读取订单详情表
detail1 = pd.read_sql_table('meal_order_detail1', con=engine)
print('使用read_sql_table读取订单详情表的长度为:', len(detail1))

# 使用read_sql读取订单详情表
detail2 = pd.read_sql('select * from meal_order_detail2',
                      con=engine)
print('使用read_sql函数+sql语句读取的订单详情表长度为:', len(detail2))
detail3 = pd.read_sql('meal_order_detail3', con=engine)
print('使用read_sql函数+表格名称读取的订单详情表长度为:',
      len(detail3))
testdb数据库数据表清单为: 
   Tables_in_data_analysis
0      meal_order_detail1
1      meal_order_detail2
2      meal_order_detail3
使用read_sql_table读取订单详情表的长度为: 2779
使用read_sql函数+sql语句读取的订单详情表长度为: 3647
使用read_sql函数+表格名称读取的订单详情表长度为: 3611

3、使用to_sql方法写入数据

# 使用to_sql存储orderData
detail1.to_sql('test1', con=engine, index=False,
               if_exists='replace')
# 使用read_sql读取test表
formlist1 = pd.read_sql_query('show tables', con=engine)
print('新增一个表格后testdb数据库数据表清单为:', '\n', formlist1)
新增一个表格后testdb数据库数据表清单为: 
   Tables_in_data_analysis
0      meal_order_detail1
1      meal_order_detail2
2      meal_order_detail3
3                   test1

二、读/写文本文件

1、使用read_table、read_csv函数取菜品订单信息表

# 使用read_table读取订单信息表
order = pd.read_table('../data/meal_order_info.csv',
                      sep=',', encoding='gbk')
print('使用read_table读取的订单信息表的长度为:', len(order))

# 使用read_csv读取订单信息表
order1 = pd.read_csv('../data/meal_order_info.csv',
                     encoding='gbk')
print('使用read_csv读取的订单信息表的长度为:', len(order1))
使用read_table读取的订单信息表的长度为: 945
使用read_csv读取的订单信息表的长度为: 945

2、更改参数读取菜品订单信息表

# 使用read_table读取菜品订单信息表,sep = ';'
order2 = pd.read_table('../data/meal_order_info.csv',
                       sep=';', encoding='gbk')
print('分隔符为;时订单信息表为:\n', order2)

# 使用read_csv读取菜品订单信息表,header=None
order3 = pd.read_csv('../data/meal_order_info.csv',
                     sep=',', header=None, encoding='gbk')
print('订单信息表为:', '\n', order3)

# 使用gbk解析菜品订单信息表
# 如果使用utf-8这一段运行会报如下错误
# UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 0: invalid continuation byte
order4 = pd.read_csv('../data/meal_order_info.csv',
                     sep=',', encoding='gbk')
分隔符为;时订单信息表为:
     info_id,"emp_id","number_consumers","mode","dining_table_id","dining_table_name","expenditure","dishes_count","accounts_payable","use_start_time","check_closed","lock_time","cashier_id","pc_id","order_number","org_id","print_doc_bill_num","lock_table_info","order_status","phone","name"
0    417,1442,4,NA,1501,1022,165,5,165,"2016/8/1 11...                                                                                                                                                                                                                                            
1    301,1095,3,NA,1430,1031,321,6,321,"2016/8/1 11...                                                                                                                                                                                                                                            
2    413,1147,6,NA,1488,1009,854,15,854,"2016/8/1 1...  
# ***此处省略若干行数据***
[945 rows x 1 columns]
订单信息表为: 
           0       1                 2     3                4   \
0    info_id  emp_id  number_consumers  mode  dining_table_id   
1        417    1442                 4   NaN             1501   
2        301    1095                 3   NaN             1430   
# ***此处省略若干行数据***
[946 rows x 21 columns]                                                                                                                  

3、使用to_csv函数将数据入CSV文件中

import os

print('订单信息表写入文本文件前目录内文件列表为:\n',
      os.listdir('../tmp'))
# 将order以csv格式存储
order.to_csv('../tmp/orderInfo.csv', sep=';', index=False)
print('订单信息表写入文本文件后目录内文件列表为:\n',
      os.listdir('../tmp'))
订单信息表写入文本文件前目录内文件列表为:
 []
订单信息表写入文本文件后目录内文件列表为:
 ['orderInfo.csv']

三、读/写Excel文件

1、使用read_excel函数取菜品订单信息表

user = pd.read_excel('../data/users.xlsx')  # 读取user.xlsx文件
print('客户信息表长度为:', len(user))
客户信息表长度为: 734

2、使用to_excel函数将数据储存为Excel文件

print('客户信息表写入excel文件前目录内文件列表为:\n',
      os.listdir('../tmp'))
user.to_excel('../tmp/userInfo.xlsx')
print('客户信息表写入excel文件后目录内文件列表为:\n',
      os.listdir('../tmp'))
客户信息表写入excel文件前目录内文件列表为:
 [ 'orderInfo.csv']
客户信息表写入excel文件后目录内文件列表为:
 ['orderInfo.csv', 'userInfo.xlsx']

四、案例操作

1、读取订单详情表

# 导入SQLAlchemy库的creat_engine函数
from sqlalchemy import create_engine
import pandas as pd

# 创建一个mysql连接器,用户名为root,密码为1234
# 地址为127.0.0.1,数据库名称为testdb
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:\
3306/testdb?charset=utf8')
# 使用read_sql_table读取订单详情表格
order1 = pd.read_sql_table('meal_order_detail1', con=engine)
print('订单详情表1的长度为:', len(order1))
order2 = pd.read_sql_table('meal_order_detail2', con=engine)
print('订单详情表2的长度为:', len(order2))
order3 = pd.read_sql_table('meal_order_detail3', con=engine)
print('订单详情表3的长度为:', len(order3))
订单详情表1的长度为: 2779
订单详情表2的长度为: 3647
订单详情表3的长度为: 3611

2、读取订单信息表

# 使用read_table读取订单信息表
orderInfo = pd.read_table('../data/meal_order_info.csv',
                          sep=',', encoding='gbk')
print('订单信息表的长度为:', len(orderInfo))
订单信息表的长度为: 945

3、读取客户信息表

# 读取user.xlsx文件
userInfo = pd.read_excel('../data/users.xlsx',
                         sheet_name='users1')
print('客户信息表的长度为:', len(userInfo))
客户信息表的长度为: 734
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas——读/写不同数据源的数据 的相关文章

  • 将 Pandas 数据框单元格中的设置值拆分为多行

    我有一个以下形式的 pandas DataFrame col1 col2 1 a hu fdf ko dss 2 b sdsjdn lk 3 c sds aldj dhva 现在我想将设置值拆分为多行 使其看起来像这样 col1 col2
  • Pandas 滚动窗口 Spearman 相关性

    我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和 或 Pearson 相关性 我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸 但我似乎无法定义该方法 添加meth
  • 乘以行并按单元格值附加到数据框

    考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在 列中附加数字大于 1 的行 并在该行中的数字减 1 df 最好应该 然后看起来像这样 或者它可能看起来
  • dfply:改变字符串列:TypeError

    我的 pandas 数据框包含一个 文件 列 它是带有文件路径的字符串 我正在尝试使用 dfply 来改变此列 例如 resultstatsDF reset index gt gt mutate dirfile os path join o
  • 熊猫系列到二维数组

    所以 我使用了来自的答案将二维数组放入 Pandas 系列中 https stackoverflow com questions 38840319 put a 2d array into a pandas series将 2D numpy
  • Pandas 根据条件替换数据框值

    我有一个主数据框 df Colour Item Price Blue Car 40 Red Car 30 Green Truck 50 Green Bike 30 然后我有一个价格修正数据框 df pc Colour Item Price
  • 如何在 matplotlib 图中显示数据

    I m trying to make an interactive plot in the jupyter notebook but i don t know exactly how to implement it Having a dat
  • 根据Python中的百分位数替换列值

    我已经对一个数据框进行了分组 并且我希望每组替换某些列中的值 如果它们小于某个百分位 因此 组中大于 0 95 百分位数的所有值均应替换为 0 95 百分位数 所有小于 0 05 百分位数的值均应替换为 0 05 百分位数 数据框可能看起来
  • 获取 pandas 数据框中每列的前 k 个元素的索引的快速方法

    我有一个非常大的 pandas 数据框 大约有 500 000 列 每列大约有 500 个元素长 对于每一列 我需要检索该列中前 k 个元素的 索引 列 位置 所以 如果 k 等于 2 这是我的数据框 A B C D w 4 8 10 2
  • 使用 matplotlib 设置或固定二元分布值

    I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量 我可以提供有关此过程的更
  • pandas-更改重采样时间序列的开始和结束日期

    我有一个时间序列 我将其重新采样到这个数据框中df 我的数据是从6月6日到6月28日 它希望将数据从6月1日延长到6月30日 计数列仅在较长时间内具有 0 值 而我的实际值是从 6 日到 28 日 Out 123 count Timesta
  • 真实值与预测值的降维可视化

    我有一个数据框 如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min
  • 更改 pandas 中多个日期时间列的时区信息

    有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地 任何时区 不是逐列进行吗 您可以有选择地将转换应用于所有日期时间列 首先 选择它们select dtypes https pandas pydata org pandas docs
  • Python组合目录中的所有csv文件并按日期时间排序

    我有 2 年的每日数据分成每月文件 我想将所有这些数据合并到一个按日期和时间排序的文件中 我正在使用的代码组合了所有文件 但不按顺序 我正在使用的代码 import pandas as pd import glob os import cs
  • pandas的pivot_table保留索引

    我有一个数据框 import pandas as pd data day bucket 2011 01 21 2011 01 22 2011 01 23 2011 01 24 label birds birds birds birds nu
  • Python 和 Pandas:如何返回数据帧的副本?

    问题就在这里 我使用一个函数返回随机数据 data1 3 5 7 3 2 6 1 6 7 8 data2 1 5 2 1 6 4 3 2 7 8 df pd DataFrame data1 columns c1 df c2 data2 de
  • 将 pandas 数据框中的列减去其第一个值

    我需要将 pandas 数据帧的一列中的所有元素减去其第一个值 在这段代码中 pandas 抱怨 self inferred type 我猜这是循环引用 df Time df Time df Time 0 在这段代码中 pandas 抱怨为
  • 在 Pandas Dataframe 中保存其他属性

    我记得在 MatLab 时代使用结构化数组 您可以将不同的数据存储为主结构的属性 就像是 a a A magic 10 a B magic 50 etc where a A and a B彼此完全独立 允许您在其中存储不同类型a并根据需要对
  • 反加入熊猫

    我有两个表 我想附加它们 以便仅保留表 A 中的所有数据 并且仅在其键唯一时添加表 B 中的数据 键值在表 A 和 B 中是唯一的 但在某些情况下键将出现在表 A 和 B 中 我认为执行此操作的方法将涉及某种过滤联接 反联接 以获取表 B
  • Pandas 在特定列将数据帧拆分为两个数据帧

    I have pandas我组成的 DataFrameconcat 一行由 96 个值组成 我想将 DataFrame 从值 72 中分离出来 这样 一行的前 72 个值存储在 Dataframe1 中 接下来的 24 个值存储在 Data

随机推荐

  • 简单聊聊uniapp和uview组件库一起开发

    简单的聊聊uniapp和uview组件库的开发 uniapp是一个基于Vue js的跨平台开发框架 可以同时开发H5 微信小程序 App等多个平台的应用 这样可以减少开发人员的工作量 提高开发效率 官网 https uniapp dclou
  • 功率电感器选型需要考虑哪些参数?

    电感器 Inductor 是能够把电能转化为磁能而存储起来的元件 电感器的结构类似于变压器 但只有一个绕组 电感器具有一定的电感 它只阻碍电流的变化 如果电感器在没有电流通过的状态下 电路接通时它将试图阻碍电流流过它 如果电感器在有电流通过
  • linux漏洞病毒扫描工具,linux病毒扫描工具ClamAV使用

    前言 ClamAV是Linux平台上领先的开源病毒扫描程序 如果你要为Linux桌面或服务器找到一个好的病毒扫描程序 这个应用程序应该是你的首选 它在命令行中运行 可以在Linux服务器和台式机上使用 并且可以很好地消除大量不同类型的恶意软
  • Docker入门之安装Docker

    目录 目录 1 1 前言 2 2 基本概念 3 2 1 仓库 3 2 2 镜像ID和容器ID 3 3 创建网桥 3 4 安装Docker 4 4 1 二进制安装 4 4 1 1 下载安装 4 4 1 2 配置服务 5 4 1 3 启动服务
  • 各种分布式文件系统简介

    常见的分布式文件系统有 GFS HDFS Lustre Ceph GridFS mogileFS TFS FastDFS等 各自适用于不同的领域 它们都不是系统级的分布式文件系统 而是应用级的分布式文件存储服务 Google学术论文 这是众
  • java判断微信号是否关注微信公众号

    public CommonResult validateAttentionWxPublic String openId throws Exception CommonResult cr new CommonResult String acc
  • [event] Embedded Linux Conference 2016

    本文转载至 http events linuxfoundation org events embedded linux conference 转载说明 做嵌入式Linux开发的最好都看一下 今年的主题很大一块都是IoT相关 另外可以参考 h
  • 微信小程序的下载安装

    微 信 小 程 序 color purple 微信小程序 微信小程序 微信小程序 简称
  • for循环三种跳出循环的方法(retrun、continue、break)

    continue 指的是跳出当前循环 即不执行continue后的语句 直接进入下次循环 break 指的是跳出for本身 不再进行之后的循环 但可以执行for循环之外的语句 return 指的是跳出for循环 且不执行for循环之外的语句
  • 我用ChatGPT写2023高考语文作文(七):上海卷

    2023年 上海卷 适用地区 上海 一个人乐意去探索陌生世界 仅仅是因为好奇心吗 请写一篇文章 谈谈你对这个问题的认识和思考 要求 1 自拟题目 2 不少于 800字 文章目录 探索陌生世界的动力 好奇心与更多 好奇心无疑是人类探索陌生世界
  • RFID无人机之智能仓储管理系统应用

    随着直播 短视频 真人秀等节目的蓬勃发展 应用无人安全驾驶航天器 UAV 的项目数不胜数 于前不久新华社还宣布组建无人 机新闻采编队伍 伴随着世界电子物联网技术的发展 民用无人 机的花样用法更是层出不穷 文章主要讲基于RFID无人机智能管理
  • python范围无穷_Python – 输入包含NaN,无穷大或对于dtype(‘float64’)来说太大的值...

    我是Python的新手 我正在尝试使用sklearn cluster 这是我的代码 from sklearn cluster import MiniBatchKMeans kmeans MiniBatchKMeans n clusters
  • 用C语言输出各种三角形

    用C语言输出各种三角形 三角形类型 用C语言输出各种三角形 1 直角在左下角的三角形 2 直角在左上角的三角形 3 直角在右下角的三角形 4 直角在右上角的三角形 5 正三角形 金字塔 倒三角形 1 直角在左下角的三角形 代码 includ
  • Python使用selenium设置无浏览器(界面)运行

    设置无界面 浏览器 运行代码 from selenium import webdriver from selenium webdriver import ChromeOptions from selenium webdriver suppo
  • HDR dump失败解决办法

    运行脚本 进HDR拍照 一般在 sdcard Android data com oplus camera files spdebug hdrdump 目录下 可以生成dump 若没有生成dump 清除相机缓存 重新运行脚本 重启手机即可 脚
  • Apache Solr入门教程(初学者之旅)

    Apache Solr入门教程 初学者之旅 写在前面 本文涉及solr入门的各方面 建议边思考边实践 相信能帮助你对solr有个清晰全面的了解并能简单实用 在Apache Solr初学者教程的这个例子中 我们将讨论有关如何安装最新版本的Ap
  • 0-1分布的方差和期望

    最后欢迎大家访问我的个人网站 1024s
  • CentOS7.4下C++开源日志库easyloggingpp的使用

    CentOS7 4下C 开源日志库easyloggingpp的使用 一 简单示例 二 多线程支持 Linux后台开发过程中经常需要日志记录一些运行信息 网上找到easyloggingpp只需要包含头文件和实现文件即可 使用很方便 现整理如下
  • vue:结合elementUI设计网站登录页

    这次主要是记录三个重点 1 组件间通信的方法 其一 2 脚手架搭建的vue工程的组件调用 3 elementUI 的轮播图与模态框的设计 先看效果图 简单的就做了这四个页面 总共四个组件实现这些效果 这个小网站需要的组件也挺多的 当然不止这
  • Pandas——读/写不同数据源的数据

    Pandas 读 写不同数据源的数据 一 读 写数据库数据 1 SQLAlchemy连接MySQL数据库 2 使用 read sql query read sql table read sql 函数 读 取数据库数据 3 使用 to sql