Pandas——读/写不同数据源的数据

2023-11-12

Pandas——读/写不同数据源的数据

一、读/写数据库数据

1、SQLAlchemy连接MySQL数据库

from sqlalchemy import create_engine

# 创建一个mysql连接器，用户名为root，密码为1234
# 地址为127.0.0.1，数据库名称为testdb，编码为utf-8
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:\
3306/testdb?charset=utf8')
print(engine)

Engine(mysql+pymysql://root:***@127.0.0.1:3306/testdb?charset=utf8)

2、使用read_sql_query、read_sql_table、read_sql函数读取数据库数据

# 这里接上一条代码
import pandas as pd

# 使用read_sql_query查看tesdb中的数据表数目
formlist = pd.read_sql_query('show tables', con=engine)
print('testdb数据库数据表清单为:', '\n', formlist)

# 使用read_sql_table读取订单详情表
detail1 = pd.read_sql_table('meal_order_detail1', con=engine)
print('使用read_sql_table读取订单详情表的长度为:', len(detail1))

# 使用read_sql读取订单详情表
detail2 = pd.read_sql('select * from meal_order_detail2',
                      con=engine)
print('使用read_sql函数+sql语句读取的订单详情表长度为:', len(detail2))
detail3 = pd.read_sql('meal_order_detail3', con=engine)
print('使用read_sql函数+表格名称读取的订单详情表长度为:',
      len(detail3))

testdb数据库数据表清单为: 
   Tables_in_data_analysis
0      meal_order_detail1
1      meal_order_detail2
2      meal_order_detail3
使用read_sql_table读取订单详情表的长度为: 2779
使用read_sql函数+sql语句读取的订单详情表长度为: 3647
使用read_sql函数+表格名称读取的订单详情表长度为: 3611

3、使用to_sql方法写入数据

# 使用to_sql存储orderData
detail1.to_sql('test1', con=engine, index=False,
               if_exists='replace')
# 使用read_sql读取test表
formlist1 = pd.read_sql_query('show tables', con=engine)
print('新增一个表格后testdb数据库数据表清单为：', '\n', formlist1)

新增一个表格后testdb数据库数据表清单为： 
   Tables_in_data_analysis
0      meal_order_detail1
1      meal_order_detail2
2      meal_order_detail3
3                   test1

二、读/写文本文件

1、使用read_table、read_csv函数读取菜品订单信息表

# 使用read_table读取订单信息表
order = pd.read_table('../data/meal_order_info.csv',
                      sep=',', encoding='gbk')
print('使用read_table读取的订单信息表的长度为：', len(order))

# 使用read_csv读取订单信息表
order1 = pd.read_csv('../data/meal_order_info.csv',
                     encoding='gbk')
print('使用read_csv读取的订单信息表的长度为：', len(order1))

使用read_table读取的订单信息表的长度为： 945
使用read_csv读取的订单信息表的长度为： 945

2、更改参数读取菜品订单信息表

# 使用read_table读取菜品订单信息表,sep = ';'
order2 = pd.read_table('../data/meal_order_info.csv',
                       sep=';', encoding='gbk')
print('分隔符为;时订单信息表为：\n', order2)

# 使用read_csv读取菜品订单信息表,header=None
order3 = pd.read_csv('../data/meal_order_info.csv',
                     sep=',', header=None, encoding='gbk')
print('订单信息表为：', '\n', order3)

# 使用gbk解析菜品订单信息表
# 如果使用utf-8这一段运行会报如下错误
# UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 0: invalid continuation byte
order4 = pd.read_csv('../data/meal_order_info.csv',
                     sep=',', encoding='gbk')

分隔符为;时订单信息表为：
     info_id,"emp_id","number_consumers","mode","dining_table_id","dining_table_name","expenditure","dishes_count","accounts_payable","use_start_time","check_closed","lock_time","cashier_id","pc_id","order_number","org_id","print_doc_bill_num","lock_table_info","order_status","phone","name"
0    417,1442,4,NA,1501,1022,165,5,165,"2016/8/1 11...                                                                                                                                                                                                                                            
1    301,1095,3,NA,1430,1031,321,6,321,"2016/8/1 11...                                                                                                                                                                                                                                            
2    413,1147,6,NA,1488,1009,854,15,854,"2016/8/1 1...  
# ***此处省略若干行数据***
[945 rows x 1 columns]
订单信息表为： 
           0       1                 2     3                4   \
0    info_id  emp_id  number_consumers  mode  dining_table_id   
1        417    1442                 4   NaN             1501   
2        301    1095                 3   NaN             1430   
# ***此处省略若干行数据***
[946 rows x 21 columns]

3、使用to_csv函数将数据写入CSV文件中

import os

print('订单信息表写入文本文件前目录内文件列表为：\n',
      os.listdir('../tmp'))
# 将order以csv格式存储
order.to_csv('../tmp/orderInfo.csv', sep=';', index=False)
print('订单信息表写入文本文件后目录内文件列表为：\n',
      os.listdir('../tmp'))

订单信息表写入文本文件前目录内文件列表为：
 []
订单信息表写入文本文件后目录内文件列表为：
 ['orderInfo.csv']

三、读/写Excel文件

1、使用read_excel函数读取菜品订单信息表

user = pd.read_excel('../data/users.xlsx')  # 读取user.xlsx文件
print('客户信息表长度为：', len(user))

客户信息表长度为： 734

2、使用to_excel函数将数据储存为Excel文件

print('客户信息表写入excel文件前目录内文件列表为：\n',
      os.listdir('../tmp'))
user.to_excel('../tmp/userInfo.xlsx')
print('客户信息表写入excel文件后目录内文件列表为：\n',
      os.listdir('../tmp'))

客户信息表写入excel文件前目录内文件列表为：
 [ 'orderInfo.csv']
客户信息表写入excel文件后目录内文件列表为：
 ['orderInfo.csv', 'userInfo.xlsx']

四、案例操作

1、读取订单详情表

# 导入SQLAlchemy库的creat_engine函数
from sqlalchemy import create_engine
import pandas as pd

# 创建一个mysql连接器，用户名为root，密码为1234
# 地址为127.0.0.1，数据库名称为testdb
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:\
3306/testdb?charset=utf8')
# 使用read_sql_table读取订单详情表格
order1 = pd.read_sql_table('meal_order_detail1', con=engine)
print('订单详情表1的长度为:', len(order1))
order2 = pd.read_sql_table('meal_order_detail2', con=engine)
print('订单详情表2的长度为:', len(order2))
order3 = pd.read_sql_table('meal_order_detail3', con=engine)
print('订单详情表3的长度为:', len(order3))

订单详情表1的长度为: 2779
订单详情表2的长度为: 3647
订单详情表3的长度为: 3611

2、读取订单信息表

# 使用read_table读取订单信息表
orderInfo = pd.read_table('../data/meal_order_info.csv',
                          sep=',', encoding='gbk')
print('订单信息表的长度为：', len(orderInfo))

订单信息表的长度为： 945

3、读取客户信息表

# 读取user.xlsx文件
userInfo = pd.read_excel('../data/users.xlsx',
                         sheet_name='users1')
print('客户信息表的长度为：', len(userInfo))

客户信息表的长度为： 734

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

Pandas——读/写不同数据源的数据的相关文章

将 Pandas 数据框单元格中的设置值拆分为多行

我有一个以下形式的 pandas DataFrame col1 col2 1 a hu fdf ko dss 2 b sdsjdn lk 3 c sds aldj dhva 现在我想将设置值拆分为多行使其看起来像这样 col1 col2
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
dfply：改变字符串列：TypeError

我的 pandas 数据框包含一个文件列它是带有文件路径的字符串我正在尝试使用 dfply 来改变此列例如 resultstatsDF reset index gt gt mutate dirfile os path join o
熊猫系列到二维数组

所以我使用了来自的答案将二维数组放入 Pandas 系列中 https stackoverflow com questions 38840319 put a 2d array into a pandas series将 2D numpy
Pandas 根据条件替换数据框值

我有一个主数据框 df Colour Item Price Blue Car 40 Red Car 30 Green Truck 50 Green Bike 30 然后我有一个价格修正数据框 df pc Colour Item Price
如何在 matplotlib 图中显示数据

I m trying to make an interactive plot in the jupyter notebook but i don t know exactly how to implement it Having a dat
根据Python中的百分位数替换列值

我已经对一个数据框进行了分组并且我希望每组替换某些列中的值如果它们小于某个百分位因此组中大于 0 95 百分位数的所有值均应替换为 0 95 百分位数所有小于 0 05 百分位数的值均应替换为 0 05 百分位数数据框可能看起来
获取 pandas 数据框中每列的前 k 个元素的索引的快速方法

我有一个非常大的 pandas 数据框大约有 500 000 列每列大约有 500 个元素长对于每一列我需要检索该列中前 k 个元素的索引列位置所以如果 k 等于 2 这是我的数据框 A B C D w 4 8 10 2
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
pandas-更改重采样时间序列的开始和结束日期

我有一个时间序列我将其重新采样到这个数据框中df 我的数据是从6月6日到6月28日它希望将数据从6月1日延长到6月30日计数列仅在较长时间内具有 0 值而我的实际值是从 6 日到 28 日 Out 123 count Timesta
真实值与预测值的降维可视化

我有一个数据框如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
pandas的pivot_table保留索引

我有一个数据框 import pandas as pd data day bucket 2011 01 21 2011 01 22 2011 01 23 2011 01 24 label birds birds birds birds nu
Python 和 Pandas：如何返回数据帧的副本？

问题就在这里我使用一个函数返回随机数据 data1 3 5 7 3 2 6 1 6 7 8 data2 1 5 2 1 6 4 3 2 7 8 df pd DataFrame data1 columns c1 df c2 data2 de
将 pandas 数据框中的列减去其第一个值

我需要将 pandas 数据帧的一列中的所有元素减去其第一个值在这段代码中 pandas 抱怨 self inferred type 我猜这是循环引用 df Time df Time df Time 0 在这段代码中 pandas 抱怨为
在 Pandas Dataframe 中保存其他属性

我记得在 MatLab 时代使用结构化数组您可以将不同的数据存储为主结构的属性就像是 a a A magic 10 a B magic 50 etc where a A and a B彼此完全独立允许您在其中存储不同类型a并根据需要对
反加入熊猫

我有两个表我想附加它们以便仅保留表 A 中的所有数据并且仅在其键唯一时添加表 B 中的数据键值在表 A 和 B 中是唯一的但在某些情况下键将出现在表 A 和 B 中我认为执行此操作的方法将涉及某种过滤联接反联接以获取表 B
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data

随机推荐

简单聊聊uniapp和uview组件库一起开发

简单的聊聊uniapp和uview组件库的开发 uniapp是一个基于Vue js的跨平台开发框架可以同时开发H5 微信小程序 App等多个平台的应用这样可以减少开发人员的工作量提高开发效率官网 https uniapp dclou
功率电感器选型需要考虑哪些参数？

电感器 Inductor 是能够把电能转化为磁能而存储起来的元件电感器的结构类似于变压器但只有一个绕组电感器具有一定的电感它只阻碍电流的变化如果电感器在没有电流通过的状态下电路接通时它将试图阻碍电流流过它如果电感器在有电流通过
linux漏洞病毒扫描工具,linux病毒扫描工具ClamAV使用

前言 ClamAV是Linux平台上领先的开源病毒扫描程序如果你要为Linux桌面或服务器找到一个好的病毒扫描程序这个应用程序应该是你的首选它在命令行中运行可以在Linux服务器和台式机上使用并且可以很好地消除大量不同类型的恶意软
Docker入门之安装Docker

目录目录 1 1 前言 2 2 基本概念 3 2 1 仓库 3 2 2 镜像ID和容器ID 3 3 创建网桥 3 4 安装Docker 4 4 1 二进制安装 4 4 1 1 下载安装 4 4 1 2 配置服务 5 4 1 3 启动服务
各种分布式文件系统简介

常见的分布式文件系统有 GFS HDFS Lustre Ceph GridFS mogileFS TFS FastDFS等各自适用于不同的领域它们都不是系统级的分布式文件系统而是应用级的分布式文件存储服务 Google学术论文这是众
java判断微信号是否关注微信公众号

public CommonResult validateAttentionWxPublic String openId throws Exception CommonResult cr new CommonResult String acc
[event] Embedded Linux Conference 2016

本文转载至 http events linuxfoundation org events embedded linux conference 转载说明做嵌入式Linux开发的最好都看一下今年的主题很大一块都是IoT相关另外可以参考 h
微信小程序的下载安装

微信小程序 color purple 微信小程序微信小程序微信小程序简称
for循环三种跳出循环的方法（retrun、continue、break）

continue 指的是跳出当前循环即不执行continue后的语句直接进入下次循环 break 指的是跳出for本身不再进行之后的循环但可以执行for循环之外的语句 return 指的是跳出for循环且不执行for循环之外的语句
我用ChatGPT写2023高考语文作文（七）：上海卷

2023年上海卷适用地区上海一个人乐意去探索陌生世界仅仅是因为好奇心吗请写一篇文章谈谈你对这个问题的认识和思考要求 1 自拟题目 2 不少于 800字文章目录探索陌生世界的动力好奇心与更多好奇心无疑是人类探索陌生世界
RFID无人机之智能仓储管理系统应用

随着直播短视频真人秀等节目的蓬勃发展应用无人安全驾驶航天器 UAV 的项目数不胜数于前不久新华社还宣布组建无人机新闻采编队伍伴随着世界电子物联网技术的发展民用无人机的花样用法更是层出不穷文章主要讲基于RFID无人机智能管理
python范围无穷_Python – 输入包含NaN,无穷大或对于dtype(‘float64’)来说太大的值...

我是Python的新手我正在尝试使用sklearn cluster 这是我的代码 from sklearn cluster import MiniBatchKMeans kmeans MiniBatchKMeans n clusters
用C语言输出各种三角形

用C语言输出各种三角形三角形类型用C语言输出各种三角形 1 直角在左下角的三角形 2 直角在左上角的三角形 3 直角在右下角的三角形 4 直角在右上角的三角形 5 正三角形金字塔倒三角形 1 直角在左下角的三角形代码 includ
Python使用selenium设置无浏览器（界面）运行

设置无界面浏览器运行代码 from selenium import webdriver from selenium webdriver import ChromeOptions from selenium webdriver suppo
HDR dump失败解决办法

运行脚本进HDR拍照一般在 sdcard Android data com oplus camera files spdebug hdrdump 目录下可以生成dump 若没有生成dump 清除相机缓存重新运行脚本重启手机即可脚
Apache Solr入门教程(初学者之旅)

Apache Solr入门教程初学者之旅写在前面本文涉及solr入门的各方面建议边思考边实践相信能帮助你对solr有个清晰全面的了解并能简单实用在Apache Solr初学者教程的这个例子中我们将讨论有关如何安装最新版本的Ap
0-1分布的方差和期望

最后欢迎大家访问我的个人网站 1024s
CentOS7.4下C++开源日志库easyloggingpp的使用

CentOS7 4下C 开源日志库easyloggingpp的使用一简单示例二多线程支持 Linux后台开发过程中经常需要日志记录一些运行信息网上找到easyloggingpp只需要包含头文件和实现文件即可使用很方便现整理如下
vue：结合elementUI设计网站登录页

这次主要是记录三个重点 1 组件间通信的方法其一 2 脚手架搭建的vue工程的组件调用 3 elementUI 的轮播图与模态框的设计先看效果图简单的就做了这四个页面总共四个组件实现这些效果这个小网站需要的组件也挺多的当然不止这
Pandas——读/写不同数据源的数据

Pandas 读写不同数据源的数据一读写数据库数据 1 SQLAlchemy连接MySQL数据库 2 使用 read sql query read sql table read sql 函数读取数据库数据 3 使用 to sql

Pandas——读/写不同数据源的数据

Pandas——读/写不同数据源的数据

一、读/写数据库数据

1、SQLAlchemy连接MySQL数据库

2、使用read_sql_query、read_sql_table、read_sql函数读取数据库数据

3、使用to_sql方法写入数据

二、读/写文本文件

1、使用read_table、read_csv函数读取菜品订单信息表

2、更改参数读取菜品订单信息表

3、使用to_csv函数将数据写入CSV文件中

三、读/写Excel文件

1、使用read_excel函数读取菜品订单信息表

2、使用to_excel函数将数据储存为Excel文件

四、案例操作

1、读取订单详情表

2、读取订单信息表

3、读取客户信息表

Pandas——读/写不同数据源的数据 的相关文章

随机推荐

热门标签

Pandas——读/写不同数据源的数据的相关文章