将 CSV 文件从 Google Cloud Storage 读取到 Datalab 并转换为 pandas dataframe

2024-03-03

我正在尝试读取保存在 gs 中的 csv 文件到数据帧中进行分析

我已按照以下步骤操作但没有成功

mybucket = storage.Bucket('bucket-name')
data_csv = mybucket.object('data.csv')
df = pd.read_csv(data_csv)

这不起作用,因为 data_csv 不是 pd.read_csv 预期的路径 我也尝试过

%%gcs read --object $data_csv --variable data
#result: %gcs: error: unrecognized arguments: Cloud Storage Object gs://path/to/file.csv

我如何读取我的文件进行分析?

Thanks


%%gcs 返回字节对象。要读取它,请使用 io (python 3) 中的 BytesIO

mybucket = storage.Bucket('bucket-name')
data_csv = mybucket.object('data.csv')

%%gcs read --object $data_csv --variable data

df = pd.read_csv(BytesIO(data_csv), sep = ';')

如果您的 csv 文件以逗号分隔,则无需指定 这是默认值 在这里阅读有关 io 库和包的更多信息:用于处理流的核心工具 https://docs.python.org/3/library/io.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将 CSV 文件从 Google Cloud Storage 读取到 Datalab 并转换为 pandas dataframe 的相关文章

随机推荐