databricks dbfs 是否支持文件元数据,例如文件/文件夹创建日期或修改日期

2023-12-04

我正在尝试爬行 databricks 笔记本中的目录以查找最新的镶木地板文件。 dbfsutils.fs.ls 似乎不支持有关文件或文件夹的任何元数据。 python 中有其他方法可以做到这一点吗?数据存储在安装到“/mnt/foo”下的 DBFS 的 Azure 数据湖中。任何帮助或指示表示赞赏。


据我所知,在 Azure Databricks 上,dbfs 路径dbfs:/mnt/foo与Linux路径相同/dbfs/mnt/foo,所以你可以简单地使用os.stat(path)在Python中获取文件元数据,例如创建日期或修改日期。

enter image description here

这是我的示例代码。

import os
from datetime import datetime
path = '/dbfs/mnt/test'
fdpaths = [path+"/"+fd for fd in os.listdir(path)]
for fdpath in fdpaths:
    statinfo = os.stat(fdpath)
    create_date = datetime.fromtimestamp(statinfo.st_ctime)
    modified_date = datetime.fromtimestamp(statinfo.st_mtime)
    print("The statinfo of path %s is %s, \n\twhich create date and modified date are %s and %s" % (fdpath, statinfo, create_date, modified_date))

结果如下图所示。

enter image description here

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

databricks dbfs 是否支持文件元数据,例如文件/文件夹创建日期或修改日期 的相关文章

随机推荐