palantirfoundry

如何在Foundry Functions中拥有灵活的分组列？

在我的 Workshop 应用程序中我想要一个带有可更改 x 轴的条形图下拉小部件将用于选择所需的 x 轴为此我正在编写一个 TypeScript 函数它将返回为图表小部件提供数据的数据我写了以下函数 Function publ

typescript palantirfoundry foundryfunctions

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q

apachespark logging PySpark userdefinedfunctions palantirfoundry

我在 Foundry 上有一个增量数据集并且上传了一个包含不正确数据的文件如何反转此事务以便我可以使用正确的数据更新数据集您可以使用 Foundry 的 Catalog API 您首先需要找到要恢复到的事务的资源 ID rid 当您在

palantirfoundry

我有几个数据集想要在 Palantir Foundry 中合并我提前知道数据集是什么所有数据集的架构都是相同的即它们具有相同的列名称和列类型组合联合这些数据集的最佳方法是什么数据集A col1 col2 1 a 2 b 数据集

palantirfoundry

如何强制特定数据集以非增量方式构建而不更改转换存储库中的语义版本有关我们具体用例的详细信息我们有大约 50 个数据集由单个增量 Python 通过手动注册和 for 循环定义此转换的输入可以是 100 到 10000 个小 gzip

palantirfoundry foundrycoderepositories

我们有一个数据集它作为增量构建在 Foundry 实例上运行该数据集是一个大型时间序列数据集 565亿行 10列 965GB 时间戳以1小时为单位数据集每天增长约 10GB 为了优化数据集以进行分析我们根据两个属性 measure

apachespark palantirfoundry

Foundry 是否具有对将电子表格相同架构上传和附加到一个数据集的本机支持并具有适合业务最终用户的界面我正在评估一个用户工作流程其中涉及临时接收表格电子表格并使用常规编程方法附加它们我正在尝试在 Foundry 中启用此工作

palantirfoundry

我想在 Palantir Foundry 中合并多个数据集数据集的名称是动态的因此我无法在transform df 静态地有没有一种方法可以动态地将多个输入放入transform df并合并所有这些数据框我尝试循环数据集例如 li

PySpark Dynamic Union palantirfoundry foundrycoderepositories

我注意到当我运行与示例相同的代码时here https stackoverflow com questions 68474926 why do i see repeated materializations of a dataframe i

PySpark palantirfoundry foundrycoderepositories foundrypythontransform

我有一些代表维护作业的对象每个对象都有一个如下所示的时间列 Due On 2021 12 01 2022 06 17 2022 07 05 2022 07 05 2022 08 01 2023 09 02 如何在 Palantir Fou

palantirfoundry foundrycoderepositories foundryworkshop foundryfunctions

我想我了解重新分区配置单元分区和分桶如何影响输出文件的数量但我不太清楚各种功能的交互有人可以帮助填写以下每种情况下我留空的输出文件的数量吗目的是了解对于以下情况正确的代码是什么我需要混合使用高基数列和低基数列来进行分区存储桶

palantirfoundry foundrycoderepositories

我有一个大型 gzip 压缩 csv 文件 csv gz 上传到一个数据集该数据集大小约为 14GB 未压缩时为 40GB 有没有一种方法可以使用 Python Transforms 解压缩读取并将其写入数据集而不会导致执行器 OOM

PySpark palantirfoundry foundrypythontransform

我有一套 xml我想要解析的文档我以前曾尝试使用获取文件内容并将它们转储到单个单元格中的方法来解析它们但是我注意到这在实践中不起作用因为我看到运行时间越来越慢通常只有一项任务需要执行运行数十小时我的第一个变换是 xml内容并将其放

PySpark palantirfoundry foundrycoderepositories foundrypythontransform