如何在 Palantir Foundry 中联合多个动态输入？

2023-12-27

我想在 Palantir Foundry 中合并多个数据集，数据集的名称是动态的，因此我无法在transform_df()静态地。有没有一种方法可以动态地将多个输入放入transform_df并合并所有这些数据框？

我尝试循环数据集，例如：

li = ['dataset1_path', 'dataset2_path']

union_df = None
for p in li:
  @transforms_df(
    my_input = Input(p), 
    Output(p+"_output")
  )
  def my_compute_function(my_input):
    return my_input

  if union_df is None:
    union_df = my_compute_function
  else:
    union_df = union_df.union(my_compute_function)

但是，这不会生成联合输出。

经过一些更改，这应该能够为您工作，这是带有 json 文件的动态数据集的示例，您的情况可能只会略有不同。这是一种通用的方法，您可以执行动态 json 输入数据集，该数据集应该适用于任何类型的动态输入文件类型或您可以指定的 Foundry 数据集的内部。此通用示例正在处理上传到平台中数据集节点的一组 json 文件。这应该是完全动态的。此后建立工会应该是一件简单的事情。

这里也有一些额外的记录。

希望这可以帮助

from transforms.api import Input, Output, transform
from pyspark.sql import functions as F
import json
import logging


def transform_generator():
    transforms = []
    transf_dict = {## enter your dynamic mappings here ##}

    for value in transf_dict:
        @transform(
            out=Output(' path to your output here '.format(val=value)),
            inpt=Input(" path to input here ".format(val=value)),
        )
        def update_set(ctx, inpt, out):
            spark = ctx.spark_session
            sc = spark.sparkContext

            filesystem = list(inpt.filesystem().ls())
            file_dates = []
            for files in filesystem:
                with inpt.filesystem().open(files.path) as fi:
                    data = json.load(fi)
                file_dates.append(data)

            logging.info('info logs:')
            logging.info(file_dates)
            json_object = json.dumps(file_dates)
            df_2 = spark.read.option("multiline", "true").json(sc.parallelize([json_object]))
            df_2 = df_2.withColumn('upload_date', F.current_date())

            df_2.drop_duplicates()
            out.write_dataframe(df_2)
        transforms.append(update_logs)
    return transforms


TRANSFORMS = transform_generator()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Palantir Foundry 中联合多个动态输入？的相关文章

Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
如何动态更改字体名称？

我正在使用 Jasper jar 生成有关我的 J2EE 项目的报告我能够成功生成 PDF 没有任何问题但是我希望根据我们在一处配置的设置动态更改所有 PDF 的字体名称我开始了解条件样式这对于完成此任务很有用然而我确实有数百
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
是否有其他方法可以释放 C 中动态分配的内存 - 不使用 free() 函数？

我正在为测试而学习我想知道这些是否等同于 free ptr malloc NULL calloc ptr realloc NULL ptr calloc ptr 0 realloc ptr 0 据我了解这些都不起作用因为 free 函
mysql 在 sum() 函数上使用 concat，例如 concat(sum(col1),"%")

我正在尝试合并多个查询但其中一个查询使用 sum 当我尝试在此列上应用 concat 时我得到不需要的 blob 结果我如何在聚合列上应用 concat 和 union 我期待这个结果 SELECT row 1 col1 UNION
大查询中有没有办法执行动态查询，例如sql server中的“EXEC”？

我有一个包含 200 多个列名的表这些列名是使用临时名称创建的例如 custColum1 custColum200 我有一个映射表其中包含 custColum1 custColumn200 的列表它必须映射到该名称例如 Table
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
D 动态数组初始化、stride和索引操作

抱歉这成为了有关数组的三重问题我认为动态数组在 D 中确实很强大但以下问题已经困扰我一段时间了在 C 中我可以轻松地分配具有指定值的数组但在 D 中我还没有找到这样做的方法当然下面的内容是没有问题的 int a new
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
将构建参数传递给 .wxs 文件以动态构建 wix 安装程序

我是一名学生开发人员我已经为我现在工作的公司构建了几个安装程序所以我对WIX还是比较熟悉的我们最近决定拥有一个构建服务器来自动构建我们的解决方案它构建调试和发布以及混淆和非混淆项目你真的不需要理解这些您需要了解的是我有相同
通过 jQuery 选择动态 HTML 元素

我正在构建一个 ASP NET MVC 应用程序并且正在使用jQuery Blueimp https github com blueimp jQuery File Upload动态添加到页面的 PartialView 上的插件根据插件的
将两个表合并为一个输出

假设我有两张表已知营业时间 ChargeNum CategoryID Month Hours 111111 1 2 1 09 10 111111 1 3 1 09 30 111111 1 4 1 09 50 222222 1 3 1 09
C#动态支持吗？

看完之后这个帖子 https stackoverflow com questions 2674906 when should one use dynamic keyword in c sharp 4 0k和链接我还有 2 个问题问题 1
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
MySQL通过UPDATE/DELETE合并重复数据记录

我有一个看起来像这样的表 mysql gt SELECT FROM Colors ID USERNAME RED GREEN YELLOW BLUE ORANGE PURPLE 1 joe 1 null 1 null null null 2

随机推荐

使用UI控件的单元测试方法

我目前正在编写一些方法对表单控件例如文本框组框执行一些基本操作这些操作是通用的可以在任何应用程序中使用我开始编写一些单元测试只是想知道我应该使用 System Windows Forms 中的真实表单控件还是应该模拟我要测
MVC 店面 - Kona - 他们在哪里？

我正在寻找 ASP Net MVC 的成熟购物车示例我发现很多指向 MVC Storefront 的链接 1 http mvcsamples codeplex com 显然不再开发以及其他讨论 Kona 的文章这是一个基于 MVC S
.htaccess 重定向而不更改地址栏

我正在尝试写一个 htaccess规则重定向到脚本该脚本进一步重定向到其他地方有点像 URL 缩短器的工作原理但是我don t希望地址栏在 htaccess重定向的一部分脚本重定向改变位置是可以的我在用着mod rewrite
当保存在后台异步完成时，我应该如何保证从嵌套上下文中的不同线程获取的结果是最新的？

我已阅读以下内容PerformBlock 和 PerformBlockAndWait 之间的行为差异 https stackoverflow com questions 32198678 behavior differences betw
PowerShell 完全复制数组

我正在尝试创建现有数组的完整副本每次我尝试这个似乎都不起作用问题是我正在修改新复制的数组中的对象名称但它们在原始数组中也发生了更改下面的代码高度简化因为除了重命名对象名称之外还发生了很多事情但它证明了我认为的观点一些示例代码
Pycharm 无法刷新远程解释器的骨架

我已经将 docker compose 设置为 Django 应用程序的 python 解释器第一次一切都按预期工作但是当我在requirements txt出了问题首先我收到一条消息说明要求已成功安装然后收到此消息 Couldn
IncompleteAnnotationException：dagger.提供缺少的元素类型

当我添加以下代码时出现错误 Singleton Provides fun provideGson Gson return Gson 我真的不知道为什么将 Dagger 更新到 2 12 从 2 8 后一切正常
如何在 django 1.7.6 中以编程方式触发密码重置电子邮件？

我遇到了一个问题我必须将 200 多个新用户加载到我的 django 应用程序中并立即向他们发送密码重置电子邮件这只能发生一次仅由我完成并在后端安静地运行网上冲浪只给我带来了一个或多或少正确的答案在没有浏览器的情况下在 djan
字符串拆分为列而不是行

样本数据 id email address email new 1 email protected cdn cgi l email protection email protected cdn cgi l email protection
如何使用 SQL Server 2005 将逗号分隔值扩展为单独的行？

我有一个看起来像这样的表 ProductId Color 1 red blue green 2 null 3 purple green 我想将其扩展为 ProductId Color 1 red 1 blue 1 green 2 null
SQL Server 2005 中的拦截和重写查询

我们有一个构建在 SQL Server 2005 之上的应用程序我们无法控制该应用程序我们最近发现该应用程序正在向 SQL 发送一些非常低效的 SELECT 查询从而导致数据库出现严重的容量问题我知道正确的解决方案是破解应用程序的代
Arduino 错误“无法找到寄存器来溢出类‘NO_REGS’”

编译草图时出现错误这个草图在以前版本 1 0 6 的arduino IDE中编译得很好我知道使用1 6 9 我不明白这个消息消息是这样的 Arduino 1 6 9 Windows 7 TD 1 29 Board Arduino Ge
为 Atom 的 Hydrogen 添加新的 Conda Env

我在工作流程中使用许多 conda 环境并且在探索对象时喜欢使用 Atom 编辑器的 Hydrogen 包然而我总是忘记如何将新的 jupyter 内核添加到新环境中即使它只有两行代码这些代码行是什么这是 github 问题的链接
创建一个圆形箭头

我正在尝试制作一个如下所示的箭头然而这是我能得到的最接近的 button margin 4em 0 padding 2em width 15 margin 0 auto text align center background colo
NodeJS OAuth2.0原理

最近我正在开发一个nodeJS项目我正在考虑如何着手和实现我的移动应用程序的安全模块我以前在 C 项目中使用过 OAuth 2 0 协议在 NET中有两个不错的开源项目 https github com thinktecture Th
iPhone-topViewController与其他形式的区别

我是基于 NavigationControl 的应用程序的代表当我尝试使用访问 rootViewController 时 RootViewController rootViewController RootViewController n
二叉树上的BFS和DFS的运行时间是O(N)吗？

我意识到 BFS 和 DFS 在通用图上的运行时间是 O n m 其中 n 是节点数 m 是边数这是因为对于每个节点必须考虑其邻接列表但是 BFS和DFS在二叉树上执行时的运行时间是多少呢我认为它应该是 O n 因为可以从节点出去的
使用 UIDocumentPickerViewController，是否可以像 Slack 一样在第一次打开时显示默认服务（Dropbox、Google Drive 等）？

通常 UIDocumentPicker 的行为是您呈现然后用户必须使用右上角的位置菜单在服务之间切换是否可以默认先显示 Dropbox 或 Google Drive 几乎就像我们深度链接到 UIDocumentPicker 服务
如何使用 Python API 了解我在 Firestore 中拥有哪些集合

我正在使用 Python 从客户端连接到 firestore 数据库问题是我不知道如何查看他在数据库中有哪些集合 from google cloud import firestore import firebase admin from
如何在 Palantir Foundry 中联合多个动态输入？

我想在 Palantir Foundry 中合并多个数据集数据集的名称是动态的因此我无法在transform df 静态地有没有一种方法可以动态地将多个输入放入transform df并合并所有这些数据框我尝试循环数据集例如 li

如何在 Palantir Foundry 中联合多个动态输入？

如何在 Palantir Foundry 中联合多个动态输入？ 的相关文章

随机推荐

热门标签

如何在 Palantir Foundry 中联合多个动态输入？的相关文章