PySpark 通过 Hive Metastore 读取 Iceberg 表到 S3

2023-12-22

我正在尝试通过部署的配置单元元数据存储服务与存储在 S3 上的 Iceberg 表进行交互。目的是能够推拉存储为 Iceberg 数据湖（在 S3 上）的大量数据。再过几天，文档、谷歌、堆栈溢出......只是不太顺利。

From Iceberg 的文档 https://iceberg.apache.org/docs/latest/getting-started/唯一的依赖似乎是iceberg-spark-runtime，没有指导方针pyspark的观点，但这基本上就是我所取得的进展：

带有设置元数据存储 uri 的 Iceberg-spark-runtime 允许我进行元数据调用，例如列出数据库等（元数据数据库功能 - postgres）
添加试错 jar 来解决大部分问题java ClassNotFound 异常.

在iceberg-hive-runtime-1.2.0.jar之后

Next exc > java.lang.ClassNotFoundException：未找到类 org.apache.hadoop.fs.s3a.S3AFileSystem

在iceberg-hive-runtime-1.2.0.jar之后，hadoop-aws-3.3.5.jar

下一步 > java.lang.NoClassDefFoundError: com/amazonaws/AmazonClientException

添加iceberg-hive-runtime-1.2.0.jar、hadoop-aws-3.3.5.jar、aws-java-sdk-bundle-1.12.316.jar后

下一步 > java.lang.NoClassDefFoundError: org/apache/hadoop/fs/impl/WeakRefMetricsSource

添加iceberg-hive-runtime-1.2.0.jar、hadoop-aws-3.3.5.jar、aws-java-sdk-bundle-1.12.316.jar、hadoop-common-3.3.5.jar后

Next exc > org.apache.iceberg.exceptions.RuntimeIOException：无法打开文件的输入流引起原因：java.nio.file.AccessDeniedException

从 k8s 上的 Jupyter pod 添加了 s3 服务帐户，并测试了交互是否通过 boto3 进行。从 pyspark 来看，表读取确实仍然引发异常s3.model.AmazonS3Exception: Forbidden，直到找到可以设置的正确 Spark 配置参数（使用从服务帐户挂载到 pod 中的 s3 会话令牌）
下一个异常与java.lang.NoSuchMethodError: 'java.lang.Object org.apache.hadoop.fs.statistics.impl.IOStatisticsBinding，即使看到这些函数明确包含在hadoop-common.jar通过查看类源代码 https://jar-download.com/artifacts/org.apache.hadoop/hadoop-common/3.3.5/source-code/org/apache/hadoop/fs/statistics/impl/IOStatisticsBinding.java

在这里，我决定认输，问问自己是否完全走错了方向，或者到底发生了什么。这是我当前的代码以及一些示例测试：

token : str = "-- jwt s3 session token --"

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession, HiveContext

conf = SparkConf()
conf.set("spark.jars", "iceberg-hive-runtime-1.2.0.jar,hadoop-aws-3.3.5.jar,aws-java-sdk-bundle-1.12.316.jar,hadoop-common-3.3.5.jar")
conf.set("hive.metastore.uris", "thrift://hivemetastore-hive-metastore:9083")
conf.set("fs.s3a.assumed.role.arn", "-- aws iam role --")
conf.set("spark.hadoop.fs.s3a.session.token", token)
conf.set("fs.s3a.aws.credentials.provider", "com.amazonaws.auth.WebIdentityTokenCredentialsProvider")

sc = SparkContext( conf=conf)
spark = SparkSession.builder.appName("py sql").enableHiveSupport() \
    .getOrCreate()

检查 hive Metastore pod 上的 hive 版本（版本为 3.1.3）：

$ hive --version

# response
WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete.
WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete.
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/hive/lib/log4j-slf4j-impl-2.17.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/hadoop/share/hadoop/common/lib/slf4j-reload4j-1.7.36.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Hive 3.1.3
Git git://MacBook-Pro.fios-router.home/Users/ngangam/commit/hive -r 4df4d75bf1e16fe0af75aad0b4179c34c07fc975
Compiled by ngangam on Sun Apr 3 16:58:16 EDT 2022
From source with checksum 5da234766db5dfbe3e92926c9bbab2af

由此我能够：

# list databases
spark.catalog.listDatabases()

# print table schema
spark_df = spark.sql("select * from db_name.table_name")
spark_df.printSchema()

# show tables from database via sql, but not with pyspark function
# -> works
spark.sql("show tables from db_name").show()
# -> not work
spark.catalog.listTables('db_name')

# not able to interact - read data from the actual external s3 table
spark.read.format("iceberg")
spark.catalog.setCurrentDatabase('db_name')
spark.read.table("table_name")

Iceberg 表 S3 与异常日志的接口是（来自point 4):

Py4JJavaError: An error occurred while calling o44.table.
: java.lang.NoSuchMethodError: 'java.lang.Object org.apache.hadoop.fs.statistics.impl.IOStatisticsBinding.invokeTrackingDuration(org.apache.hadoop.fs.statistics.DurationTracker, org.apache.hadoop.util.functional.CallableRaisingIOE)'
    at org.apache.hadoop.fs.s3a.Invoker.onceTrackingDuration(Invoker.java:147)
    at org.apache.hadoop.fs.s3a.S3AInputStream.reopen(S3AInputStream.java:282)
    at org.apache.hadoop.fs.s3a.S3AInputStream.lambda$lazySeek$1(S3AInputStream.java:435)
    at org.apache.hadoop.fs.s3a.Invoker.lambda$maybeRetry$3(Invoker.java:284)
    at org.apache.hadoop.fs.s3a.Invoker.once(Invoker.java:122)
    at org.apache.hadoop.fs.s3a.Invoker.lambda$maybeRetry$5(Invoker.java:408)
    at org.apache.hadoop.fs.s3a.Invoker.retryUntranslated(Invoker.java:468)
    at org.apache.hadoop.fs.s3a.Invoker.maybeRetry(Invoker.java:404)
    at org.apache.hadoop.fs.s3a.Invoker.maybeRetry(Invoker.java:282)
    at org.apache.hadoop.fs.s3a.Invoker.maybeRetry(Invoker.java:326)
    at org.apache.hadoop.fs.s3a.S3AInputStream.lazySeek(S3AInputStream.java:427)
    at org.apache.hadoop.fs.s3a.S3AInputStream.read(S3AInputStream.java:545)
    at java.base/java.io.DataInputStream.read(DataInputStream.java:151)
    at org.apache.iceberg.hadoop.HadoopStreams$HadoopSeekableInputStream.read(HadoopStreams.java:123)
    at org.apache.iceberg.shaded.com.fasterxml.jackson.core.json.ByteSourceJsonBootstrapper.ensureLoaded(ByteSourceJsonBootstrapper.java:539)
    at org.apache.iceberg.shaded.com.fasterxml.jackson.core.json.ByteSourceJsonBootstrapper.detectEncoding(ByteSourceJsonBootstrapper.java:133)
    at org.apache.iceberg.shaded.com.fasterxml.jackson.core.json.ByteSourceJsonBootstrapper.constructParser(ByteSourceJsonBootstrapper.java:256)
    at org.apache.iceberg.shaded.com.fasterxml.jackson.core.JsonFactory._createParser(JsonFactory.java:1685)
    at org.apache.iceberg.shaded.com.fasterxml.jackson.core.JsonFactory.createParser(JsonFactory.java:1084)
    at org.apache.iceberg.shaded.com.fasterxml.jackson.databind.ObjectMapper.readValue(ObjectMapper.java:3714)
    at org.apache.iceberg.TableMetadataParser.read(TableMetadataParser.java:273)
    at org.apache.iceberg.TableMetadataParser.read(TableMetadataParser.java:266)
    at org.apache.iceberg.BaseMetastoreTableOperations.lambda$refreshFromMetadataLocation$0(BaseMetastoreTableOperations.java:189)
    at org.apache.iceberg.BaseMetastoreTableOperations.lambda$refreshFromMetadataLocation$1(BaseMetastoreTableOperations.java:208)
    at org.apache.iceberg.util.Tasks$Builder.runTaskWithRetry(Tasks.java:413)
    at org.apache.iceberg.util.Tasks$Builder.runSingleThreaded(Tasks.java:219)
    at org.apache.iceberg.util.Tasks$Builder.run(Tasks.java:203)
    at org.apache.iceberg.util.Tasks$Builder.run(Tasks.java:196)
    at org.apache.iceberg.BaseMetastoreTableOperations.refreshFromMetadataLocation(BaseMetastoreTableOperations.java:208)
    at org.apache.iceberg.BaseMetastoreTableOperations.refreshFromMetadataLocation(BaseMetastoreTableOperations.java:185)
    at org.apache.iceberg.BaseMetastoreTableOperations.refreshFromMetadataLocation(BaseMetastoreTableOperations.java:180)
    at org.apache.iceberg.hive.HiveTableOperations.doRefresh(HiveTableOperations.java:176)
    at org.apache.iceberg.BaseMetastoreTableOperations.refresh(BaseMetastoreTableOperations.java:97)
    at org.apache.iceberg.BaseMetastoreTableOperations.current(BaseMetastoreTableOperations.java:80)
    at org.apache.iceberg.BaseMetastoreCatalog.loadTable(BaseMetastoreCatalog.java:47)
    at org.apache.iceberg.mr.Catalogs.loadTable(Catalogs.java:124)
    at org.apache.iceberg.mr.Catalogs.loadTable(Catalogs.java:111)
    at org.apache.iceberg.mr.hive.HiveIcebergSerDe.initialize(HiveIcebergSerDe.java:84)
    at org.apache.hadoop.hive.serde2.AbstractSerDe.initialize(AbstractSerDe.java:54)
    at org.apache.hadoop.hive.serde2.SerDeUtils.initializeSerDe(SerDeUtils.java:533)
    at org.apache.hadoop.hive.metastore.MetaStoreUtils.getDeserializer(MetaStoreUtils.java:453)
    at org.apache.hadoop.hive.metastore.MetaStoreUtils.getDeserializer(MetaStoreUtils.java:440)
    at org.apache.hadoop.hive.ql.metadata.Table.getDeserializerFromMetaStore(Table.java:281)
    at org.apache.hadoop.hive.ql.metadata.Table.getDeserializer(Table.java:263)
    at org.apache.hadoop.hive.ql.metadata.Table.getColsInternal(Table.java:641)
    at org.apache.hadoop.hive.ql.metadata.Table.getCols(Table.java:624)
    at org.apache.spark.sql.hive.client.HiveClientImpl.liftedTree2$1(HiveClientImpl.scala:448)
    at org.apache.spark.sql.hive.client.HiveClientImpl.org$apache$spark$sql$hive$client$HiveClientImpl$$convertHiveTableToCatalogTable(HiveClientImpl.scala:447)
    at org.apache.spark.sql.hive.client.HiveClientImpl.$anonfun$getTableOption$3(HiveClientImpl.scala:434)
    at scala.Option.map(Option.scala:230)
    at org.apache.spark.sql.hive.client.HiveClientImpl.$anonfun$getTableOption$1(HiveClientImpl.scala:434)
    at org.apache.spark.sql.hive.client.HiveClientImpl.$anonfun$withHiveState$1(HiveClientImpl.scala:298)
    at org.apache.spark.sql.hive.client.HiveClientImpl.liftedTree1$1(HiveClientImpl.scala:229)
    at org.apache.spark.sql.hive.client.HiveClientImpl.retryLocked(HiveClientImpl.scala:228)
    at org.apache.spark.sql.hive.client.HiveClientImpl.withHiveState(HiveClientImpl.scala:278)
    at org.apache.spark.sql.hive.client.HiveClientImpl.getTableOption(HiveClientImpl.scala:432)
    at org.apache.spark.sql.hive.client.HiveClient.getTable(HiveClient.scala:95)
    at org.apache.spark.sql.hive.client.HiveClient.getTable$(HiveClient.scala:94)
    at org.apache.spark.sql.hive.client.HiveClientImpl.getTable(HiveClientImpl.scala:92)
    at org.apache.spark.sql.hive.HiveExternalCatalog.getRawTable(HiveExternalCatalog.scala:122)
    at org.apache.spark.sql.hive.HiveExternalCatalog.$anonfun$getTable$1(HiveExternalCatalog.scala:729)
    at org.apache.spark.sql.hive.HiveExternalCatalog.withClient(HiveExternalCatalog.scala:101)
    at org.apache.spark.sql.hive.HiveExternalCatalog.getTable(HiveExternalCatalog.scala:729)
    at org.apache.spark.sql.catalyst.catalog.ExternalCatalogWithListener.getTable(ExternalCatalogWithListener.scala:138)
    at org.apache.spark.sql.catalyst.catalog.SessionCatalog.getTableRawMetadata(SessionCatalog.scala:515)
    at org.apache.spark.sql.catalyst.catalog.SessionCatalog.getTableMetadata(SessionCatalog.scala:500)
    at org.apache.spark.sql.execution.datasources.v2.V2SessionCatalog.loadTable(V2SessionCatalog.scala:66)
    at org.apache.spark.sql.connector.catalog.CatalogV2Util$.loadTable(CatalogV2Util.scala:311)
    at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$.$anonfun$lookupRelation$3(Analyzer.scala:1202)
    at scala.Option.orElse(Option.scala:447)
    at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$.$anonfun$lookupRelation$1(Analyzer.scala:1201)
    at scala.Option.orElse(Option.scala:447)
    at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$.org$apache$spark$sql$catalyst$analysis$Analyzer$ResolveRelations$$lookupRelation(Analyzer.scala:1193)
    at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$$anonfun$apply$13.applyOrElse(Analyzer.scala:1064)
    at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$$anonfun$apply$13.applyOrElse(Analyzer.scala:1028)
    at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper.$anonfun$resolveOperatorsUpWithPruning$3(AnalysisHelper.scala:138)
    at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:176)
    at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper.$anonfun$resolveOperatorsUpWithPruning$1(AnalysisHelper.scala:138)
    at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$.allowInvokingTransformsInAnalyzer(AnalysisHelper.scala:323)
    at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper.resolveOperatorsUpWithPruning(AnalysisHelper.scala:134)
    at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper.resolveOperatorsUpWithPruning$(AnalysisHelper.scala:130)
    at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.resolveOperatorsUpWithPruning(LogicalPlan.scala:30)
    at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$.apply(Analyzer.scala:1028)
    at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$.apply(Analyzer.scala:987)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor.$anonfun$execute$2(RuleExecutor.scala:211)
    at scala.collection.LinearSeqOptimized.foldLeft(LinearSeqOptimized.scala:126)
    at scala.collection.LinearSeqOptimized.foldLeft$(LinearSeqOptimized.scala:122)
    at scala.collection.immutable.List.foldLeft(List.scala:91)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor.$anonfun$execute$1(RuleExecutor.scala:208)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor.$anonfun$execute$1$adapted(RuleExecutor.scala:200)
    at scala.collection.immutable.List.foreach(List.scala:431)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor.execute(RuleExecutor.scala:200)
    at org.apache.spark.sql.catalyst.analysis.Analyzer.org$apache$spark$sql$catalyst$analysis$Analyzer$$executeSameContext(Analyzer.scala:231)
    at org.apache.spark.sql.catalyst.analysis.Analyzer.$anonfun$execute$1(Analyzer.scala:227)
    at org.apache.spark.sql.catalyst.analysis.AnalysisContext$.withNewAnalysisContext(Analyzer.scala:173)
    at org.apache.spark.sql.catalyst.analysis.Analyzer.execute(Analyzer.scala:227)
    at org.apache.spark.sql.catalyst.analysis.Analyzer.execute(Analyzer.scala:188)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor.$anonfun$executeAndTrack$1(RuleExecutor.scala:179)
    at org.apache.spark.sql.catalyst.QueryPlanningTracker$.withTracker(QueryPlanningTracker.scala:88)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor.executeAndTrack(RuleExecutor.scala:179)
    at org.apache.spark.sql.catalyst.analysis.Analyzer.$anonfun$executeAndCheck$1(Analyzer.scala:212)
    at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$.markInAnalyzer(AnalysisHelper.scala:330)
    at org.apache.spark.sql.catalyst.analysis.Analyzer.executeAndCheck(Analyzer.scala:211)
    at org.apache.spark.sql.execution.QueryExecution.$anonfun$analyzed$1(QueryExecution.scala:76)
    at org.apache.spark.sql.catalyst.QueryPlanningTracker.measurePhase(QueryPlanningTracker.scala:111)
    at org.apache.spark.sql.execution.QueryExecution.$anonfun$executePhase$2(QueryExecution.scala:185)
    at org.apache.spark.sql.execution.QueryExecution$.withInternalError(QueryExecution.scala:510)
    at org.apache.spark.sql.execution.QueryExecution.$anonfun$executePhase$1(QueryExecution.scala:185)
    at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:779)
    at org.apache.spark.sql.execution.QueryExecution.executePhase(QueryExecution.scala:184)
    at org.apache.spark.sql.execution.QueryExecution.analyzed$lzycompute(QueryExecution.scala:76)
    at org.apache.spark.sql.execution.QueryExecution.analyzed(QueryExecution.scala:74)
    at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:66)
    at org.apache.spark.sql.Dataset$.$anonfun$ofRows$1(Dataset.scala:91)
    at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:779)
    at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:89)
    at org.apache.spark.sql.DataFrameReader.table(DataFrameReader.scala:607)
    at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:77)
    at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.base/java.lang.reflect.Method.invoke(Method.java:568)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
    at py4j.ClientServerConnection.run(ClientServerConnection.java:106)
    at java.base/java.lang.Thread.run(Thread.java:833)

我遇到了类似的问题，减少 hadoop 库上的补丁版本帮助我解决了该问题：

spark.jars.packages org.apache.hadoop:hadoop-aws:3.3.4,org.apache.hadoop:hadoop-common:3.3.4

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

hive

Iceberg

PySpark 通过 Hive Metastore 读取 Iceberg 表到 S3 的相关文章

Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
在 Hive 中获取数据的交集

我在配置单元中有以下数据 userid cityid 1 15 2 15 1 7 3 15 2 8 3 9 3 7 我只想保留具有 cityid 15 和 cityid 7 的用户 ID 在我的示例中它将是用户 ID 1 和 3 我试过
在 HIVE 中，使用 COALESCE 将 Null 值替换为相同的列值

我想用同一列中的值替换特定列的空值我想得到结果我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
如何在蜂巢中的每个组中按计数 desc 进行排序？

这是 HQL select A B count as cnt from test table group by A B order by cnt desc 示例输出如下 a1 b1 5 a2 b1 3 a1 b2 2 a2 b2 1 但我想
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
<问题> Hive 中的浮点数据类型

初始化数据 CREATE TABLE test test data user VARCHAR 10 amount FLOAT TBLPROPERTIES transactional true INSERT INTO test test da
使用 impala 按范围连接表的有效方法

我第一个有下表 Range 包括值范围和附加列 row From To Country 1 1200 1500 2 2200 2700 3 1700 1900 4 2100 2150 The From and Toare bigint并且是
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF

随机推荐

使用 FileReader 的 readAsBinaryString 和 readAsText 之间的区别

举个例子当我读到字符时 u03C0 从使用 FileReader API 的文件中当我使用以下命令读取它时我会得到 pi 字符FileReader readAsText blob 这是预期的但是当我使用FileReader rea
在 JavaScript 中将 RSS pubDate 解析为 Date 对象

我该怎么做 2010 年 2 月 2 日星期二 19 34 21 等 GMT 它开箱即用 JavaScript 中的 Date 对象可以通过传递一些标准时间格式来设置 RSS 中使用的格式就是其中之一 Example var pubDate
Java 函数的递归版本在第一次调用时比迭代慢，但之后更快。为什么是这样？

对于一项作业我目前正在尝试测量矩阵链问题的迭代解决方案与递归解决方案之间的性能空间时间差异问题的要点和我用于迭代版本的解决方案可以在这里找到 http www geeksforgeeks org dynamic programmi
R 日期时间序列缺失值

我正在从 chr 转换为格式为 Y m d H M S 的 POSIXct 但是数据集中的某些时间没有秒部分 S 因此当我转换为DateTime 不带秒的时间将作为空单元格返回 NA我如何确保这种情况不会发生我希望它们全部作为 Date
使用实体框架 Code First 进行事务处理

有一个答案here https stackoverflow com questions 815586 entity framework using transactions or savechangesfalse and acceptall
使用签名检测 PDF 更改

我正在开发一个 Web 应用程序允许用户下载 PDF 文件他们必须使用其证书使用 Adob e Acrobat 对该文件进行签名然后上传回网络我在用着C and itextsharp 5 5 9 0用于所有与 PDF 相关的工作现
链接服务器“(null)”的 OLE DB 提供程序“Microsoft.ACE.OLEDB.12.0”

我正在尝试运行以下语句但收到下面的错误消息我无休无止地研究答案但没有一个对我有用我正在运行 Office 365 64 位我已经加载了 Microsoft Access 数据库引擎 64 位这是在带有 SSDT 的 Visual
Octave 中行向量的转置导致字符串转义字符出现问题

在 Sublime 中我尝试对 Octave 文件中的行向量进行转置如下所示 y 4 5 6 y transpose y 但是每当我尝试在 Octave 中运行它时它的行为就好像转置运算符的引入是字符串的开头并且忽略以下代码行我
Openssl 显示不同的服务器证书，而浏览器显示正确

我正在使用 openssl s client showcerts connect test abc com 443 state debug 检查服务器证书服务器使用的是nginx 但是当我请求上述 openssl 时服务器证书显示为 x
应用程序因 DispatchSemaphore wait() 冻结

我创建了一个函数 getFriends 它从 firestore 读取用户的好友列表并将每个好友放入 LocalUser 对象这是我的自定义用户类中以便在表格视图中显示好友列表我需要 DispatchSemaphore wait
CAML 查询：如何从结果集中过滤文件夹？

我使用 caml 查询来选择用户修改或添加的所有文档查询在指定网站集的所有子网站上递归运行现在的问题是我无法删除也是结果集一部分的文件夹现在我正在从结果数据表中过滤它们但我想知道是否可以仅使用 caml 从结果集中过滤掉文件夹这
适用于 iPhone 的 Sparrow 或 Cocos2D 2D 游戏？

我想为 iPhone 开发一款游戏对于 iPhone 中的 2D 游戏开发从长远来看哪一个会更好 Sparrow 还是 Cocos2D 我看到 Sparrow 框架的文档很少但 Sparrow 论坛表示与 Cocos2D 相比在
有没有办法加快 MATLAB 中的串联速度？

我想沿着三维连接 z cat 3 A B C 很多很多次如果我沿着第二个维度这样做的话 z A B C 会比 z cat 2 A B C 可以在三维空间上完成类似的事情吗或者有其他方法可以加快速度吗有一些索引选项可以获得比cat 3
Kubernetes 检查“silent”pod 是否完成执行

假设我定义了一个 pod 它只运行几段代码然后退出我需要确保该 Pod 退出然后才能允许其他 Pod 运行实现这一点的最佳方法是什么我曾经通过执行网络请求来检查 pod 是否准备好例如一旦准备好一些 webapps pod 将
为什么 .paintComponent() 定义在 JComponent 上？

很抱歉如果我的问题由于是理论上的问题而无法适应 Stack Overflow 的要求但我不知道还能问哪里在过去的几周里我一直在尝试更好地了解 Swing API 的工作原理及其组件以便创建我自己的自定义组件我读过大量的教程在这
什么会导致链接服务器返回有限数量的数据？

我们链接到 sql server 2012 实例的服务器出现问题我们通过 odbc 或 oledb 连接链接的服务器是 Pervasive SQL 只要结果集很小就可以通过这种方式从链接服务器中进行选择 select from link
使用 XCUITEST 驱动程序在 Appium 中通过 xpath 查找元素

更新自动化框架的任务落到了我的身上我是 iOS 测试新手因此在使用 Appium 1 6 0 beta1 中的新 XCUITEST 驱动程序时遇到问题我已启动并运行驱动程序但大多数元素是使用框架中的 xpath 定位的我知道一点也
根据同一行中另一列的值填充缺失值

我有一个 DataFrame 看起来像这样 ColA ColB ColC ColD 100 A X1 NaN 200 B X2 AAA 300 C X3 NaN 我想填补缺失值ColD基于价值ColA 我需要的结果是这样的 if value
警告：array_merge()：处理两个 $_POST 时，参数 #1 不是数组

我收到以下错误警告 array merge 参数 1 不是数组加工时 POST cpl 虽然 POST add 工作正常 if is array POST add foreach POST add as key gt value POST
PySpark 通过 Hive Metastore 读取 Iceberg 表到 S3

我正在尝试通过部署的配置单元元数据存储服务与存储在 S3 上的 Iceberg 表进行交互目的是能够推拉存储为 Iceberg 数据湖在 S3 上的大量数据再过几天文档谷歌堆栈溢出只是不太顺利 From Iceberg 的文

PySpark 通过 Hive Metastore 读取 Iceberg 表到 S3

PySpark 通过 Hive Metastore 读取 Iceberg 表到 S3 的相关文章

随机推荐

热门标签