Bigdata

Spark parquet 分区：大量文件

我正在尝试利用 Spark 分区我试图做类似的事情 data write partitionBy key parquet location 这里的问题是每个分区都会创建大量镶木地板文件如果我尝试从根目录读取则会导致读取速度变慢为了避

apachespark apachesparksql RDD apachespark20 Bigdata

Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser

Hadoop MapReduce hive Bigdata amazondynamodb

Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类

Hadoop hive Bigdata

为什么 Spark 在字数统计时速度很快？ [复制]

这个问题在这里已经有答案了测试用例 Spark 在 20 秒以上对 6G 数据进行字数统计我明白映射减少 FP and stream编程模型但无法弄清楚字数统计的速度如此惊人我认为这种情况下是I O密集型计算不可能在20秒以上扫描

parallelprocessing Streaming apachespark Bigdata RDD

使用 big.matrix 对象计算欧几里德距离矩阵

我有一个类对象big matrix in R有尺寸778844 x 2 这些值都是整数公里我的目标是使用以下公式计算欧几里德距离矩阵big matrix并因此得到一个类的对象big matrix 我想知道是否有最佳方法可以做到这一点我

r matrix Bigdata sparsematrix rbigmemory

检查 Spark 中矩阵每列中唯一值的数量

我有一个 csv 文件当前存储为 Spark 中的数据框 scala gt df res11 org apache spark sql DataFrame 2013 03 25 12 49 36 000 string OES PSI603

apachespark Bigdata DataFrame

如何将Spring boot日志直接摄取到elastic中

我正在研究将 Spring Boot 应用程序日志直接发送到 Elastic Search 的可行性不使用 filebeats 或logstash 我相信 Ingest 插件可能会对此有所帮助我最初的想法是使用 TCP 上的 logba

Spring elasticsearch logging dataingestion Bigdata

如何确定 HBase 表的大小？有什么命令可以这样做吗？

我的 Hbase shell 上有多个表我想将它们复制到我的文件系统上有些表超过 100GB 但是我的本地文件系统中只剩下 55GB 可用空间因此我想知道 hbase 表的大小以便我可以仅导出小尺寸的表任何建议表示赞赏谢谢

Hadoop export Hbase Bigdata

是否可以在表之间创建关系？

Bigquery 看起来很棒我有一个数据库类型 ETL 其中我的方案在实体之间有多种关系我想知道是否有办法在它们之间建立关系或者是否可以在数据集之间以某种方式模拟它们请原谅我的英语这不是我的语言而且我不太了解它您无法在 Big

sql database googlebigquery Bigdata

HRegionServer 显示“错误告诉主机我们已经启动”。显示套接字异常：参数无效

我正在尝试在 3 台 centos 机器上创建一个 hbase 集群 Hadoop v 2 8 0 已启动并在我配置的 HBase v 1 2 5 上运行 Hbase 启动正常它启动了 HMaster 和区域服务器但仍然在区域服务器和

apache Hadoop Hbase centos7 Bigdata

在 Spark 中，广播是如何工作的？

这是一个非常简单的问题在 Spark 中 broadcast可用于有效地将变量发送给执行器这是如何运作的更确切地说何时发送值我一打电话就发送broadcast 或者何时使用这些值数据到底发送到哪里发送给所有执行者还是只发送给

apachespark Hadoop2 Bigdata

在 R 中对非常大的数据集（180 万行 x 270 列）进行建模

我正在研究一个视窗8操作系统带有8 GB 内存我有一个数据框180 万行 x 270 列我必须对其执行glm logit 任何其他分类我尝试使用 ff 和 bigglm 包来处理数据但我仍然面临错误的问题 Error cannot a

r Classification Bigdata

在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序其中我需要使用一些静态数据集信息库 IB 来丰富用户事件的数据流对于例如假设我们有一个买家的静态数据集并且有一个传入的事件点击流对于每个事件我们希望添加一个布尔标志来指示事件的执行者是否是买家

Bigdata apacheflink dataanalysis flinkstreaming

将 data.frame 转换为 ff

我想将 data frame 转换为 ff 对象并使用 as ffdf 进行描述here https stackoverflow com questions 15787221 how can i apply ffdf to non ato

r Bigdata

仅当尝试打开假定的缓存文件时，Hadoop 2 IOException

我最近更新到 hadoop 2 2 使用本教程here http codesfusion blogspot com 2013 10 setup hadoop 2x 220 on ubuntu html m 1 我的主要作业类如下所示并抛出

Java Hadoop Bigdata hadoopyarn

了解 Azure 事件中心分区使用者模式

Azure 事件中心使用分区使用者模式中描述的docs https learn microsoft com en us azure event hubs event hubs features 当涉及到现实世界场景时我在理解该模型的消费者

Azure Bigdata Cloud IOT azureeventhub

PySpark NoSuchMethodError：将数据插入数据库时sun.nio.ch.DirectBuffer.cleaner

我在尝试将大型数据帧插入 Postgres 时收到此错误 NoSuchMethodError sun nio ch DirectBuffer cleaner 这是一个完整的错误之前有很多操作所以没有理由将它们附加到问题中您能否给一些建

python apachespark PySpark Bigdata py4j

如何使用 Spark 处理一系列 hbase 行？

我正在尝试使用 HBase 作为 Spark 的数据源因此第一步是从 HBase 表创建 RDD 由于 Spark 使用 hadoop 输入格式我可以找到一种通过创建 rdd 来使用所有行的方法http www vidyasource

Java Hadoop Bigdata apachespark

Postgresql - 在大数据库中使用数组的性能

假设我们有一个包含 600 万条记录的表有 16 个整数列和少量文本列它是只读表因此每个整数列都有一个索引每条记录大约 50 60 字节表名称为项目服务器为 12 GB RAM 1 5 TB SATA 4 核所有 postg

Arrays performance postgresql join Bigdata

使用 Kinesis Analytics 构建实时会话

是否有某个地方的示例或者有人可以解释如何使用 Kinesis Analytics 构建实时会话即会话化这里提到这可能 https aws amazon com blogs aws amazon kinesis analytics pr

amazonkinesis Bigdata