Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark parquet 分区:大量文件
我正在尝试利用 Spark 分区 我试图做类似的事情 data write partitionBy key parquet location 这里的问题是每个分区都会创建大量镶木地板文件 如果我尝试从根目录读取 则会导致读取速度变慢 为了避
apachespark
apachesparksql
RDD
apachespark20
Bigdata
Hive ParseException - 无法识别“结束”“字符串”附近的输入
尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
Hadoop
MapReduce
hive
Bigdata
amazondynamodb
Hive 中字符串数据类型是否有最大大小?
谷歌了很多 但没有在任何地方找到它 或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型 如果是这样 我在哪里可以找到我的集群可以支持的最大字符串数据类型大小 提前致谢 Hive 列表的当前文档STRING作为有效的数据类
Hadoop
hive
Bigdata
为什么 Spark 在字数统计时速度很快? [复制]
这个问题在这里已经有答案了 测试用例 Spark 在 20 秒以上对 6G 数据进行字数统计 我明白映射减少 FP and stream编程模型 但无法弄清楚字数统计的速度如此惊人 我认为这种情况下是I O密集型计算 不可能在20秒以上扫描
parallelprocessing
Streaming
apachespark
Bigdata
RDD
使用 big.matrix 对象计算欧几里德距离矩阵
我有一个类对象big matrix in R有尺寸778844 x 2 这些值都是整数 公里 我的目标是使用以下公式计算欧几里德距离矩阵big matrix并因此得到一个类的对象big matrix 我想知道是否有最佳方法可以做到这一点 我
r
matrix
Bigdata
sparsematrix
rbigmemory
检查 Spark 中矩阵每列中唯一值的数量
我有一个 csv 文件当前存储为 Spark 中的数据框 scala gt df res11 org apache spark sql DataFrame 2013 03 25 12 49 36 000 string OES PSI603
apachespark
Bigdata
DataFrame
如何将Spring boot日志直接摄取到elastic中
我正在研究将 Spring Boot 应用程序日志直接发送到 Elastic Search 的可行性 不使用 filebeats 或logstash 我相信 Ingest 插件可能会对此有所帮助 我最初的想法是使用 TCP 上的 logba
Spring
elasticsearch
logging
dataingestion
Bigdata
如何确定 HBase 表的大小?有什么命令可以这样做吗?
我的 Hbase shell 上有多个表 我想将它们复制到我的文件系统上 有些表超过 100GB 但是 我的本地文件系统中只剩下 55GB 可用空间 因此 我想知道 hbase 表的大小 以便我可以仅导出小尺寸的表 任何建议表示赞赏 谢谢
Hadoop
export
Hbase
Bigdata
是否可以在表之间创建关系?
Bigquery 看起来很棒 我有一个数据库类型 ETL 其中我的方案在实体之间有多种关系 我想知道是否有办法在它们之间建立关系 或者是否可以在数据集之间以某种方式模拟它们 请原谅我的英语 这不是我的语言 而且我不太了解它 您无法在 Big
sql
database
googlebigquery
Bigdata
HRegionServer 显示“错误告诉主机我们已经启动”。显示套接字异常:参数无效
我正在尝试在 3 台 centos 机器上创建一个 hbase 集群 Hadoop v 2 8 0 已启动并在我配置的 HBase v 1 2 5 上运行 Hbase 启动正常 它启动了 HMaster 和区域服务器 但仍然在区域服务器和
apache
Hadoop
Hbase
centos7
Bigdata
在 Spark 中,广播是如何工作的?
这是一个非常简单的问题 在 Spark 中 broadcast可用于有效地将变量发送给执行器 这是如何运作的 更确切地说 何时发送值 我一打电话就发送broadcast 或者何时使用这些值 数据到底发送到哪里 发送给所有执行者 还是只发送给
apachespark
Hadoop2
Bigdata
在 R 中对非常大的数据集(180 万行 x 270 列)进行建模
我正在研究一个视窗8操作系统带有8 GB 内存 我有一个数据框180 万行 x 270 列我必须对其执行glm logit 任何其他分类 我尝试使用 ff 和 bigglm 包来处理数据 但我仍然面临错误的问题 Error cannot a
r
Classification
Bigdata
在 Flink 流中使用静态 DataSet 丰富 DataStream
我正在编写一个 Flink 流程序 其中我需要使用一些静态数据集 信息库 IB 来丰富用户事件的数据流 对于例如假设我们有一个买家的静态数据集 并且有一个传入的事件点击流 对于每个事件 我们希望添加一个布尔标志来指示事件的执行者是否是买家
Bigdata
apacheflink
dataanalysis
flinkstreaming
将 data.frame 转换为 ff
我想将 data frame 转换为 ff 对象 并使用 as ffdf 进行描述here https stackoverflow com questions 15787221 how can i apply ffdf to non ato
r
Bigdata
仅当尝试打开假定的缓存文件时,Hadoop 2 IOException
我最近更新到 hadoop 2 2 使用本教程here http codesfusion blogspot com 2013 10 setup hadoop 2x 220 on ubuntu html m 1 我的主要作业类如下所示 并抛出
Java
Hadoop
Bigdata
hadoopyarn
了解 Azure 事件中心分区使用者模式
Azure 事件中心使用分区使用者模式中描述的docs https learn microsoft com en us azure event hubs event hubs features 当涉及到现实世界场景时 我在理解该模型的消费者
Azure
Bigdata
Cloud
IOT
azureeventhub
PySpark NoSuchMethodError:将数据插入数据库时sun.nio.ch.DirectBuffer.cleaner
我在尝试将大型数据帧插入 Postgres 时收到此错误 NoSuchMethodError sun nio ch DirectBuffer cleaner 这是一个完整的错误 之前有很多操作 所以没有理由将它们附加到问题中 您能否给一些建
python
apachespark
PySpark
Bigdata
py4j
如何使用 Spark 处理一系列 hbase 行?
我正在尝试使用 HBase 作为 Spark 的数据源 因此 第一步是从 HBase 表创建 RDD 由于 Spark 使用 hadoop 输入格式 我可以找到一种通过创建 rdd 来使用所有行的方法http www vidyasource
Java
Hadoop
Bigdata
apachespark
Postgresql - 在大数据库中使用数组的性能
假设我们有一个包含 600 万条记录的表 有 16 个整数列和少量文本列 它是只读表 因此每个整数列都有一个索引 每条记录大约 50 60 字节 表名称为 项目 服务器为 12 GB RAM 1 5 TB SATA 4 核 所有 postg
Arrays
performance
postgresql
join
Bigdata
使用 Kinesis Analytics 构建实时会话
是否有某个地方的示例 或者有人可以解释如何使用 Kinesis Analytics 构建实时会话 即会话化 这里提到这可能 https aws amazon com blogs aws amazon kinesis analytics pr
amazonkinesis
Bigdata
1
2
3
4
5
6
...10
»