Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark 有没有办法捕获执行器终止异常?
在执行我的 Spark 程序期间 有时 其原因对我来说仍然是个谜 yarn 会杀死容器 执行器 并给出超出内存限制的消息 我的程序确实恢复了 但 Spark 通过生成一个新容器重新执行任务 但是 在我的程序中 任务还会在磁盘上创建一些中间文
apachespark
Bigdata
hadoopyarn
从多个大型 NetCDF 文件中提取数据的快速/高效方法
我只需要从全局网格中提取特定节点集的数据 由纬度 经度坐标 按 5000 10000 的顺序 给出 这些数据是水力参数的时间序列 例如波高 全局数据集很大 因此分为许多 NetCDF 文件 每个 NetCDF 文件大小约为 5GB 包含整个
python
Bigdata
NetCDF
pythonxarray
jq Streaming - 过滤嵌套列表并保留全局结构
在一个大型 json 文件中 我想从嵌套列表中删除一些元素 但保留文档的整体结构 我的示例将其输入为 但真实的输入足够大以要求流式传输 keep untouched keep this this list filter this keep
json
Bigdata
jq
streamprocessing
hadoop中reducer的数量
我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以 节点数 每个节点的最大容器数 3 减速机数量设定为mapred re
Hadoop
MapReduce
Hadoop2
reducers
Bigdata
(R 错误)错误:cons 内存耗尽(达到限制?)
我正在处理大数据 并且有一个 70GB 的 JSON 文件 我正在使用 jsonlite 库将文件加载到内存中 我尝试过 AWS EC2 x1 16large 机器 976 GB RAM 来执行此负载 但 R 因错误而中断 Error co
r
Bigdata
R中几个big.matrix对象的逐元素平均值
我有 17 个文件支持的 big matrix 对象 暗淡 10985 x 52598 每个 4 3GB 我想计算其中的元素平均值 结果可以存储在另一个big matrix gcm res outputM 中 biganalytics ap
r
Bigdata
rbigmemory
计算 HBase 表中列族的记录数
我正在寻找一个 HBase shell 命令来计算指定列族中的记录数 我知道我可以运行 echo scan table name hbase shell grep column family name wc l 然而 这将比标准计数命令运行
Hbase
jruby
Bigdata
database
NoSQL
Sqoop mysql错误-通信链路故障
尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
mysql
Hadoop
Bigdata
SQOOP
sqoop2
Spark parquet 分区:大量文件
我正在尝试利用 Spark 分区 我试图做类似的事情 data write partitionBy key parquet location 这里的问题是每个分区都会创建大量镶木地板文件 如果我尝试从根目录读取 则会导致读取速度变慢 为了避
apachespark
apachesparksql
RDD
apachespark20
Bigdata
Hive ParseException - 无法识别“结束”“字符串”附近的输入
尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
Hadoop
MapReduce
hive
Bigdata
amazondynamodb
Hive 中字符串数据类型是否有最大大小?
谷歌了很多 但没有在任何地方找到它 或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型 如果是这样 我在哪里可以找到我的集群可以支持的最大字符串数据类型大小 提前致谢 Hive 列表的当前文档STRING作为有效的数据类
Hadoop
hive
Bigdata
为什么 Spark 在字数统计时速度很快? [复制]
这个问题在这里已经有答案了 测试用例 Spark 在 20 秒以上对 6G 数据进行字数统计 我明白映射减少 FP and stream编程模型 但无法弄清楚字数统计的速度如此惊人 我认为这种情况下是I O密集型计算 不可能在20秒以上扫描
parallelprocessing
Streaming
apachespark
Bigdata
RDD
使用 big.matrix 对象计算欧几里德距离矩阵
我有一个类对象big matrix in R有尺寸778844 x 2 这些值都是整数 公里 我的目标是使用以下公式计算欧几里德距离矩阵big matrix并因此得到一个类的对象big matrix 我想知道是否有最佳方法可以做到这一点 我
r
matrix
Bigdata
sparsematrix
rbigmemory
检查 Spark 中矩阵每列中唯一值的数量
我有一个 csv 文件当前存储为 Spark 中的数据框 scala gt df res11 org apache spark sql DataFrame 2013 03 25 12 49 36 000 string OES PSI603
apachespark
Bigdata
DataFrame
如何将Spring boot日志直接摄取到elastic中
我正在研究将 Spring Boot 应用程序日志直接发送到 Elastic Search 的可行性 不使用 filebeats 或logstash 我相信 Ingest 插件可能会对此有所帮助 我最初的想法是使用 TCP 上的 logba
Spring
elasticsearch
logging
dataingestion
Bigdata
如何确定 HBase 表的大小?有什么命令可以这样做吗?
我的 Hbase shell 上有多个表 我想将它们复制到我的文件系统上 有些表超过 100GB 但是 我的本地文件系统中只剩下 55GB 可用空间 因此 我想知道 hbase 表的大小 以便我可以仅导出小尺寸的表 任何建议表示赞赏 谢谢
Hadoop
export
Hbase
Bigdata
是否可以在表之间创建关系?
Bigquery 看起来很棒 我有一个数据库类型 ETL 其中我的方案在实体之间有多种关系 我想知道是否有办法在它们之间建立关系 或者是否可以在数据集之间以某种方式模拟它们 请原谅我的英语 这不是我的语言 而且我不太了解它 您无法在 Big
sql
database
googlebigquery
Bigdata
HRegionServer 显示“错误告诉主机我们已经启动”。显示套接字异常:参数无效
我正在尝试在 3 台 centos 机器上创建一个 hbase 集群 Hadoop v 2 8 0 已启动并在我配置的 HBase v 1 2 5 上运行 Hbase 启动正常 它启动了 HMaster 和区域服务器 但仍然在区域服务器和
apache
Hadoop
Hbase
centos7
Bigdata
在 Spark 中,广播是如何工作的?
这是一个非常简单的问题 在 Spark 中 broadcast可用于有效地将变量发送给执行器 这是如何运作的 更确切地说 何时发送值 我一打电话就发送broadcast 或者何时使用这些值 数据到底发送到哪里 发送给所有执行者 还是只发送给
apachespark
Hadoop2
Bigdata
在 R 中对非常大的数据集(180 万行 x 270 列)进行建模
我正在研究一个视窗8操作系统带有8 GB 内存 我有一个数据框180 万行 x 270 列我必须对其执行glm logit 任何其他分类 我尝试使用 ff 和 bigglm 包来处理数据 但我仍然面临错误的问题 Error cannot a
r
Classification
Bigdata
1
2
3
4
5
6
...10
»