Bigdata

在 R 中对非常大的数据集（180 万行 x 270 列）进行建模

我正在研究一个视窗8操作系统带有8 GB 内存我有一个数据框180 万行 x 270 列我必须对其执行glm logit 任何其他分类我尝试使用 ff 和 bigglm 包来处理数据但我仍然面临错误的问题 Error cannot a

r Classification Bigdata

在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序其中我需要使用一些静态数据集信息库 IB 来丰富用户事件的数据流对于例如假设我们有一个买家的静态数据集并且有一个传入的事件点击流对于每个事件我们希望添加一个布尔标志来指示事件的执行者是否是买家

Bigdata apacheflink dataanalysis flinkstreaming

将 data.frame 转换为 ff

我想将 data frame 转换为 ff 对象并使用 as ffdf 进行描述here https stackoverflow com questions 15787221 how can i apply ffdf to non ato

r Bigdata

仅当尝试打开假定的缓存文件时，Hadoop 2 IOException

我最近更新到 hadoop 2 2 使用本教程here http codesfusion blogspot com 2013 10 setup hadoop 2x 220 on ubuntu html m 1 我的主要作业类如下所示并抛出

Java Hadoop Bigdata hadoopyarn

了解 Azure 事件中心分区使用者模式

Azure 事件中心使用分区使用者模式中描述的docs https learn microsoft com en us azure event hubs event hubs features 当涉及到现实世界场景时我在理解该模型的消费者

Azure Bigdata Cloud IOT azureeventhub

PySpark NoSuchMethodError：将数据插入数据库时sun.nio.ch.DirectBuffer.cleaner

我在尝试将大型数据帧插入 Postgres 时收到此错误 NoSuchMethodError sun nio ch DirectBuffer cleaner 这是一个完整的错误之前有很多操作所以没有理由将它们附加到问题中您能否给一些建

python apachespark PySpark Bigdata py4j

如何使用 Spark 处理一系列 hbase 行？

我正在尝试使用 HBase 作为 Spark 的数据源因此第一步是从 HBase 表创建 RDD 由于 Spark 使用 hadoop 输入格式我可以找到一种通过创建 rdd 来使用所有行的方法http www vidyasource

Java Hadoop Bigdata apachespark

Postgresql - 在大数据库中使用数组的性能

假设我们有一个包含 600 万条记录的表有 16 个整数列和少量文本列它是只读表因此每个整数列都有一个索引每条记录大约 50 60 字节表名称为项目服务器为 12 GB RAM 1 5 TB SATA 4 核所有 postg

Arrays performance postgresql join Bigdata

使用 Kinesis Analytics 构建实时会话

是否有某个地方的示例或者有人可以解释如何使用 Kinesis Analytics 构建实时会话即会话化这里提到这可能 https aws amazon com blogs aws amazon kinesis analytics pr

amazonkinesis Bigdata

如何在 Elasticsearch 中或在 Lucene 级别进行联接

在 Elasticsearch 中执行相当于 SQL 连接的最佳方法是什么我有一个包含两个大表的 SQL 设置 Persons 和 Items 一个人可以拥有many项目人员和项目行都可以更改即更新我必须运行根据人和物品的各个方面进

join Lucene NoSQL elasticsearch Bigdata

Cassandra 时间序列数据模型

我正在研究用于存储时间序列的 Cassandra 数据模型我是 Cassandra 新手我有两个应用程序日内股票数据和传感器数据股票数据将以一分钟的时间分辨率保存七个数据字段构建一个时间范围符号日期时间开盘价最高价最低价

database NoSQL cassandra TimeSeries Bigdata

在nodejs中写入文件之前对数据流进行排序

我有一个输入文件可能包含最多 1M 条记录每条记录如下所示 field 1 field 2 field3 n 我想读取这个输入文件并根据field3在将其写入另一个文件之前这是我到目前为止所拥有的 var fs require fs

javascript nodejs file Sorting Bigdata

有关 HIVE_STATS_JDBC_TIMEOUT 的任何更新以及如何在源级别跳过它

当我尝试使用时Spark Sql反对Hive 会抛出如下错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT at org apache

apachespark Hadoop hive Bigdata

如何将 RDD 保存到 HDFS 中并稍后将其读回？

我有一个 RDD 其元素类型为 Long String 由于某种原因我想将整个 RDD 保存到 HDFS 中然后在 Spark 程序中读回该 RDD 可以这样做吗如果是这样怎么办有可能的在RDD中你有saveAsObjectFi

scala apachespark HDFS RDD Bigdata

HDFS 作为 cloudera 快速入门 docker 中的卷

我对 hadoop 和 docker 都很陌生我一直致力于扩展 cloudera quickstart docker 镜像 docker 文件并希望从主机挂载一个目录并将其映射到 hdfs 位置以便提高性能并将数据保存在本地当我在任

Hadoop Docker HDFS Cloudera Bigdata

将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法

我正在寻找解决方案来加速我编写的函数以循环遍历 pandas 数据帧并比较当前行和前一行之间的列值例如这是我的问题的简化版本 User Time Col1 newcol1 newcol2 newcol3 newcol4 0 1 6 c

python performance pandas Bigdata Cython

Pig - 如何迭代一袋地图

让我解释一下这个问题我有这行代码 u FOREACH persons GENERATE FLATTEN 0 experiences as j dump u 产生以下输出 id 1 date begin 12 2012 descriptio

Hadoop Bigdata apachepig

如何将非分区表转换为分区表

如何使用 StandardSQL 或 LegacySQL 重命名 BigQuery 中的表以便对之前未分区的表进行分区我正在尝试使用 StandardSQL 但出现以下错误重命名表dataset old table name TO d

googlebigquery Bigdata

Google BigQuery 查询速度很慢

我正在使用 Google BigQuery 并且正在从 PHP 执行一些简单的查询例如 SELECT from emails WHERE email mail test com 我只是检查该电子邮件是否存在于表中表 emails 目前为

php sql googleappengine Bigdata googlebigquery

oozie Sqoop 操作无法将数据导入到 hive

我在执行 oozie sqoop 操作时遇到问题在日志中我可以看到 sqoop 能够将数据导入到临时目录然后 sqoop 创建 hive 脚本来导入数据将临时数据导入配置单元时失败在日志中我没有收到任何异常下面是我正在使用的 sq

Hadoop hive Bigdata SQOOP oozie