Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 R 中对非常大的数据集(180 万行 x 270 列)进行建模
我正在研究一个视窗8操作系统带有8 GB 内存 我有一个数据框180 万行 x 270 列我必须对其执行glm logit 任何其他分类 我尝试使用 ff 和 bigglm 包来处理数据 但我仍然面临错误的问题 Error cannot a
r
Classification
Bigdata
在 Flink 流中使用静态 DataSet 丰富 DataStream
我正在编写一个 Flink 流程序 其中我需要使用一些静态数据集 信息库 IB 来丰富用户事件的数据流 对于例如假设我们有一个买家的静态数据集 并且有一个传入的事件点击流 对于每个事件 我们希望添加一个布尔标志来指示事件的执行者是否是买家
Bigdata
apacheflink
dataanalysis
flinkstreaming
将 data.frame 转换为 ff
我想将 data frame 转换为 ff 对象 并使用 as ffdf 进行描述here https stackoverflow com questions 15787221 how can i apply ffdf to non ato
r
Bigdata
仅当尝试打开假定的缓存文件时,Hadoop 2 IOException
我最近更新到 hadoop 2 2 使用本教程here http codesfusion blogspot com 2013 10 setup hadoop 2x 220 on ubuntu html m 1 我的主要作业类如下所示 并抛出
Java
Hadoop
Bigdata
hadoopyarn
了解 Azure 事件中心分区使用者模式
Azure 事件中心使用分区使用者模式中描述的docs https learn microsoft com en us azure event hubs event hubs features 当涉及到现实世界场景时 我在理解该模型的消费者
Azure
Bigdata
Cloud
IOT
azureeventhub
PySpark NoSuchMethodError:将数据插入数据库时sun.nio.ch.DirectBuffer.cleaner
我在尝试将大型数据帧插入 Postgres 时收到此错误 NoSuchMethodError sun nio ch DirectBuffer cleaner 这是一个完整的错误 之前有很多操作 所以没有理由将它们附加到问题中 您能否给一些建
python
apachespark
PySpark
Bigdata
py4j
如何使用 Spark 处理一系列 hbase 行?
我正在尝试使用 HBase 作为 Spark 的数据源 因此 第一步是从 HBase 表创建 RDD 由于 Spark 使用 hadoop 输入格式 我可以找到一种通过创建 rdd 来使用所有行的方法http www vidyasource
Java
Hadoop
Bigdata
apachespark
Postgresql - 在大数据库中使用数组的性能
假设我们有一个包含 600 万条记录的表 有 16 个整数列和少量文本列 它是只读表 因此每个整数列都有一个索引 每条记录大约 50 60 字节 表名称为 项目 服务器为 12 GB RAM 1 5 TB SATA 4 核 所有 postg
Arrays
performance
postgresql
join
Bigdata
使用 Kinesis Analytics 构建实时会话
是否有某个地方的示例 或者有人可以解释如何使用 Kinesis Analytics 构建实时会话 即会话化 这里提到这可能 https aws amazon com blogs aws amazon kinesis analytics pr
amazonkinesis
Bigdata
如何在 Elasticsearch 中或在 Lucene 级别进行联接
在 Elasticsearch 中执行相当于 SQL 连接的最佳方法是什么 我有一个包含两个大表的 SQL 设置 Persons 和 Items 一个人可以拥有many项目 人员和项目行都可以更改 即更新 我必须运行根据人和物品的各个方面进
join
Lucene
NoSQL
elasticsearch
Bigdata
Cassandra 时间序列数据模型
我正在研究用于存储时间序列的 Cassandra 数据模型 我是 Cassandra 新手 我有两个应用程序 日内股票数据和传感器数据 股票数据将以一分钟的时间分辨率保存 七个数据字段构建一个时间范围 符号 日期时间 开盘价 最高价 最低价
database
NoSQL
cassandra
TimeSeries
Bigdata
在nodejs中写入文件之前对数据流进行排序
我有一个输入文件 可能包含最多 1M 条记录 每条记录如下所示 field 1 field 2 field3 n 我想读取这个输入文件并根据field3在将其写入另一个文件之前 这是我到目前为止所拥有的 var fs require fs
javascript
nodejs
file
Sorting
Bigdata
有关 HIVE_STATS_JDBC_TIMEOUT 的任何更新以及如何在源级别跳过它
当我尝试使用时Spark Sql反对Hive 会抛出如下错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT at org apache
apachespark
Hadoop
hive
Bigdata
如何将 RDD 保存到 HDFS 中并稍后将其读回?
我有一个 RDD 其元素类型为 Long String 由于某种原因 我想将整个 RDD 保存到 HDFS 中 然后在 Spark 程序中读回该 RDD 可以这样做吗 如果是这样 怎么办 有可能的 在RDD中你有saveAsObjectFi
scala
apachespark
HDFS
RDD
Bigdata
HDFS 作为 cloudera 快速入门 docker 中的卷
我对 hadoop 和 docker 都很陌生 我一直致力于扩展 cloudera quickstart docker 镜像 docker 文件 并希望从主机挂载一个目录并将其映射到 hdfs 位置 以便提高性能并将数据保存在本地 当我在任
Hadoop
Docker
HDFS
Cloudera
Bigdata
将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法
我正在寻找解决方案来加速我编写的函数 以循环遍历 pandas 数据帧并比较当前行和前一行之间的列值 例如 这是我的问题的简化版本 User Time Col1 newcol1 newcol2 newcol3 newcol4 0 1 6 c
python
performance
pandas
Bigdata
Cython
Pig - 如何迭代一袋地图
让我解释一下这个问题 我有这行代码 u FOREACH persons GENERATE FLATTEN 0 experiences as j dump u 产生以下输出 id 1 date begin 12 2012 descriptio
Hadoop
Bigdata
apachepig
如何将非分区表转换为分区表
如何使用 StandardSQL 或 LegacySQL 重命名 BigQuery 中的表 以便对之前未分区的表进行分区 我正在尝试使用 StandardSQL 但出现以下错误 重命名表dataset old table name TO d
googlebigquery
Bigdata
Google BigQuery 查询速度很慢
我正在使用 Google BigQuery 并且正在从 PHP 执行一些简单的查询 例如 SELECT from emails WHERE email mail test com 我只是检查该电子邮件是否存在于表中 表 emails 目前为
php
sql
googleappengine
Bigdata
googlebigquery
oozie Sqoop 操作无法将数据导入到 hive
我在执行 oozie sqoop 操作时遇到问题 在日志中我可以看到 sqoop 能够将数据导入到临时目录 然后 sqoop 创建 hive 脚本来导入数据 将临时数据导入配置单元时失败 在日志中我没有收到任何异常 下面是我正在使用的 sq
Hadoop
hive
Bigdata
SQOOP
oozie
«
1
2
3
4
5
6
...10
»