Bigdata

如何高效存储数百万条统计记录？

我们的 eshop 中有大约 170 万个产品我们想要记录该产品在 1 年的时间内有多少浏览量我们想要每至少 2 小时记录一次浏览量问题是该任务使用什么结构现在我们尝试在具有 2 列的记录中保留 30 天的统计数据classifi

sql postgresql Bigdata

HBase 单行事务支持中的行锁定

在 HBase 中为了提供单行事务支持它使用行锁定概念假设例如 Put p new Put Row Key 该语句将锁定该行所以直到我们完成表 put p 锁不会被释放所以在这之间如果我开始一个新的看跌期权即 Put

Hadoop NoSQL Hbase Bigdata

非常大且非常稀疏的非负矩阵分解

我有一个非常大且稀疏的矩阵 531K x 315K 单元格总数约为 1670 亿非零值仅为 1s 非零值总数约为 45K 有高效的 NMF 包来解决我的问题吗我知道有几个软件包可以实现这一点并且它们仅适用于小尺寸的数据矩阵任何想法都

python Bigdata sparsematrix matrixfactorization NMF

将 Apache Hadoop 数据输出存储到 Mysql 数据库

我需要将map reduce程序的输出存储到数据库中有什么办法吗如果是这样是否可以根据要求将输出存储到多个列和表中请给我建议一些解决方案谢谢展示了一个很好的例子在这个博客上 http archanaschangale wordp

mysql Hadoop MapReduce databaseconnection Bigdata

MapReduce任务数量

我需要一些有关如何在我的应用程序中获取正确数量的 Map 和 Reduce 任务的帮助有什么办法可以发现这个数字吗 Thanks 由于在执行之前无法准确确定应用程序执行前的任务失败重试和推测性执行尝试的因素因此无法获取应用程序执行前的

Hadoop MapReduce Bigdata

Hive 如何存储数据（从 HDFS 加载）？

我对 Hadoop HDFS 和 Hbase 和 Hadoop 生态系统 Hive Pig Impala 等相当陌生我对 Hadoop 组件例如 NamedNode DataNode Job Tracker Task Tracker

Hadoop hive Hbase HDFS Bigdata

SparkSQL 是 RDBMS 还是 NOSQL？

最近和朋友讨论Spark SQL的特性时遇到了这个问题它们是 ACID 事务吗 Spark SQL 遵循 CAP 定理吗我对这个领域有点陌生请帮助我提前致谢 SparkSQL 是一种查询语言而不是像 Hive 或 MYSQL 那

sql hive apachesparksql Bigdata NoSQL

在python中批处理非常大的文本文件

我正在尝试将一个非常大的文本文件大约 150 GB 批处理为几个较小的文本文件大约 10 GB 我的一般流程是 iterate over file one line at a time accumulate batch as strin

python Bigdata batching

Elasticsearch 独奏与 Couchbase+Elasticsearch

让我描述一下这个问题现在我正处于架构变革的阶段我曾经使用 Elasticsearch 作为聚合和搜索工具但现在我正在考虑使用它作为主要数据库我读到不建议使用 Elasticsearch 作为主数据库仅作为索引所以我阅读了有关将其

elasticsearch Bigdata couchbase

python pandas 中的分块文件上的数百万个键上的 grouby 出现问题

我有一个非常大的 CSV 文件数十千兆其中包含带有以下列的网络日志 user id time stamp category clicked 我必须构建一个记分器来识别用户喜欢和不喜欢的类别请注意我有超过 1000 万用户我首先把它

python csv pandas Bigdata

clusterExport到R并行中的单线程

我想分割一个大的data frame分成块并将每个块单独传递给集群的不同成员就像是 library parallel cl lt makeCluster detectCores for i in 1 detectCores cluster

r Multithreading parallelprocessing Bigdata

可扩展方式访问 ConcurrentHashMap 的每个元素一次

我有 32 个机器线程和 1 个ConcurrentHashMap

Java concurrency HashMap Bigdata javautilconcurrent

如何将 apply 或 sapply 或 lapply 与 ffdf 一起使用？

有没有办法直接对 ffdf 对象的列使用应用类型构造我试图计算每列中的 NA 而不必将其转换为标准数据框我可以使用以下方法获取各个列的 na 计数 sum is na ffdf columnname 但是有没有办法同时对数据框中的所有列

r Bigdata

在 Kafka 流作业中进行同步数据库查询或静态调用是一个好习惯吗？

我使用Kafka Streams来处理实时数据在Kafka Streams任务中我需要访问MySQL来查询数据并且需要调用另一个Restful服务所有操作都是同步的恐怕同步调用会降低流任务的处理能力这是一个好的做法吗或者有什么

ApacheKafka Bigdata Streaming apachekafkastreams

如何使用 shell 脚本将 HiveQL 查询的结果输出到 CSV？

我想运行多个 Hive 查询最好是并行而不是顺序运行并将每个查询的输出存储到 csv 文件中例如 query1输出在csv1 query2输出在csv2等等我会在下班后运行这些查询目标是在下一个工作日分析输出我对使用 bash

database bash Hadoop hive Bigdata

h5py 编写：如何高效地将数百万个 .npy 数组写入 .hdf5 文件？

我必须将大图像的子样本存储为 npy大小为 20 20 5 的数组为了在训练分类模型时进行统一采样我正在寻找一种有效的方法来存储近 1000 万个子样本以实现这一点如果我将它们存储为整个图像则训练期间的采样将不能代表分布我有存储

python NumPy Bigdata HDF5 h5py

kappa架构和lambda架构有什么区别

如果 Kappa 架构直接对流进行分析而不是将数据分成两个流那么在像 Kafka 这样的消息系统中数据存储在哪里或者可以在数据库中进行重新计算吗单独的批处理层是否比使用流处理引擎重新计算进行批处理分析更快需要考虑的一个非常简单的

sqoop merge-key 创建多个部分文件，而不是不符合使用 merge-key 目的的文件

理想情况下当我们运行增量时没有merge key它将创建带有附加数据集的新文件但如果我们使用merge key然后它将创建新的整个数据集仅包括一个文件中的前一个数据集但是当我使用时我没有得到一个零件文件incremental app

mysql Hadoop Bigdata SQOOP

R：将 R 因子扩展为每个因子级别的虚拟列

我在 R 中有一个相当大的数据框有两列我正在努力摆脱Code柱子 factor输入 858 个级别虚拟变量问题是当我尝试这样做时 R Studio 总是崩溃 gt str d data frame 649226 obs of 2

r Bigdata categoricaldata dummydata modelmatrix

如何修复 src 文件系统问题上的资源更改

我正在尝试使用Hive关于 MR 执行SQL它中途失败并出现以下错误 Application application 1570514228864 0001 failed 2 times due to AM Container for app

Java Hadoop hive Bigdata