Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何高效存储数百万条统计记录?
我们的 eshop 中有大约 170 万个产品 我们想要记录该产品在 1 年的时间内有多少浏览量 我们想要每至少 2 小时记录一次浏览量 问题是该任务使用什么结构 现在 我们尝试在具有 2 列的记录中保留 30 天的统计数据classifi
sql
postgresql
Bigdata
HBase 单行事务支持中的行锁定
在 HBase 中 为了提供单行事务支持 它使用行锁定概念 假设 例如 Put p new Put Row Key 该语句将锁定该行 所以 直到我们完成 表 put p 锁不会被释放 所以 在这之间 如果我开始一个新的看跌期权 即 Put
Hadoop
NoSQL
Hbase
Bigdata
非常大且非常稀疏的非负矩阵分解
我有一个非常大且稀疏的矩阵 531K x 315K 单元格总数约为 1670 亿 非零值仅为 1s 非零值总数约为 45K 有高效的 NMF 包来解决我的问题吗 我知道有几个软件包可以实现这一点 并且它们仅适用于小尺寸的数据矩阵 任何想法都
python
Bigdata
sparsematrix
matrixfactorization
NMF
将 Apache Hadoop 数据输出存储到 Mysql 数据库
我需要将map reduce程序的输出存储到数据库中 有什么办法吗 如果是这样 是否可以根据要求将输出存储到多个列和表中 请给我建议一些解决方案 谢谢 展示了一个很好的例子在这个博客上 http archanaschangale wordp
mysql
Hadoop
MapReduce
databaseconnection
Bigdata
MapReduce任务数量
我需要一些有关如何在我的应用程序中获取正确数量的 Map 和 Reduce 任务的帮助 有什么办法可以发现这个数字吗 Thanks 由于在执行之前无法准确确定应用程序执行前的任务失败 重试和推测性执行尝试的因素 因此无法获取应用程序执行前的
Hadoop
MapReduce
Bigdata
Hive 如何存储数据(从 HDFS 加载)?
我对 Hadoop HDFS 和 Hbase 和 Hadoop 生态系统 Hive Pig Impala 等 相当陌生 我对 Hadoop 组件 例如 NamedNode DataNode Job Tracker Task Tracker
Hadoop
hive
Hbase
HDFS
Bigdata
SparkSQL 是 RDBMS 还是 NOSQL?
最近和朋友讨论Spark SQL的特性时 遇到了这个问题 它们是 ACID 事务吗 Spark SQL 遵循 CAP 定理吗 我对这个领域有点陌生 请帮助我 提前致谢 SparkSQL 是一种查询语言 而不是像 Hive 或 MYSQL 那
sql
hive
apachesparksql
Bigdata
NoSQL
在python中批处理非常大的文本文件
我正在尝试将一个非常大的文本文件 大约 150 GB 批处理为几个较小的文本文件 大约 10 GB 我的一般流程是 iterate over file one line at a time accumulate batch as strin
python
Bigdata
batching
Elasticsearch 独奏 与 Couchbase+Elasticsearch
让我描述一下这个问题 现在我正处于架构变革的阶段 我曾经使用 Elasticsearch 作为聚合和搜索工具 但现在我正在考虑使用它作为主要数据库 我读到不建议使用 Elasticsearch 作为主数据库 仅作为索引 所以我阅读了有关将其
elasticsearch
Bigdata
couchbase
python pandas 中的分块文件上的数百万个键上的 grouby 出现问题
我有一个非常大的 CSV 文件 数十千兆 其中包含带有以下列的网络日志 user id time stamp category clicked 我必须构建一个记分器来识别用户喜欢和不喜欢的类别 请注意 我有超过 1000 万用户 我首先把它
python
csv
pandas
Bigdata
clusterExport到R并行中的单线程
我想分割一个大的data frame分成块并将每个块单独传递给集群的不同成员 就像是 library parallel cl lt makeCluster detectCores for i in 1 detectCores cluster
r
Multithreading
parallelprocessing
Bigdata
可扩展方式访问 ConcurrentHashMap
的每个元素一次
我有 32 个机器线程和 1 个ConcurrentHashMap
Java
concurrency
HashMap
Bigdata
javautilconcurrent
如何将 apply 或 sapply 或 lapply 与 ffdf 一起使用?
有没有办法直接对 ffdf 对象的列使用应用类型构造 我试图计算每列中的 NA 而不必将其转换为标准数据框 我可以使用以下方法获取各个列的 na 计数 sum is na ffdf columnname 但是有没有办法同时对数据框中的所有列
r
Bigdata
在 Kafka 流作业中进行同步数据库查询或静态调用是一个好习惯吗?
我使用Kafka Streams来处理实时数据 在Kafka Streams任务中 我需要访问MySQL来查询数据 并且需要调用另一个Restful服务 所有操作都是同步的 恐怕同步调用会降低流任务的处理能力 这是一个好的做法吗 或者有什么
ApacheKafka
Bigdata
Streaming
apachekafkastreams
如何使用 shell 脚本将 HiveQL 查询的结果输出到 CSV?
我想运行多个 Hive 查询 最好是并行而不是顺序运行 并将每个查询的输出存储到 csv 文件中 例如 query1输出在csv1 query2输出在csv2等等 我会在下班后运行这些查询 目标是在下一个工作日分析输出 我对使用 bash
database
bash
Hadoop
hive
Bigdata
h5py 编写:如何高效地将数百万个 .npy 数组写入 .hdf5 文件?
我必须将大图像的子样本存储为 npy大小为 20 20 5 的数组 为了在训练分类模型时进行统一采样 我正在寻找一种有效的方法来存储近 1000 万个子样本 以实现这一点 如果我将它们存储为整个图像 则训练期间的采样将不能代表分布 我有存储
python
NumPy
Bigdata
HDF5
h5py
kappa架构和lambda架构有什么区别
如果 Kappa 架构直接对流进行分析 而不是将数据分成两个流 那么在像 Kafka 这样的消息系统中 数据存储在哪里 或者可以在数据库中进行重新计算吗 单独的批处理层是否比使用流处理引擎重新计算进行批处理分析更快 需要考虑的一个非常简单的
sqoop merge-key 创建多个部分文件,而不是不符合使用 merge-key 目的的文件
理想情况下 当我们运行增量时没有merge key它将创建带有附加数据集的新文件 但如果我们使用merge key然后它将创建新的整个数据集 仅包括一个文件中的前一个数据集 但是当我使用时我没有得到一个零件文件incremental app
mysql
Hadoop
Bigdata
SQOOP
R:将 R 因子扩展为每个因子级别的虚拟列
我在 R 中有一个相当大的数据框 有两列 我正在努力摆脱Code柱子 factor输入 858 个级别 虚拟变量 问题是 当我尝试这样做时 R Studio 总是崩溃 gt str d data frame 649226 obs of 2
r
Bigdata
categoricaldata
dummydata
modelmatrix
如何修复 src 文件系统问题上的资源更改
我正在尝试使用Hive关于 MR 执行SQL它中途失败并出现以下错误 Application application 1570514228864 0001 failed 2 times due to AM Container for app
Java
Hadoop
hive
Bigdata
«
1 ...
3
4
5
6
7
8
9
10
»