Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
“谓词下推”和“投影下推”有什么区别?
我找到了多种信息来源 例如发现的一个here 将 谓词下推 解释为 如果您可以将部分查询 下推 到数据存储的位置 从而过滤掉大部分数据 那么您可以大大减少网络流量 但是 我还在其他文档中看到了术语 投影下推 例如here 这似乎是同一件事
apachespark
Bigdata
parquet
按 ID 删除数百万行的最佳方法
我需要从 PG 数据库中删除大约 200 万行 我有一个需要删除的 ID 列表 然而 我尝试做到这一点的任何方法都需要几天的时间 我尝试将它们放入表中并以 100 为一批进行操作 4 天后 该操作仍在运行 仅删除了 2972 68 行 我必
sql
postgresql
Bigdata
sqldelete
postgresqlperformance
在 Hadoop 2 上运行作业时无法初始化集群异常
该问题与我之前的问题相关所有守护进程都在运行 jps 显示 6663 JobHistoryServer 7213 ResourceManager 9235 Jps 6289 DataNode 6200 NameNode 7420 NodeM
Java
Exception
Hadoop
Bigdata
hadoopyarn
如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列?
我正在尝试使用 Spark MLlib 使用 Scala 对包含分类变量的数据集执行逻辑回归 LogisticRegressionWithLBFGS 我发现 Spark 无法使用这种变量 在 R 中 有一种简单的方法来处理此类问题 我将变量
scala
apachespark
Bigdata
apachesparkmllib
categoricaldata
PySpark DataFrames - 无需转换为 Pandas 即可枚举的方法?
我有一个很大pyspark sql dataframe DataFrame名为 df 我需要某种枚举记录的方法 因此 能够访问具有特定索引的记录 或选择具有索引范围的记录组 在熊猫中 我可以做 indexes 2 3 6 7 df inde
python
apachespark
Bigdata
PySpark
RDD
Spark 可扩展性:我做错了什么?
我正在使用 Spark 处理数据 它可以处理一天的数据 40G 但失败了OOM一周的数据 import pyspark import datetime import operator sc pyspark SparkContext sqc
apachespark
Bigdata
PySpark
scalability
distributedcomputing
PostgreSQL 中的计算和节省空间
我在 pg 中有一张表 如下所示 CREATE TABLE t a BIGSERIAL NOT NULL 8 b b SMALLINT 2 b c SMALLINT 2 b d REAL 4 b e REAL 4 b f REAL 4 b
postgresql
databasedesign
Storage
Bigdata
数据湖和大数据是一样的吗?
我试图了解数据湖和大数据之间是否存在真正的区别 如果你检查一下这两个概念 它们就像一个大存储库 它保存信息直到有必要为止 所以 我们什么时候可以说我们正在使用大数据还是数据湖 我不能说我以前遇到过 大存储库 这个术语 但要回答最初的问题 不
Bigdata
datalake
有没有比 fread() 更快的方法来读取大数据?
嗨 首先我已经在堆栈和谷歌上搜索并找到了这样的帖子 快速读取非常大的表作为数据框 虽然这些很有帮助并且得到了很好的回答 但我正在寻找更多信息 我正在寻找读取 导入高达 50 60GB 的 大 数据的最佳方法 我目前正在使用fread 函数来
r
dataTable
Bigdata
fread
ES6.x版本单机三节点配置discovery.zen.ping.unicast.hosts 错误
问题 在同一个机子利用不同端口搭建3个ES节点 单节点正常运行 集群间无法联通 找不到主节点 表现 cluster uuid 一直没有注册成功 curl 0 0 0 0 29200 name es 01 cluster name es te
Bigdata
elasticsearch
storm集成kafka简单使用示例2
StormKafkaTopo java package stormUse stormUse import java util Properties import org apache storm Config import org apac
Bigdata
storm
Hive函数row_number实现
需求 查询一批用户最后三次登陆时间 ip数据 理解需求是实现分组取前n个值 实现方式是先按照uid字段升序或倒序 时间字段倒序排序数据集合 然后遍历数据集合 用row number函数遍历uid字段 相同则row number值 1 取ro
Bigdata
rownumber
maxwell小白入门
执行同步binlog数据命令路径 maxwell安装目录下执行启动命令 增量同步命令 bin maxwell config conf meituan 文件目录 具体配置文件名 properties daemon 采集历史数据 bin max
数据库
ETL
Bigdata
宽表, 窄表, 维度表, 事实表的区别
在数据开发里 会涉及到一些概念 宽表 窄表 维度表 事实表 宽表 把多个维度的字段都放在一张表存储 增加数据冗余是为了减少关联 便于查询 查询一张表就可以查出不同维度的多个字段 窄表 和我们 mysql 普通表三范式相同 把相同维度的字段组
Bigdata
数据
kafka权威指南中文版之三
第三章kafka producer 向kafka写入消息 无论你将kafka作为一个消息队列 或者消息总线 还是一个数据存储平台 你都要通过生产者producer向kafka写入数据 通过消费者consumer读取kafka的数据 例如 一
JMS
Bigdata
Hadoop
数据
存储
HBase常用命令(超全超详细)
目录 连接HBase 连接HBase并查看版本 帮助命令 查看服务器状态 查看当前数据库中有哪些表 命名空间 列出所有命名空间 新建命名空间 删除命名空间 修改命名空间 创建表 列举表 表结构 查询表 添加数据 更新数据 检查插入情况 表扫
Hbase
Bigdata
大数据
分布式
CAP原理的证明
CAP概述 C Consistency 一致性 A Availability 可用性 P Partition Tolerance分区容错性 CAP理论的核心是 一个分布式系统不可能同时很好的满足一致性 可用性和分区容错性这三个需求 最多只能
Bigdata
CC
org.apache.hadoop.hbase.client.RetriesExhaustedException: Can't get the locations
Hbase API操作表时报出异常 Exception in thread main org apache hadoop hbase client RetriesExhaustedException Can t get the locati
Bigdata
Hbase
Java
hbaseapi
数据分析报告概述
一 结构规范及写作 报告常用结构 1 架构清晰 主次分明 数据分析报告要有一个清晰的架构 层次分明能降低阅读成本 有助于信息的传达 虽然不同类型的分析报告有其适用的呈现方式 但总的来说作为议论文的一种 大部分的分析报告还是适用总 分 总 的
数据仓库
大数据
Bigdata
数据分析报告概述
数据分析报告
Hadoop环境搭建及常见问题解决(保姆级教程)
Hadoop环境搭建及常见问题解决 零 资源准备 一 环境准备 1 安装虚拟机 2 环境准备 1 创建新用户xiaobai 2 安装ssh server 3 上传相关资源 4 使用putty连接服务器 5 设置主机名 6 检查和关闭防火墙
Bigdata
Hadoop
Hadoop
big data
hadoop伪分布式搭建
«
1 ...
5
6
7
8
9
10
11
»