开源大数据利器汇总

2023-10-28

开源大数据利器汇总

2015-05-21 21:00:00 发布

您的评价:

0.0

收藏 0收藏

类别	名称	官网	备注
查询引擎	Phoenix	http://phoenix.incubator.apache.org/	Salesforce公司出品，Apache HBase之上的一个SQL中间层，完全使用Java编写
Stinger	http://hortonworks.com/labs/stinger/ http://tez.incubator.apache.org/	原叫Tez，下一代Hive,Hortonworks主导开发，运行在YARN上的DAG计算框架
Presto	http://prestodb.io/	Facebook开源
Shark	http://shark.cs.berkeley.edu/	Spark上的SQL执行引擎
Pig	http://pig.apache.org/	基于Hadoop MapReduce的脚本语言
Cloudera Impala	http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html	参照Google Dremel实现，能运行在HDFS或HBase上，使用C++开发
Apache Drill	http://incubator.apache.org/drill/	参照Google Dremel实现
Apache Tajo	http://tajo.incubator.apache.org/	一个运行在YARN上支持SQL的分布式数据仓库
Hive	http://hive.apache.org/	基于Hadoop MapReduce的SQL查询引擎
流式计算	Facebook Puma		实时数据流分析
Twitter Rainbird		分布式实时统计系统，如网站的点击统计
Yahoo S4	http://incubator.apache.org/s4/	Java开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的无主架构的流式系统
Twitter Storm	http://storm.incubator.apache.org/	使用Java和Clojure实现
迭代计算	Apache Hama	https://hama.apache.org/	建立在Hadoop上基于BSP（Bulk Synchronous Parallel）的计算框架，模仿了Google的Pregel。
Apache Giraph	https://giraph.apache.org/	建立在Hadoop上的可伸缩的分布式迭代图处理系统，灵感来自BSP（bulk synchronous parallel）和Google的Pregel
HaLoop	https://code.google.com/p/haloop/	迭代的MapReduce
Twister	http://www.iterativemapreduce.org/	迭代的MapReduce
离线计算	Hadoop MapReduce	http://hadoop.apache.org/	经典的大数据批处理系统
Berkeley Spark	http://spark.incubator.apache.org/ http://shark.cs.berkeley.edu/	使用Scala语言实现，和MapReduce有较大的竞争关系，性能强于MapReduce
DataTorrent	http://www.datatorrent.com/	基于Hadoop2.X构建的实时流式处理和分析平台，每秒可以处理超过10亿个实时事件
键值存储	LevelDB	https://code.google.com/p/leveldb/	Google开源的高效KV编程库，注意它只是个库
RocksDB	http://rocksdb.org/	Facebook开源的，基于Google的LevelDB，但提高了扩展性可以运行在多核处理器上
HyperDex	http://hyperdex.org/	下一代KV存储系统，支持strings、integers、floats、lists、maps和sets等丰富的数据类型
TokyoCabinet	http://fallabs.com/tokyocabinet/	日本人Mikio Hirabayashi（平林干雄）开发的一款DBM数据库，注意它只是个库（大名鼎鼎的DBM数据库qdbm就是Mikio Hirabayashi开发的）,读写非常快
Voldemort	http://www.project-voldemort.com/voldemort/	一个分布式键值存储系统，是Amazon Dynamo的一个开源克隆，LinkedIn开源
Amazon Dynamo	https://github.com/dynamo/dynamo	亚马逊的KV模式的存储平台，无主架构
Tair	http://tair.taobao.org/	淘宝出品的高性能、分布式、可扩展、高可靠的KV结构存储系统，专为小文件优化，并提供简单易用的接口（类似Map），Tair支持Java和C版本的客户端
Apache Accumulo	https://accumulo.apache.org/	一个可靠的、可伸缩的、高性能的排序分布式的KV存储系统，参照Google Bigtable而设计，建立在Hadoop、Thrift和Zookeeper之上。
Redis	http://redis.io/	使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、单机版KV数据库。从2010年3月15日起，Redis的开发工作由VMware主持
表格存储	OceanBase	http://alibaba.github.io/oceanbase/	支持海量数据的高性能分布式数据库系统，实现了数千亿条记录、数百TB数据上的跨行跨表事务
Amazon SimpleDB	http://aws.amazon.com/cn/simpledb/	一个可大规模伸缩、用 Erlang 编写的高可用数据存储
Vertica	http://www.vertica.com/	惠普2011收购Vertica，Vertica是传统的关系型数据库，基于列存储，同时支持MPP，使用标准的SQL查询,可以和Hadoop/MapReduce进行集成
Cassandra	http://cassandra.apache.org/	Hadoop成员，Facebook于2008将Cassandra开源，基于O(1)DHT的完全P2P架构
HyperTable	http://hypertable.org/	搜索引擎公司Zvents针对Bigtable的C++开源实现
FoundationDB	https://foundationdb.com/	支持ACID事务处理的NoSQL数据库，提供非常好的性能、数据一致性和操作弹性
HBase	http://hbase.apache.org/	Bigtable在Hadoop中的实现，最初是Powerset公司为了处理自然语言搜索产生的海量数据而开展的项目
文件存储	CouchDB	http://couchdb.apache.org/	面向文档的数据存储
MongoDB	https://www.mongodb.org/	文档数据库
Tachyon	http://tachyon-project.org/ https://github.com/amplab/tachyon	加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon，它从底层重构了Hadoop平台。
KFS	http://code.google.com/p/kosmosfs/	GFS的C++开源版本
HDFS	http://hadoop.apache.org/	GFS在Hadoop中的实现
资源管理	Twitter Mesos	http://mesos.apache.org/	Google Borg的翻版
Hadoop Yarn	http://hadoop.apache.org/	类似于Mesos
日志收集系统	Facebook Scribe	https://github.com/facebook/scribe	Facebook开源的日志收集系统，能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理，常与Hadoop结合使用，Scribe用于向HDFS中Push日志
Cloudera Flume	http://flume.apache.org/	Cloudera提供的日志收集系统，支持对日志的实时性收集
logstash	http://www.logstash.net/	日志管理、分析和传输工具，可配合kibana、ElasticSearch组建成日志查询系统
kibana	http://www.elasticsearch.org/overview/kibana/	为日志提供友好的Web查询页面
消息系统	StormMQ	http://stormmq.com/
ZeroMQ	http://zeromq.org/	很底层的高性能网络库
RabbitMQ	https://www.rabbitmq.com/	在AMQP基础上完整的，可复用的企业消息系统
Apache ActiveMQ	http://activemq.apache.org/	能力强劲的开源消息总线
Jafka	http://kafka.apache.org/	开源的、高性能的、跨语言分布式消息系统，最早是由Apache孵化的Kafka（由LinkedIn捐助给Apache）克隆而来
Apache Kafka	http://kafka.apache.org/	Linkedin于2010年12月份开源的分布式消息系统，它主要用于处理活跃的流式数据，由Scala写成
分布式服务	ZooKeeper	http://zookeeper.apache.org/	分布式锁服务，PoxOS算法的实现，对应Google的Chubby
RPC	Apache Avro	http://avro.apache.org/	Hadoop中的RPC
Facebook Thrift	http://thrift.apache.org/	RPC，支持C++/Java/PHP等众多语言
集群管理	Nagios	http://www.nagios.org/	监视系统运行状态和网络信息的监视系统
Ganglia	http://ganglia.sourceforge.net/	UC Berkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。
Apache Ambari	http://ambari.apache.org/	Hadoop成员，管理和监视Apache Hadoop集群的开源框架
基础设施	LevelDB	http://code.google.com/p/leveldb/	Google顶级大牛开发的单机版键值数据库，具有非常高的写性能
SSTable		源于Google，orted String Table
RecordIO		源于Google
Flat Buffers	https://github.com/google/flatbuffers	针对游戏开发的，高效的跨平台序列化库，相比Proto Buffers开销更小，因为Flat Buffers没有解析过程
Protocol Buffers	http://code.google.com/p/protobuf/	Google公司开发的一种数据描述语言，类似于XML能够将结构化数据序列化，可用于数据存储、通信协议等方面。它不依赖于语言和平台并且可扩展性极强。
Consistent Hashing		1997年由麻省理工学院提出,目标是为了解决因特网中的热点（Hot spot）问题，初衷和CARP十分类似，基本解决了在P2P环境中最为关键的问题——如何在动态的网络拓扑中分布存储和路由。
Netty	http://netty.io/	JBOSS提供的一个java开源框架，提供异步的、事件驱动的网络应用程序框架，用以快速开发高性能、高可靠性的网络服务器和客户端程序。
BloomFilter		布隆过滤器，1970年由布隆提出，是一个很长的二进制矢量和一系列随机映射函数，可以用于检索一个元素是否在一个集合中，优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。
搜索引擎	Nutch	https://nutch.apache.org/	开源Java 实现的搜索引擎，诞生Hadoop的地方。
Lucene	http://lucene.apache.org/	一套信息检索工具包，但并不包含搜索引擎系统，它包含了索引结构、读写索引工具、相关性工具、排序等功能。
SolrCloud		基于Solr和Zookeeper的分布式搜索， Solr4.0 的核心组件之一，主要思想是使用 Zookeeper 作为集群的配置信息中心
Solr	https://lucene.apache.org/solr/	Solr是基于Lucene的搜索。
ElasticSearch	http://www.elasticsearch.org/ http://www.elasticsearch.cn/	开源的（Apache2协议），分布式的，RESTful的，构建在Apache Lucene之上的的搜索引擎。
Sphinx	http://sphinxsearch.com	一个基于SQL的全文检索引擎，可结合MySQL、PostgreSQL做全文检索，可提供比数据库本身更专业的搜索功能，单一索引可达1亿条记录，1000万条记录情况下的查询速度为0.x秒（毫秒级）。
SenseiDB	http://senseidb.com	Linkin公司开发的一个开源分布式实时半结构化数据库，在全文索引的基础封装了Browse Query Language (BQL，类似SQL)的查询语法。
数据挖掘	Mahout	http://mahout.apache.org/	Hadoop成员，目标是建立一个可扩展的机器学习库
Iaas	OpenStack	https://www.openstack.org/	美国国家航空航天局和Rackspace合作研发的，以Apache许可证授权云平台管理的项目，它不是一个软件。这个项目由几个主要的组件组合起来完成一些具体的工作，旨在为公共及私有云的建设与管理提供软件的开源项目。6个核心项目：Nova（计算，Compute），Swift（对象存储，Object），Glance（镜像，Image），Keystone（身份，Identity），Horizon（自助门户，Dashboard），Quantum & Melange（网络&地址管理），另外还有若干社区项目，如Rackspace（负载均衡）、Rackspace（关系型数据库）。
Docker	http://www.docker.io/	应用容器引擎，让开发者可打包应用及依赖包到一个可移植的容器中，然后发布到Linux机器上，也可实现虚拟化。
Kubernetes	https://github.com/GoogleCloudPlatform/kubernetes/	Google开源的容器集群管理系统
Imctfy	https://github.com/google/Imctfy/	Google开源的Linux容器
监控管理	Dapper	http://bigbully.github.io/Dapper-translation/	Google生产环境下的大规模分布式系统的跟踪系统
Zipkin	http://twitter.github.io/zipkin/ https://github.com/twitter/zipkin/	Twitter开源的参考Google Dapper而开发，使用Apache Cassandra做为数据存储系统

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

云数据库

开源大数据利器汇总的相关文章

云数据库MySQL的选择

架构介绍 xff1a 云数据库MySQL支持四种架构 xff1a 高可用版金融版单节点高IO版基础版其中单节点高IO版的只用于只读版本对比 xff1a 企业级别 xff0c 刚刚好公司没有自己的服务器机房的时候可以做对比选择一般
淘宝TDDL数据库分库分表

淘宝TDDL数据库分库分表 2014 06 04 23 18 3334人阅读评论 0 收藏举报分类数据库 1 分库分表而且分库规则非常灵活 2 主键生成策略目前TDDL提供的id生成主要还是依托数据库来进行的 oracle可以直
Hadoop Core、HBase 、ZooKeeper

adoop HBase ZooKeeper三者关系与安装配置复制链接 qqjue 论坛徽章 18 电梯直达 1
Hypertable 快速安装，仅需上载一个RPM包，零编译

Hypertable 快速安装仅需上载一个RPM包零编译 Hypertable 快速安装仅需下载一个RPM包零编译本文采用单机安装 1 Hypertable 安装 Hypertable 的几种安装方式单机安装于单机采用本地
Hadoop 2.4.0+zookeeper3.4.6+hbase0.98.3分布式集群搭建

Hadoop 2 4 0 zookeeper3 4 6 hbase0 98 3分布式集群搭建博客分类 hadoop Ip 主机名程序进程 192 168 137 11 h1 Jdk Hadoop hbase Namenode DFSZ
分布式系统一致性研究,paxos算法

感谢eric的敦促感谢shuai的感召我尝试记录一点混乱的思考什么是分布式系统毋庸置疑 Internet和DNS是两个典型的成功的分布式系统那么分布式系统是不是就是计算机网络 1990年 Sun Microsystems 公司提
开源大数据利器汇总

所有分类 gt 服务器软件 gt 分布式云计算大数据开源大数据利器汇总开源 2015 05 21 21 00 00 发布您的评价 0 0 收藏 0收藏类别名称官
阿里云数据库配置IP白名单操作方法（以MySQL为例）

阿里云数据库RDS创建成功后首次连接访问RDS需要配置IP白名单在阿里云RDS控制台即可配置IP白名单阿里云百科来详细说下阿里云服务器RDS配置白名单的方法阿里云服务器配置IP白名单阿里云百科以MySQL云数据库为例 RDS My
Hbase split的三种方式和split的过程

Hbase split的三种方式和split的过程在Hbase中split是一个很重要的功能 Hbase是通过把数据分配到一定数量的region来达到负载均衡的一个table会被分配到一个或多个region中这些region会被分配到
Spanner vs. F1：谷歌两大数据管理利器的整体对比及关联 2016-05-22 20:36 757人阅读评论(0) 收藏举报目录(?)[+] http://www.csdn.net/a

Spanner vs F1 谷歌两大数据管理利器的整体对比及关联 2016 05 22 20 36 757人阅读评论 0 收藏举报目录 http www csdn net article 2013 10 10 2817138 f1 a
分布式系统设计的求生之路

作者作者 Simon 腾讯后台开发高级工程师链接 http wetest qq com lab view id 105 著作权归作者所有商业转载请联系WeTest获得授权非商业转载请注明出处分布式系统理念渐渐成为了后台架构技术的重
Hash算法的使用

Hash算法的使用标签默认分类发表时间 2011 08 06 06 35 作者 GliderX khsing 分享到出处 http hi baidu com gliderx 在对语料文本进行2 3元切分时需要借助hash表来获得切
分布式查找过程[HBase]Region location

HBase的table是该region切分的 client操作一个row的时候如何知道这个row对应的region是在哪台Region server上呢这里有个region location过程主要涉及到2张系统表 ROOT META
一、MapReduce已死，Spark称霸

一 MapReduce已死 Spark称霸 2014 09 17 11 20 王家林 Spark亚太研究院字号 T T 综合评级想读 35 在读 13 已读 2 品书斋鉴 0 已有50人发表书评 Spark亚太研究院系列丛书 Spark
HBase介绍（列存储）

HBase介绍列存储 2013 11 26 23 25 5871人阅读评论 2 收藏举报分类云存储 2 Hbase简介 started by chad walters and jim 2006 11 G release paper
Hypertable 简介一个 C++ 的Bigtable开源实现

1 Introduction 随着互联网技术的发展尤其是云计算平台的出现分布式应用程序需要处理大量的数据 PB级在一个或多个云计算平台中成千上万的计算主机如何保证数据的有效存储和组织为应用提供高效和可靠的访问接口并且保持良好的
分布式数据库需要考虑的(BigTable VS Dynamo)

分布式数据库需要考虑的 BigTable VS Dynamo 在设计评价分布式数据库的时候需要考虑一些最基本的特性我想这些特性可能包括 1 存储系统一种是类似BigTable将存储交给GFS去做 GFS会保证写入数据的完整另外一种是
1.1.3　Hadoop生态系统

1 1 3 Hadoop生态系统 2013 05 08 09 38 16 我来说两句收藏我要投稿本文所属图书 gt Hadoop技术内幕深入解析Hadoop Common和HDFS架构设计与实现原理 Hadoop技术内幕共两册分别
云数据库知识学习——概述

一云计算是云数据库兴起的基础云计算是分布式计算并行计算效用计算网络存储虚拟化负载均衡等计算机和网络技术发展融合的产物云计算是由一系列可以动态升级和被虚拟化的资源组成的用户无需掌握云计算的技术只要通过网络就可以访问这些资源
hadoop使用（五）

博客园闪存首页新随笔联系管理订阅随笔 247 文章 122 评论 571 hadoop使用五第1章引言 1 1 编写目的对关于hadoop的文档及资料进行进一步的整理 1 2 相关网站毋庸置疑 http hadoop

随机推荐

Ubuntu16.04搭建fisco-bcos和webase中间件开发环境

搭建fisco bcos和webase中间件开发环境依赖安装 node环境搭建 webase中间件依赖配置 Java MySQL python mysql mysql安装 mysql配置test用户不建议给root用户授权远程访问搭建
【SDG代码精读】More Control for Free! Image Synthesis with Semantic Diffusion Guidance【SDG】

SDG代码精读 More Control for Free Image Synthesis with Semantic Diffusion Guidance SDG 1 首先看看这篇文章的主要贡献 2 主要代码的分析 1 主要的采样模块 2
nginx二级域名配置阿里云免费SSL证书浏览器提示不安全

阿里云免费SSL证书由图可知SSL证书只作用于 xxx top 与 www xxx top 一个主域名和一个子域名如果你用nginx添加证书至 xxx xxx top 二级域名则需要购买通配符证书
Java中的二维数组排序——多条件排序

目录重写Array sort 方法使用lambda表达式重写Array sort 方法重写Array sort 方法输入的排序数组的形式为int 2 例如 int test 7 0 4 4 7 1 5 0 6 1 5 2 排序的逻辑
打扮一下咱们的开发工具--更换IDEA主题

当我们安装一个新的IDEA工具时第一次进入时会提示我们选择一个themes 但是只有两个风格如下图我们可以选择自己喜欢的主题风格吗当然是可以设置的啦亲测按以下方式设置IntelliJ IDEA 和PyCharm 都可以一下载我
Android UI组件学习——AutoCompleteTextView

Android UI组件学习自动完成文本框 AutoCompleteTextView 的功能和用法 AutoCompleteTextView还派生了一个子类 MultiAutoCompleteTextView 该子类功能与AutoComp
文件上传之upload-labs 1~5 详细介绍

一 Pass 01 前端js验证 1 1 原理描述在文件上传时用户选择文件时或者提交时有些网站会对前端文件名进行验证一般检测后缀名是否为上传的格式如果上传的格式不对则弹出提示文字此时数据包并没有提交到服务器只是在客户端通
Mongoose中的查找

使用Mongoose来查找文档很容易有以下3种方法可供选择 find findById findOne 1 find 第一个参数表示查询条件第二个参数用于控制返回的字段第三个参数用于配置查询参数第四个参数是回调函数回调函数的形式为
抖音快手最新版抓包模块免费送

安装前安装后视频讲解 https www bilibili com video BV1Ga411Q7be p 10 vd source 43c2c404de6d798650d44c856ee1e992 下载地址也在视频评论区
YOLOv5源码逐行超详细注释与解读（3）——训练部分train.py

前言本篇文章主要是对YOLOv5项目的训练部分train py 通常这个文件主要是用来读取用户自己的数据集加载模型并训练文章代码逐行手打注释每个模块都有对应讲解一文帮你梳理整个代码逻辑友情提示全文近5万字可以先点再慢慢看哦
MySql-JDBC故障转移

MySQL Connector J 支持故障转移故障转移在潜在的风险要发生的时候使用通常情况下数据库连接发生错误需要客户端的异常处理重新创建Statement ResultSet 重启进程而使用Mysql Replication
多模态大模型应用大观

浩渺宇宙中生命与文明经历了亿万年的沉淀与演变这是人类集体智慧逐步觉醒的过程人们正在渐渐掌握加速前行的翅膀从古老的蒸汽机到现代的电力再跨越到计算机与互联网的时代每一次人类文明的跃进都离不开开拓者的勇敢探索在不断地开拓进取中那些
STM32 Keil报错 error: #35: #error directive: “include FreeRTOS.h must appear in source files before...

在跑代码的时候本来没错的突然报错 error 35 error directive include FreeRTOS h must appear in source files before include task h 原因是引用了
GRPC编译安装、各种语言插件及C++/golang测试

GRPC编译安装各种语言插件及测试复制过程可能乱了原笔记地址有道云笔记官网 Quick start C gRPC 编译安装官方测试手写测试跨语言测试这里用golang 一编译和安装 1 1源码编译安装 git clo
pads PCB封装问题记录

写在这里以后可以翻一翻问题今天又遇到了PCB封装的问题这个座子的封装左右两边有很长的线在PCB layout中选择其他元器件时会选中它但是这两条线在PCB layout中不显示很是烦人解决方法先找到这个线在哪里编辑元
Vue中使用Google的reCAPTCHA v3人机校验-demo

reCAPTCHA Google 提供了 reCAPTCHA v3 和 v2 和 reCAPTCHA Enterprise 帮助您保护网站免受欺诈活动垃圾内容和滥用行为的侵扰 reCAPTCHA v3 所有的頁面都會有 reCaptcha
ubuntu16.04 catkin_make报错No rule to make target '/usr/lib/x86_64-linux-gnu/libGL.so'

最近博主遇到了极其糟心的事情 Ubuntu16 04系统的主机开机重启之后循环显示输入密码进入的提示天地良心密码绝对正确就是进不到桌面后来在好心人的帮助下终于可以看到Ubuntu系统的桌面了博主的心情那是相当的激动但是激
Django概述（第一章）

一安装django 更改python默认镜像源在pycharm下方Terminal中执行下面命令 pip config set global index url https pypi tuna tsinghua edu cn simpl
std::string::npos作用

关于std string npos 字符串末尾位置的使用一般作为查找匹配项 include
开源大数据利器汇总

所有分类 gt 服务器软件 gt 分布式云计算大数据开源大数据利器汇总开源 2015 05 21 21 00 00 发布您的评价 0 0 收藏 0收藏类别名称官

开源大数据利器汇总

开源大数据利器汇总

开源大数据利器汇总 的相关文章

随机推荐

热门标签

开源大数据利器汇总的相关文章