开源大数据利器汇总

2023-10-28

开源大数据利器汇总

开源    2015-05-21 21:00:00 发布
您的评价:
         
0.0
收藏      0收藏
类别 名称 官网 备注
查询引擎 Phoenix http://phoenix.incubator.apache.org/ Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写
Stinger http://hortonworks.com/labs/stinger/
http://tez.incubator.apache.org/
原叫Tez,下一代Hive,Hortonworks主导开发,运行在YARN上的DAG计算框架
Presto http://prestodb.io/ Facebook开源
Shark http://shark.cs.berkeley.edu/ Spark上的SQL执行引擎
Pig http://pig.apache.org/ 基于Hadoop MapReduce的脚本语言
Cloudera Impala http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html 参照Google Dremel实现,能运行在HDFS或HBase上,使用C++开发
Apache Drill http://incubator.apache.org/drill/ 参照Google Dremel实现
Apache Tajo http://tajo.incubator.apache.org/ 一个运行在YARN上支持SQL的分布式数据仓库
Hive http://hive.apache.org/ 基于Hadoop MapReduce的SQL查询引擎
流式计算 Facebook Puma
实时数据流分析
Twitter Rainbird
分布式实时统计系统,如网站的点击统计
Yahoo S4 http://incubator.apache.org/s4/ Java开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的无主架构的流式系统
Twitter Storm http://storm.incubator.apache.org/ 使用Java和Clojure实现
迭代计算 Apache Hama https://hama.apache.org/ 建立在Hadoop上基于BSP(Bulk Synchronous Parallel)的计算框架,模仿了Google的Pregel。
Apache Giraph https://giraph.apache.org/ 建立在Hadoop上的可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel
HaLoop https://code.google.com/p/haloop/ 迭代的MapReduce
Twister http://www.iterativemapreduce.org/ 迭代的MapReduce
离线计算 Hadoop MapReduce http://hadoop.apache.org/ 经典的大数据批处理系统
Berkeley Spark http://spark.incubator.apache.org/
http://shark.cs.berkeley.edu/
使用Scala语言实现,和MapReduce有较大的竞争关系,性能强于MapReduce
DataTorrent http://www.datatorrent.com/ 基于Hadoop2.X构建的实时流式处理和分析平台,每秒可以处理超过10亿个实时事件
键值存储 LevelDB https://code.google.com/p/leveldb/ Google开源的高效KV编程库,注意它只是个库
RocksDB http://rocksdb.org/ Facebook开源的,基于Google的LevelDB,但提高了扩展性可以运行在多核处理器上
HyperDex http://hyperdex.org/ 下一代KV存储系统,支持strings、integers、floats、lists、maps和sets等丰富的数据类型
TokyoCabinet http://fallabs.com/tokyocabinet/ 日本人Mikio Hirabayashi(平林干雄)开发的一款DBM数据库,注意它只是个库(大名鼎鼎的DBM数据库qdbm就是Mikio Hirabayashi开发的),读写非常快
Voldemort http://www.project-voldemort.com/voldemort/ 一个分布式键值存储系统,是Amazon Dynamo的一个开源克隆,LinkedIn开源
Amazon Dynamo https://github.com/dynamo/dynamo 亚马逊的KV模式的存储平台,无主架构
Tair http://tair.taobao.org/ 淘宝出品的高性能、分布式、可扩展、高可靠的KV结构存储系统,专为小文件优化,并提供简单易用的接口(类似Map),Tair支持Java和C版本的客户端
Apache Accumulo https://accumulo.apache.org/ 一个可靠的、可伸缩的、高性能的排序分布式的KV存储系统,参照Google Bigtable而设计,建立在Hadoop、Thrift和Zookeeper之上。
Redis http://redis.io/ 使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、单机版KV数据库。从2010年3月15日起,Redis的开发工作由VMware主持
表格存储 OceanBase http://alibaba.github.io/oceanbase/ 支持海量数据的高性能分布式数据库系统,实现了数千亿条记录、数百TB数据上的跨行跨表事务
Amazon SimpleDB http://aws.amazon.com/cn/simpledb/ 一个可大规模伸缩、用 Erlang 编写的高可用数据存储
Vertica http://www.vertica.com/ 惠普2011收购Vertica,Vertica是传统的关系型数据库,基于列存储,同时支持MPP,使用标准的SQL查询,可以和Hadoop/MapReduce进行集成
Cassandra http://cassandra.apache.org/ Hadoop成员,Facebook于2008将Cassandra开源,基于O(1)DHT的完全P2P架构
HyperTable http://hypertable.org/ 搜索引擎公司Zvents针对Bigtable的C++开源实现
FoundationDB https://foundationdb.com/ 支持ACID事务处理的NoSQL数据库,提供非常好的性能、数据一致性和操作弹性
HBase http://hbase.apache.org/ Bigtable在Hadoop中的实现,最初是Powerset公司为了处理自然语言搜索产生的海量数据而开展的项目
文件存储 CouchDB http://couchdb.apache.org/ 面向文档的数据存储
MongoDB https://www.mongodb.org/ 文档数据库
Tachyon http://tachyon-project.org/
https://github.com/amplab/tachyon
加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon,它从底层重构了Hadoop平台。
KFS http://code.google.com/p/kosmosfs/ GFS的C++开源版本
HDFS http://hadoop.apache.org/ GFS在Hadoop中的实现
资源管理 Twitter Mesos http://mesos.apache.org/ Google Borg的翻版
Hadoop Yarn http://hadoop.apache.org/ 类似于Mesos
日志收集系统 Facebook Scribe https://github.com/facebook/scribe Facebook开源的日志收集系统,能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理,常与Hadoop结合使用,Scribe用于向HDFS中Push日志
Cloudera Flume http://flume.apache.org/ Cloudera提供的日志收集系统,支持对日志的实时性收集
logstash http://www.logstash.net/ 日志管理、分析和传输工具,可配合kibana、ElasticSearch组建成日志查询系统
kibana http://www.elasticsearch.org/overview/kibana/ 为日志提供友好的Web查询页面
消息系统 StormMQ http://stormmq.com/
ZeroMQ http://zeromq.org/ 很底层的高性能网络库
RabbitMQ https://www.rabbitmq.com/ 在AMQP基础上完整的,可复用的企业消息系统
Apache ActiveMQ http://activemq.apache.org/ 能力强劲的开源消息总线
Jafka http://kafka.apache.org/ 开源的、高性能的、跨语言分布式消息系统,最早是由Apache孵化的Kafka(由LinkedIn捐助给Apache)克隆而来
Apache Kafka http://kafka.apache.org/ Linkedin于2010年12月份开源的分布式消息系统,它主要用于处理活跃的流式数据,由Scala写成
分布式服务 ZooKeeper http://zookeeper.apache.org/ 分布式锁服务,PoxOS算法的实现,对应Google的Chubby
RPC Apache Avro http://avro.apache.org/ Hadoop中的RPC
Facebook Thrift http://thrift.apache.org/ RPC,支持C++/Java/PHP等众多语言
集群管理 Nagios http://www.nagios.org/ 监视系统运行状态和网络信息的监视系统
Ganglia http://ganglia.sourceforge.net/ UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。
Apache Ambari http://ambari.apache.org/ Hadoop成员,管理和监视Apache Hadoop集群的开源框架
基础设施 LevelDB http://code.google.com/p/leveldb/ Google顶级大牛开发的单机版键值数据库,具有非常高的写性能
SSTable
源于Google,orted String Table
RecordIO
源于Google
Flat Buffers https://github.com/google/flatbuffers 针对游戏开发的,高效的跨平台序列化库,相比Proto Buffers开销更小,因为Flat Buffers没有解析过程
Protocol Buffers http://code.google.com/p/protobuf/ Google公司开发的一种数据描述语言,类似于XML能够将结构化数据序列化,可用于数据存储、通信协议等方面。它不依赖于语言和平台并且可扩展性极强。
Consistent Hashing
1997年由麻省理工学院提出,目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似,基本解决了在P2P环境中最为关键的问题——如何在动态的网络拓扑中分布存储和路由。
Netty http://netty.io/ JBOSS提供的一个java开源框架,提供异步的、事件驱动的网络应用程序框架,用以快速开发高性能、高可靠性的网络服务器和客户端程序。
BloomFilter
布隆过滤器,1970年由布隆提出,是一个很长的二进制矢量和一系列随机映射函数,可以用于检索一个元素是否在一个集合中,优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。
搜索引擎 Nutch https://nutch.apache.org/ 开源Java 实现的搜索引擎,诞生Hadoop的地方。
Lucene http://lucene.apache.org/ 一套信息检索工具包,但并不包含搜索引擎系统,它包含了索引结构、读写索引工具、相关性工具、排序等功能。
SolrCloud
基于Solr和Zookeeper的分布式搜索, Solr4.0 的核心组件之一,主要思想是使用 Zookeeper 作为集群的配置信息中心
Solr https://lucene.apache.org/solr/ Solr是基于Lucene的搜索。
ElasticSearch http://www.elasticsearch.org/
http://www.elasticsearch.cn/
开源的(Apache2协议),分布式的,RESTful的,构建在Apache Lucene之上的的搜索引擎。
Sphinx http://sphinxsearch.com 一个基于SQL的全文检索引擎,可结合MySQL、PostgreSQL做全文检索,可提供比数据库本身更专业的搜索功能,单一索引可达1亿条记录,1000万条记录情况下的查询速度为0.x秒(毫秒级)。
SenseiDB http://senseidb.com Linkin公司开发的一个开源分布式实时半结构化数据库,在全文索引的基础封装了Browse Query Language (BQL,类似SQL)的查询语法。
数据挖掘 Mahout http://mahout.apache.org/ Hadoop成员,目标是建立一个可扩展的机器学习库
Iaas OpenStack https://www.openstack.org/ 美国国家航空航天局和Rackspace合作研发的,以Apache许可证授权云平台管理的项目,它不是一个软件。这个项目由几个主要的组件组合起来完成一些具体的工作,旨在为公共及私有云的建设与管理提供软件的开源项目。6个核心项目:Nova(计算,Compute),Swift(对象存储,Object),Glance(镜像,Image),Keystone(身份,Identity),Horizon(自助门户,Dashboard),Quantum & Melange(网络&地址管理),另外还有若干社区项目,如Rackspace(负载均衡)、Rackspace(关系型数据库)。
Docker http://www.docker.io/ 应用容器引擎,让开发者可打包应用及依赖包到一个可移植的容器中,然后发布到Linux机器上,也可实现虚拟化。
Kubernetes https://github.com/GoogleCloudPlatform/kubernetes/ Google开源的容器集群管理系统
Imctfy https://github.com/google/Imctfy/ Google开源的Linux容器
监控管理 Dapper http://bigbully.github.io/Dapper-translation/ Google生产环境下的大规模分布式系统的跟踪系统
Zipkin http://twitter.github.io/zipkin/
https://github.com/twitter/zipkin/
Twitter开源的参考Google Dapper而开发,使用Apache Cassandra做为数据存储系统
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

开源大数据利器汇总 的相关文章

  • 云数据库MySQL的选择

    架构介绍 xff1a 云数据库MySQL支持四种架构 xff1a 高可用版 金融版 单节点高IO版 基础版 其中单节点高IO版的只用于只读 版本对比 xff1a 企业级别 xff0c 刚刚好公司没有自己的服务器机房的时候可以做对比选择 一般
  • 淘宝TDDL数据库分库分表

    淘宝TDDL数据库分库分表 2014 06 04 23 18 3334人阅读 评论 0 收藏 举报 分类 数据库 1 分库分表 而且分库规则非常灵活 2 主键生成策略 目前TDDL提供的id生成主要还是依托数据库来进行的 oracle可以直
  • Hadoop Core、HBase 、ZooKeeper

    adoop HBase ZooKeeper三者关系与安装配置 复制链接 qqjue 论坛徽章 18 电梯直达 1
  • Hypertable 快速安装,仅需上载一个RPM包,零编译

    Hypertable 快速安装 仅需上载一个RPM包 零编译 Hypertable 快速安装 仅需下载一个RPM包 零编译 本文采用 单机安装 1 Hypertable 安装 Hypertable 的几种安装方式 单机 安装于单机 采用本地
  • Hadoop 2.4.0+zookeeper3.4.6+hbase0.98.3分布式集群搭建

    Hadoop 2 4 0 zookeeper3 4 6 hbase0 98 3分布式集群搭建 博客分类 hadoop Ip 主机名 程序 进程 192 168 137 11 h1 Jdk Hadoop hbase Namenode DFSZ
  • 分布式系统一致性研究,paxos算法

    感谢eric的敦促 感谢shuai的感召 我尝试记录一点混乱的思考 什么是分布式系统 毋庸置疑 Internet和DNS是两个典型的成功的分布式系统 那么 分布式系统是不是就是计算机网络 1990年 Sun Microsystems 公司提
  • 开源大数据利器汇总

    所有分类 gt 服务器软件 gt 分布式 云计算 大数据 开源大数据利器汇总 开源 2015 05 21 21 00 00 发布 您的评价 0 0 收藏 0收藏 类别 名称 官
  • 阿里云数据库配置IP白名单操作方法(以MySQL为例)

    阿里云数据库RDS创建成功后 首次连接访问RDS需要配置IP白名单 在阿里云RDS控制台即可配置IP白名单 阿里云百科来详细说下阿里云服务器RDS配置白名单的方法 阿里云服务器配置IP白名单 阿里云百科以MySQL云数据库为例 RDS My
  • Hbase split的三种方式和split的过程

    Hbase split的三种方式和split的过程 在Hbase中split是一个很重要的功能 Hbase是通过把数据分配到一定数量的region来达到负载均衡的 一个table会被分配到一个或多个region中 这些region会被分配到
  • Spanner vs. F1:谷歌两大数据管理利器的整体对比及关联 2016-05-22 20:36 757人阅读 评论(0) 收藏 举报 目录(?)[+] http://www.csdn.net/a

    Spanner vs F1 谷歌两大数据管理利器的整体对比及关联 2016 05 22 20 36 757人阅读 评论 0 收藏 举报 目录 http www csdn net article 2013 10 10 2817138 f1 a
  • 分布式系统设计的求生之路

    作者 作者 Simon 腾讯后台开发高级工程师 链接 http wetest qq com lab view id 105 著作权归作者所有 商业转载请联系WeTest获得授权 非商业转载请注明出处 分布式系统理念渐渐成为了后台架构技术的重
  • Hash算法的使用

    Hash算法的使用 标签 默认分类 发表时间 2011 08 06 06 35 作者 GliderX khsing 分享到 出处 http hi baidu com gliderx 在对语料文本进行2 3元切分时 需要借助hash表来获得切
  • 分布式查找过程[HBase]Region location

    HBase的table是该region切分的 client操作一个row的时候 如何知道这个row对应的region是在哪台Region server上呢 这里有个region location过程 主要涉及到2张系统表 ROOT META
  • 一、MapReduce已死,Spark称霸

    一 MapReduce已死 Spark称霸 2014 09 17 11 20 王家林 Spark亚太研究院 字号 T T 综合评级 想读 35 在读 13 已读 2 品书斋鉴 0 已有50人发表书评 Spark亚太研究院系列丛书 Spark
  • HBase介绍(列存储)

    HBase介绍 列存储 2013 11 26 23 25 5871人阅读 评论 2 收藏 举报 分类 云存储 2 Hbase简介 started by chad walters and jim 2006 11 G release paper
  • Hypertable 简介 一个 C++ 的Bigtable开源实现

    1 Introduction 随着互联网技术的发展 尤其是云计算平台的出现 分布式应用程序需要处理大量的数据 PB级 在一个或多个云计算平台中 成千上万的计算主机 如何保证数据的有效存储和组织 为应用提供高效和可靠的访问接口 并且保持良好的
  • 分布式数据库需要考虑的(BigTable VS Dynamo)

    分布式数据库需要考虑的 BigTable VS Dynamo 在设计 评价分布式数据库的时候需要考虑一些最基本的特性 我想这些特性可能包括 1 存储系统 一种是类似BigTable将存储交给GFS去做 GFS会保证写入数据的完整 另外一种是
  • 1.1.3 Hadoop生态系统

    1 1 3 Hadoop生态系统 2013 05 08 09 38 16 我来说两句 收藏 我要投稿 本文所属图书 gt Hadoop技术内幕 深入解析Hadoop Common和HDFS架构设计与实现原理 Hadoop技术内幕共两册 分别
  • 云数据库知识学习——概述

    一 云计算是云数据库兴起的基础 云计算是分布式计算 并行计算 效用计算 网络存储 虚拟化 负载均衡等计算机和网络技术发展融合的产物 云计算是由一系列可以动态升级和被虚拟化的资源组成的 用户无需掌握云计算的技术 只要通过网络就可以访问这些资源
  • hadoop使用(五)

    博客园 闪存 首页 新随笔 联系 管理 订阅 随笔 247 文章 122 评论 571 hadoop使用 五 第1章 引言 1 1 编写目的 对关于hadoop的文档及资料进行进一步的整理 1 2 相关网站 毋庸置疑 http hadoop

随机推荐

  • Ubuntu16.04搭建fisco-bcos和webase中间件开发环境

    搭建fisco bcos和webase中间件开发环境 依赖安装 node环境搭建 webase中间件依赖配置 Java MySQL python mysql mysql安装 mysql配置test用户 不建议给root用户授权远程访问 搭建
  • 【SDG代码精读】More Control for Free! Image Synthesis with Semantic Diffusion Guidance【SDG】

    SDG代码精读 More Control for Free Image Synthesis with Semantic Diffusion Guidance SDG 1 首先看看这篇文章的主要贡献 2 主要代码的分析 1 主要的采样模块 2
  • nginx二级域名配置阿里云免费SSL证书浏览器提示不安全

    阿里云免费SSL证书 由图可知SSL证书只作用于 xxx top 与 www xxx top 一个主域名和一个子域名 如果你用nginx添加证书至 xxx xxx top 二级域名 则需要购买通配符证书
  • Java中的二维数组排序——多条件排序

    目录 重写Array sort 方法 使用lambda表达式重写Array sort 方法 重写Array sort 方法 输入的排序数组的形式为int 2 例如 int test 7 0 4 4 7 1 5 0 6 1 5 2 排序的逻辑
  • 打扮一下咱们的开发工具--更换IDEA主题

    当我们安装一个新的IDEA工具时 第一次进入时会提示我们选择一个themes 但是只有两个风格 如下图 我们可以选择自己喜欢的主题风格吗 当然是可以设置的啦 亲测按以下方式设置IntelliJ IDEA 和PyCharm 都可以 一 下载我
  • Android UI组件学习——AutoCompleteTextView

    Android UI组件学习 自动完成文本框 AutoCompleteTextView 的功能和用法 AutoCompleteTextView还派生了一个子类 MultiAutoCompleteTextView 该子类功能与AutoComp
  • 文件上传之upload-labs 1~5 详细介绍

    一 Pass 01 前端js验证 1 1 原理描述 在文件上传时 用户选择文件时 或者提交时 有些网站会对前端文件名进行验证 一般检测后缀名 是否为上传的格式 如果上传的格式不对 则弹出提示文字 此时数据包并没有提交到服务器 只是在客户端通
  • Mongoose中的查找

    使用Mongoose来查找文档很容易 有以下3种方法可供选择 find findById findOne 1 find 第一个参数表示查询条件 第二个参数用于控制返回的字段 第三个参数用于配置查询参数 第四个参数是回调函数 回调函数的形式为
  • 抖音快手最新版抓包模块免费送

    安装前 安装后 视频讲解 https www bilibili com video BV1Ga411Q7be p 10 vd source 43c2c404de6d798650d44c856ee1e992 下载地址也在视频评论区
  • YOLOv5源码逐行超详细注释与解读(3)——训练部分train.py

    前言 本篇文章主要是对YOLOv5项目的训练部分train py 通常这个文件主要是用来读取用户自己的数据集 加载模型并训练 文章代码逐行手打注释 每个模块都有对应讲解 一文帮你梳理整个代码逻辑 友情提示 全文近5万字 可以先点再慢慢看哦
  • MySql-JDBC故障转移

    MySQL Connector J 支持故障转移 故障转移在潜在的风险要发生的时候使用 通常情况下 数据库连接发生错误 需要客户端的异常处理 重新创建Statement ResultSet 重启进程 而使用Mysql Replication
  • 多模态大模型应用大观

    浩渺宇宙中 生命与文明经历了亿万年的沉淀与演变 这是人类集体智慧逐步觉醒的过程 人们正在渐渐掌握加速前行的翅膀 从古老的蒸汽机到现代的电力 再跨越到计算机与互联网的时代 每一次人类文明的跃进 都离不开开拓者的勇敢探索 在不断地开拓进取中那些
  • STM32 Keil报错 error: #35: #error directive: “include FreeRTOS.h must appear in source files before...

    在跑代码的时候 本来没错的突然报错 error 35 error directive include FreeRTOS h must appear in source files before include task h 原因是 引用了
  • GRPC编译安装、各种语言插件及C++/golang测试

    GRPC编译安装 各种语言插件及测试 复制过程 可能乱了 原笔记地址 有道云笔记 官网 Quick start C gRPC 编译 安装 官方测试 手写测试 跨语言测试 这里用golang 一 编译和安装 1 1源码编译安装 git clo
  • pads PCB封装问题记录

    写在这里 以后可以翻一翻 问题 今天又遇到了PCB封装的问题 这个座子的封装 左右两边有很长的线 在PCB layout中 选择其他元器件时会选中它 但是这两条线在PCB layout中不显示 很是烦人 解决方法 先找到这个线在哪里 编辑元
  • Vue中使用Google的reCAPTCHA v3人机校验-demo

    reCAPTCHA Google 提供了 reCAPTCHA v3 和 v2 和 reCAPTCHA Enterprise 帮助您保护网站免受欺诈活动 垃圾内容和滥用行为的侵扰 reCAPTCHA v3 所有的頁面都會有 reCaptcha
  • ubuntu16.04 catkin_make报错No rule to make target '/usr/lib/x86_64-linux-gnu/libGL.so'

    最近 博主遇到了极其糟心的事情 Ubuntu16 04系统的主机开机重启之后 循环显示输入密码进入的提示 天地良心 密码绝对正确 就是进不到桌面 后来在好心人的帮助下 终于可以看到Ubuntu系统的桌面了 博主的心情那是相当的激动 但是 激
  • Django概述(第一章)

    一 安装django 更改python默认镜像源 在pycharm下方Terminal中执行下面命令 pip config set global index url https pypi tuna tsinghua edu cn simpl
  • std::string::npos作用

    关于std string npos 字符串末尾位置 的使用 一般作为查找匹配项 include
  • 开源大数据利器汇总

    所有分类 gt 服务器软件 gt 分布式 云计算 大数据 开源大数据利器汇总 开源 2015 05 21 21 00 00 发布 您的评价 0 0 收藏 0收藏 类别 名称 官