初学MaxCompute

2023-11-19

MaxComputer是阿里云提供的一种全新的大数据计算服务，其具备更高效的计算及存储能力，本人的理解就是一个类似于HBase,Hive的云上的数据仓库。
参考官方文档系列：

https://yq.aliyun.com/articles/85595?spm=a2c4e.11153940.blogcont78108.17.46c53af60mplZf

一什么是MaxCompute
大数据计算服务（MaxCompute，原名ODPS open data processing service）是一种快速、完全托管的GB/TB/PB级数据仓库解决方案。MaxCompute为您提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决海量数据计算问题，有效降低企业成本，并保障数据安全。

同时，DataWorks和MaxCompute关系紧密，DataWorks为MaxCompute提供了一站式的数据同步、任务开发、数据工作流开发、数据管理和数据运维等功能，详情请参见DataWorks（原大数据开发套件）。

MaxCompute主要服务于批量结构化数据的存储和计算，可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完善，越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据（百GB、TB乃至PB）级别。

在分析海量数据场景下，由于单台服务器的处理能力限制，数据分析者通常采用分布式计算模式。但分布式的计算模型对数据分析人员提出了较高的要求，且不易维护。使用分布式模型，数据分析人员不仅需要了解业务需求，同时还需要熟悉底层计算模型。MaxCompute的目的是为您提供一种便捷的分析处理海量数据的手段，您可以不必关心分布式计算细节，便可达到分析大数据的目的。

MaxCompute学习路径
您可以通过MaxCompute学习路径快速了解MaxCompute的相关概念、基础操作、进阶操作等。

产品优势
大规模计算存储
MaxCompute适用于100GB以上规模的存储及计算需求，最大可达EB级别。

多种计算模型
MaxCompute支持SQL、MapReduce、Graph等计算类型及MPI迭代类算法。

强数据安全
MaxCompute已稳定支撑阿里全部离线分析业务7年以上，提供多层沙箱防护及监控。

低成本
与企业自建专有云相比，MaxCompute的计算存储更高效，可以降低20%-30%的采购成本。

功能概述
数据通道
支持批量、历史数据通道

TUNNEL是MaxCompute为您提供的数据传输服务，提供高并发的离线数据上传下载服务。支持每天TB/PB级别的数据导入导出，特别适合于全量数据或历史数据的批量导入。Tunnel 为您提供Java编程接口，并且在MaxCompute的客户端工具中，有对应的命令实现本地文件与服务数据的互通。

实时、增量数据通道

针对实时数据上传的场景，MaxCompute提供了延迟低、使用方便的DataHub服务，特别适用于增量数据的导入。DataHub还支持多种数据传输插件，例如Logstash、Flume、Fluentd、Sqoop等，同时支持日志服务Log Service中的投递日志到MaxCompute，进而使用DataWorks进行日志分析和挖掘。

计算及分析任务MaxCompute支持多种计算模型，详情如下。
SQL：MaxCompute只能以表的形式存储数据，并对外提供了SQL查询功能。您可以将MaxCompute作为传统的数据库软件操作，但其却能处理TB、PB级别的海量数据。
说明
MaxCompute SQL不支持事务、索引及Update/Delete等操作。
MaxCompute的SQL语法与Oracle、MySQL有一定差别，您无法将其他数据库中的SQL语句无缝迁移到MaxCompute上来。详情请参见与其他SQL语法的差异。
在使用方式上，MaxCompute SQL最快可以在分钟、乃至秒级别完成查询，无法在毫秒级别返回结果。
MaxCompute SQL的优点是学习成本低，您不需要了解复杂的分布式计算概念。如果您具备数据库操作经验，便可快速熟悉MaxCompute SQL的使用。
UDF：即用户自定义函数。
MaxCompute提供了很多内建函数来满足您的计算需求，同时您还可以通过创建自定义函数来满足不同的计算需求。

MapReduce：MaxCompute MapReduce是MaxCompute提供的Java MapReduce编程模型，它可以简化开发流程，更为高效。您若使用MaxCompute MapReduce，需要对分布式计算概念有基本了解，并有相对应的编程经验。MaxCompute MapReduce为您提供Java编程接口。
Graph：MaxCompute提供的Graph功能是一套面向迭代的图计算处理框架。图计算作业使用图进行建模，图由点（Vertex）和边（Edge）组成，点和边包含权值（Value）。通过迭代对图进行编辑、演化，最终求解出结果，典型应用：PageRank、单源最短距离算法、K-均值聚类算法等。
SDK
SDK是MaxCompute提供给开发者的工具包，详情请参见SDK介绍。

安全
MaxCompute提供了功能强大的安全服务，为您的数据安全提供保护，详情请参见安全指南。

二发展历程
从2009年9月阿里云成立，愿景就是做运算/分享数据的第一平台。2010年4月，伴随阿里金融的贷款业务上线，ODPS正式投入生产运行。2012 年建立统一数据平台，2013年具备超大规模海量数据处理能力，2014~2015年大数据平台开始日趋成熟，2016年MaxCompute2.0诞生，成立之初的愿景正在逐步实现。

关键性里程碑
2010.04 ODPS正式投入生产运行，阿里金融的贷款业务上线稳定运行。
2013.05 ODPS公测。
2013.07 ODPS正式提供商业化服务，单集群规模5K台服务器多级群能力。
2016.09 ODPS正式更名为MaxCompute，并推出MaxCompute2.0，实现高性能，新功能，富生态。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据仓库

初学MaxCompute 的相关文章

Teradata 数据库介绍

author skate time 2010 03 11 Teradata 数据库介绍 Teradata在整体上是按Shared Nothing 架构体系进行组织的他的定位就是大型数据仓库系统定位比较高他的软硬件都是NCR自己的其他
离线数仓经验之谈三-数仓流程规范

数仓流程规范目录 1 目的 2 适用范围 3 总体流程 3 1 ETL开发流程 3 1 1 需求分析 3 1 2 数据来源与数据探查 3 1 3 数据模型设计 3 1 4 ETL开发 3 1 5 测试 3 1 6 ETL上线 3 1 7
为什么公司在对数据库的数据进行删除操作的时候都建议软删？

我们平时在建表的时候相信大家有时候会被告知再添加一个额外的字段来判断当前记录是否需要使用也就是软删我在公司也是严禁删除数据只能使用软删我刚开始也是以为是防止误删或者有一个记录留存但是其实我们每个操作都会记录操作日志的所以真实目
Hive简介和安装

1 Hive是基于hadoop的数据仓库解决方案由facebook贡献给Apache Hive出现的初衷是让不熟悉编程的数据分析人员也能够使用hadoop处理大数据这是怎么实现的呢 2 我们先来看看Hive提供的接口从下面Hive的架
hive中get_json_object函数

原数据表名 explode test 列名 sale info source 7fresh monthSales 4900 userCount 1900 score 9 9 source jdmart monthSales 7900 us
数据仓库主题三-（实施篇）

背景如何从具体的需求或项目转换为可实施的解决方案如何进行需求分析架构设计详细模型设计等则是模型实施过程中讨论的内容业界常用两种数据仓库建设模型思想分为两种kimball和inmon模型具体的kimball和inmon 模型思想
Hive中如何定位数据倾斜

1 概述在hive中执行sql任务时当任务在reduce阶段一直卡在99 时很有可能出现了数据倾斜这个时候如果我们的sql很长需要判断出是哪段sql导致的数据倾斜才便于我们解决问题 2 定位数据倾斜下面以一条sql为例子记
ETL为什么经常变成ELT甚至LET？

ETL是将数据从来源端经过清洗 extract 转换 transform 加载 load 至目的端的过程正常的 ETL 过程应当是 E T L 这三个步骤逐步进行也就是先清洗转换之后再加载进目标端通常是数据库最后在数据库中的只是合理
互联网“香饽饽”？数据挖掘或成热门行业

何为数据挖掘信息化社会的高速发展下大数据云计算物联网等技术应运而生海量的数据资源逐渐在人们的生产生活中高速地产生积累带动全社会迈入了大数据时代这些代表信息的数据就好像大海而要在广阔的大海里面找到想要的某一条信息或知识也
neo4j start error：系统找不到指定的路径。 Unable to create logger at ‘‘

项目场景 Neo4j 4 3 3 community windows 这是代码文件启动时需要进入文件夹下的bin目录输入neo4j start 然后转入http localhost 7474 出现可供使用的图形界面此时如果在当前目录下
Hive 视图和索引

一视图 1 1 简介 Hive 中的视图和 RDBMS 中视图的概念一致都是一组数据的逻辑表示本质上就是一条 SELECT 语句的结果集视图是纯粹的逻辑对象没有关联的存储 Hive 3 0 0 引入的物化视图除外当查询引用视图时
LMDI(对数平均迪氏指数法）模型

LMDI 对数平均迪氏指数法模型含stata代码以及计算参考文献 1 数据来源见对应参考文献 2 时间跨度无 3 区域范围全国 4 指标说明分享文件里面包括stata的程序文件 ado pkg sthlp 案例数据中文的使用文
数据挖掘知识点总结

1 数据挖掘产生的背景驱动力是什么四种主要技术激发了人们对数据挖掘技术的开发应用和研究的兴趣超大规模数据库的出现如商业数据仓库和计算机自动收集数据记录手段的普及先进的计算机技术如更快和更大的计算能力和并行体系结构对海量数据的
DTCC 2023丨云原生环境下，需要什么样的 ETL 方案？

2023年8月16日 18日第14届中国数据库技术大会 DTCC 2023 于北京隆重召开拓数派受邀参与本次大会 PieCloudDB 技术专家邱培峰在大会做了云原生虚拟数仓 PieCloudDB ETL 方案设计与实现的主题演讲
Databend 存储架构总览

目的通过本篇文章带大家理解一下 Databend 的存储结构 Databend 内置的 Table 引擎为 Fuse table engine 也是接下来要花重点篇幅要讲的另外 Databend 还支持外置的 Hive table 及
浅谈我所见识的数据治理项目

开篇一张图与正文不一定有关图片来源于朋友圈 01 写在前面熟悉笔者的朋友可能知道笔者之前做的并非纯数据相关工作产品或项目笔者属于半路出家的数据人之前也几乎没有直接接触过数据仓库数据中台数据平台等产品或项目与数据库是一直打
数据中台与数据仓库区别

1 数据源不同先从数据来源上来说数据中台的数据来源可以是结构化数据或者非结构化的数据而传统数仓的数据来源主要是业务数据库数据格式也是以结构化数据为主 2 数据的处理不同数据中台不仅仅是汇聚企业各种数据而且让这些数据遵循相同的标准
数据库不推荐使用外键的9个理由！

我的经验告诉我很多数据库大多数我曾经使用的不包含外键时并不总是一件坏事在这篇文章中我想把重点放在为什么的原因上为什么这是一个问题 1 潜在的数据完整性问题缺少外键明显问题是数据库不能强制进行引用完整性检查如果在高一层没有正确
大数据之hive（数据仓库工具）的分组和分区操作

注在对hive的概念优缺点安装部署和参数配置在之后再进行总结本小节主要对hive中的分组和分区进行总结一分组 1 group by语句 group by通常和聚合函数一起使用按照一个或者多个列进行分组然后对每个组进行聚合操作
Spark SQL 项目：实现各区域热门商品前N统计

一需求1 1 需求简介这里的热门商品是从点击量的维度来看的计算各个区域前三大热门商品并备注上每个商品在主要城市中的分布比例超过两个城市用其他显示 1 2 思路分析使用 sql 来完成碰到复杂的需求可以使用 udf 或 udaf查

随机推荐

python 根据年份，月份信息显示此月份天数

1 普通方法 2 year int input 请输入年份 3 month int input 请输入月份 1 12 4 if month 2 5 if year 4 0 and year 100 0
Qt QtCreator 所有版本官方下载地址

直接跳过输入账号选择所需版本废话不多说直接上链接 1 所有版本QT下载地址 http download qt io archive qt 2 所有Qt Creator下载地址 http download qt io archive q
Unity知识点详解面试题大全

1 请简述值类型与引用类型的区别答区别 1 值类型存储在内存栈中引用类型数据存储在内存堆中而内存单元中存放的是堆中存放的地址 2 值类型存取快引用类型存取慢 3 值类型表示实际数据引用类型表示指向存储在内存堆中的数据的指针和引用
tinystl实现（第二十步：string实现）

经过长时间的学习终于可以开始tinystl的仿 chao 写工作了本文参考了这位大神的github 坦白讲我只是补充了注释因为tinystl的代码真的非常经典而我又没什么这种大型项目的经验所以只能这样做不过相信能够有助于大家的学习
Windows脚本对最后修改时间超过24小时的文件进行处理

这次我接到一个任务是写一个windows上运行的脚本讲某个文件夹下最后修改时间超过24小时的文件移到另一个文件夹然后在判断有生成的文件超过十分钟的关闭一个程序再启动它上网搜了一下有很多相关的比如说把最后修改时间的文件超过一天的删
第一章开发环境的配置

1 1 操作系统的选择常见的操作系统有 Windows Linux 和maxOS 大部分生产环境所用到的操作系统是Liunx 这使得它具有天然的开发优势本书也将使用Linux操作系统作为学习环境书中大部分软件安装环境配置和案例将以L
设计randompool结构

哈希表是get每一个key的value 而本题没有value 只有key 我们准备两张哈希表以及一个变量 size 一个表存放某 key 的标号另一个表根据根据标号取某个key 如下图所示 A是第0个进来的 B是第二个进来的我们现在先
仿中国婚博会微信小程序

仿中国婚博会微信小程序 app json pages pages index index pages cash cash pages marry marry pages community community pages me me pag
react 全局挂载组件

在index js 文件中导入react需要挂载的组件 import message from antd 全局挂载组件 React message function arg 默认部分参数 const type success content
js一道this笔试题

JS this阿里笔试面试题代码 1 this 谁调用就指向谁 2 在对象中this为对象本身 3 直接调用this为window var name 222 var a name 111 say function console log
如何在Debian(kali)中配置代理(agent)服务器？

开始搭建代理服务器首先我参考如下文章进行搭建代理服务器步骤每一个命令都执行过报了各种错找了博客目前尚未开始我已经知道我的路很长很难走呀加油 go go go 第一个教程第二个教程 Ubuntu Debian CentOS搭建
MySQL数据查询 - 简单查询

简单查询在MySQL中可以通过SQL语句来实现基本数据查询 SQL语句可以通过如下多种使用查询所有字段数据查询指定字段数据避免重复数据查询对结果进行排序和分组等查询数据库中可能包含数量庞大的表表中可能包含无数的记录如果没有两
掌握 Effective C++ : 条款01

背景 Effective C 是每个 C 程序员都应该读的经典之作书中涵盖了 C 编程中的一系列最佳实践包括了面向对象设计模板 STL 异常处理等方面的内容由于 C 的发展非常迅速书中的某些内容可能已经过时但依然是值得好好学习的
abc300.com站点被注入脚本

在进行abc300 com的页面SEO时发现所有页面受到注入攻击全部asp页最后被添加一页弄了1个多小时大部份页面被清除目前已经获得www hulijie com的ftp 222 33 63 206 用户名admin 密码尚需分析
postgresql 高可用框架对比

PostgreSQL 的高可用框架有许多种每种都有其独特的优缺点下面是一些常见的高可用框架的对比 Pgpool II 这是一个开源的负载均衡和数据库代理支持主从复制和读写分离它的优点在于易于安装和使用缺点是不支持实时备份 Repm
Log4Net 日志管理

Log4Net日志管理 A Log4Net日志管理 Log4Net的日志级别如下级别允许的方法 Boolean属性优先级别 OFF Highest FATAL void Fatal bool IsFatalEnabled RROR v
函数的节流与防抖

1 节流节流的意思是规定时间内只触发一次比如我们设定500ms 在这个时间内无论点击按钮多少次它都只会触发一次具体场景可以是抢购时候由于有无数人快速点击按钮如果每次点击都发送请求就会给服务器造成巨大的压力但是我们进行
C语言-求因子和

求因子和题目描述一个数的因子和不包括它本身的所有因子之和如12的因子有1 2 3 4 6所以12的因子和是16 现在给定一个数n n lt 10 9 求它的因子和输入格式一个数输出格式一个数样例输入 12 样例输出 16 提
有趣的MyBatis——延迟加载

为什么80 的码农都做不了架构师 gt gt gt 我们知道在resultMap中使用级联对于查找相关数据来说很方便比如说查找雇员基本信息顺便得到了雇员的体检信息家庭信息部门信息但是有时我们不需要相关数据那么在一些复杂的系统中
初学MaxCompute

MaxComputer是阿里云提供的一种全新的大数据计算服务其具备更高效的计算及存储能力本人的理解就是一个类似于HBase Hive的云上的数据仓库参考官方文档系列 https yq aliyun com articles 85595

初学MaxCompute

初学MaxCompute 的相关文章

随机推荐

热门标签