把手伸向大数据平台的云原生,是如何将大数据平台迁移至K8s上的?

2023-11-16

我们正身处数据大爆炸的时代,据IDC数据显示,仅在2022年,人类就将创造超过97ZB的数据;要知道截至2012年,人类生产的所有印刷材料的数据量为200PB,仅为2022年一年所创造数据量的50万分之一。据预测,中国数据量规模将从2022的23.88ZB增长至2027年的76.6ZB,年均增长速度CAGR达到26.3%,为全球第一。

数据量激增,数据驱动型企业面临更大挑战

8fcc785b43470e59179ef345637a0864.png

数据大爆炸对企业的发展机遇与挑战并存。数据量激增使得企业必须对这些数据创造更多的价值,在推动这一过程中,自然转变出数据驱动型企业。

那么,数据驱动型企业正面临着六大挑战:大多数企业缺乏一个明确的数据平台战略;高速的数据增长带来的存储、分析以及数据创新的成本太高;难以找到发挥数据价值的场景;不清楚应该使用什么样的新技术或者产品来支持业务创新;企业内部人员技能不足难以支撑一些创新型的数据项目;企业缺乏数据的治理和安全保护的能力。

如何将挑战化为机遇?第一,打破数据孤岛,实现数据一体化融合的分析。第二,数据驱动智能创新,利用创新产品重塑创新引擎;第三,采用云原生架构,助力企业数据驱动业务创新。

  破局传统大数据技术架构的局限,云原生与K8s搭把手

5b53bcffd28cc4c775c1abd68fa29c17.png

以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:系统组件安装配置复杂、集群资源利用效率低、运维工作量大、数据应用开发迭代效率低、新的开发工具集成非常复杂。这些问题已经成为了困扰企业数字化转型加速迭代和升级的重要障碍。

既然不能够依靠Hadoop生态技术本身的发展来解决传统大数据平台带来的难题,那么我们就应该把注意力放到当前最新的技术发展趋势之上,也就是以容器和K8s为代表的云原生技术。

云原生技术在2013年容器项目以及2014年K8s项目正式发布以后,发展非常迅猛。现在,各大公有云厂商都支持K8s,还有上百家技术公司在持续投入K8s的迭代和更新工作。目前,CNCF的生态全景图包含了1000多个云原生技术产品,覆盖了数据库、消息级流处理、调度和任务编排、存储系统等10多个技术领域。 

2021年应该是云原生大数据技术发展的里程碑,2021年3月,Apache 宣布 Spark 3.1 正式支持了 K8s,另外在2021年5月,Apache Kafka 背后的商业公司 Confluent 也发布了Confluent on K8s,一个能私有发布的在K8s之上运行的Kafka生产集群系统。这两个重要事件表明,大数据平台的云原生化已是大势所趋。按照这个趋势,Hadoop正逐渐迁移到K8s上。

  云原生进阶之路,将大数据平台迁移至K8s上

9f1ea014f18f0417218974a9f7c92cc7.png

顺应趋势,越来越多的企业将业务系统负载逐渐进行云原生改造,迁移到基于Kubernetes的私有或公有云平台上之后,在云原生体系之外独立运行一套传统大数据平台,在架构上和运营上又增加了不少不必要的复杂度和资源浪费。

那么,智领云自主研发的基于云原生架构的Kubernetes大数据平台(简称KDP),就是解决以上问题的关键平台。将大数据平台迁移至K8s上,以解决国内企业在使用K8s时,大多是在做云计算方面的相关调度,而针对大数据领域,企业还在管理另一套纷繁复杂的系统即传统大数据平台。

8edd2592fa803a56bc9369706757627c.png

KDP系统架构图

KDP采用Kubernetes作为资源调度平台,统一调度和管理大数据组件以及数据应用。在对开源的大数据计算及存储引擎的改造和集成基础之上,通过智领云自研的大数据集成基座,该平台实现了以标准的方式来部署、发布、管理和运维主流大数据组件。

打个比方,大家一定用过Windows的资源管理器,KDP就像是大数据组件的资源管理器,将所有大数据组件管理起来,让用户能够更加方便地使用,从而大大提升系统运行效率,降低运维成本。 

6148ed4421064777923388801a539373.png

KDP管理界面图

KDP将为企业带来什么?

实际上,KDP给用户带来的高效是实打实的。比如拿某大型运营商来说,数据中心的服务器数量大约有3万台,这些服务器的利用率严重不足,平均使用效率只有20%-30%左右。但在KDP平台的统一资源调配下,只需要大约6000台设备就能达到原有效果,大大节省了设备、电力、空间等投资,并提升了客户的竞争力。

具体而言,KDP能够标准化配置管理,即采用统一的Kubernetes文件配置方式,对大数据组件进行标准化的配置管理,简化大数据组件与Kubernetes集群的集成;实现资源高效利用,集群资源作为一个可共享的资源池,实现实时、离线作业的混部,集群资源利用率相较于传统大数据平台的30%提升到60%;弹性扩展,利用Kubernetes的弹性扩容技术,从容应对计算作业的性能瓶颈,实现计算资源及集群资源的动态扩容;简化运维,基于Kubernetes标准的Operator操作方式,统一运维界面完成大数据组件的部署、升级、扩容、备份等操作,提升运维效率。

那么,在大数据技术落地实施的具体场景中,该平台能很好取代传统大数据平台,帮助企业在数字化转型过程中实现降本增效的目标。

高效的集群部署和运维:有的企业作为技术提供方要为多个内部或外部的机构进行大数据集群的部署和实施,但传统大数据平台的软件部署、组件互相适配、计算引擎调优等方案相对复杂,手工部署的步骤多,导致集群部署周期长,项目实施成本很高,运维流程复杂,运维人员能力要求高。在这种场景下,采用KDP,可以大幅度提升实施项目的部署效率,降低项目实施运维人力和时间成本。

提升IT架构资源效率:有的企业在生产环境中运行多种类型的数据应用、不同类型的存储引擎、实时和批处理的计算作业。在传统大数据平台环境下,一般都是采用独立的虚机集群来部署这样的生产环境,导致资源使用率很低。采用了KDP以后,企业可以利用作业混排、存算分离和精细化调度等平台特性来提升整体资源使用效率,降低IT架构的投入成本。

传统技术的升级改造:传统大数据平台因为技术扩展迭代流程比较慢,不能及时解决运维中碰到的性能瓶颈,同时大数据组件之间软件包依赖很复杂,导致组件升级困难,新的组件集成耗时费力。使用传统大数据平台的技术团队面对运维压力疲于奔命,没有精力专注于业务开发和数据价值的发现。传统大数据平台逐步迁移到云原生大数据平台后,可以显著提升运维效率,降低运维成本,解放技术团队的生产力。

自助式的数字创新:有的企业需要有多个大数据集群服务不同的业务部门,业务部门的数据科学家希望能自助式地尝试新的云原生人工智能机器学习工具。很显然,传统大数据平台满足不了这种自助式需要,企业可以通过KDP部署提升多平台管理效率,提供数据分析和人工智能开发工具的自助式发布,降低整体资源消耗的成本,加速数据价值的创造过程。

  优势不可替代,所有大数据组件实现统一标准化管理

50cdd25e39f1240ec05ef8c7f94041c0.png

首先,KDP开箱即用,简单到几个命令和操作就可以轻松上手;其次,可视化管理,及可观测性的能力;第三,在调度方面的创新,将大数据平台迁移到K8s上。

当然,智领云KDP最大的优势,也是区别其他产品的地方是所有标准化的大数据组件在KDP的支持下,都能无缝地运行在Kubernetes之上。而且KDP几乎与业内所有主流的Kubernetes发行版都能完美适配,具备良好的兼容性。

在Kubernetes上运行大数据平台有以下四个好处:第一,统一管理,复用Kubernetes基础架构,复杂度大大降低;第二,资源混排,高效利用共享资源池,各个组件及整个集群都很容易弹性伸缩;第三,整个系统能够快速支持新应用的集成,快速迭代;第四,系统稳定性得到极大提高,运维效率高。KDP聚焦于各个大数据组件的安装,以及统一的资源管理。打比方说,类比Windows资源管理器,KDP就像大数据平台的资源管理器。

目前,智领云KDP适合以下几类用户:

  1. 需要在Kubernetes上部署和运行大数据组件和应用的用户,例如云原生开发者,数据工程师,数据分析师等;

  2. 需要对现有的大数据系统进行云原生改造和迁移的用户,例如传统Hadoop平台的用户,需要提高系统效率和降低运维成本的用户等;

  3. 需要快速打造一套企业级云原生大数据底座平台的用户,例如数字化创新和转型的用户,需要支持多种数据场景和应用的用户等。

如果想要使用智领云KDP部署和运行大数据组件和应用,可以参考以下步骤:

首先,你需要在Kubernetes集群上安装智领云KDP平台,这是一个容器化云原生大数据平台,可以在Kubernetes上管理大数据组件和应用。

然后,你可以在智领云KDP平台上选择你需要的大数据组件和应用,例如Hive,Spark,Flink等,并配置相关的参数。

最后,你可以在智领云KDP平台上启动和停止你的大数据组件和应用,并查看相关的状态和日志。你也可以通过智领云KDP平台访问你的数据源和存储,并进行数据分析和处理。

Kubernetes让业务应用的发布和管理趋于标准化。而智领云的终极目标则是让数据应用的发布和使用也变得标准化。从容器化云原生大数据平台开始做起,智领云正一步一个脚印前行。

关于LinkTimeCloud 智领云 

智领云是国内云原生大数据技术的创新领导者,为企业级客户提供以云原生大数据平台为底座的云原生DataOps产品系列,包括云原生数据集成开发平台和云原生数据资产运营平台。智领云通过产品及服务帮助企业搭建数据和AI中台,轻松打造业务数据能力闭环,建立数字化运营体系,并最终完成数据驱动的数字化转型。

智领云已经服务了能源、教育、医疗健康、物联网、金融等行业国内外多家知名企业,与多个合作伙伴在云原生生态领域中展开紧密的合作,充分利用各自的优势,共同为企业客户提供更有价值的云计算、大数据产品和技术服务。

- FIN -

8032e81da0100b8eb6bd5af5834583bc.png

fe1403adca4cc93a9b376f4b4325aaaa.gif点击“阅读原文”了解KDP

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

把手伸向大数据平台的云原生,是如何将大数据平台迁移至K8s上的? 的相关文章

随机推荐

  • 小米iot业务_小米,大时代下的潜行者

    11月27日 小米发布了2019年第三季度的财务业绩 报告期内 小米收入达到537亿人民币 同比增长5 5 这是小米单季度的营收新高 相比收入 盈利能力的提高是小米财报最大的亮点 2019年第三季度 经调整后净利润为35亿元 同比增长20
  • Python代码制作2020“恐龙跳一跳“小游戏

    开发工具 Python版本 3 6 4 相关模块 pygame模块 以及一些Python自带的模块 相关文件 欢迎与我交流 环境搭建 安装Python并添加到环境变量 pip安装需要的相关模块即可 原理介绍 游戏规则简介 玩家通过空格键控制
  • springcloud入门基础搭建之hystrix

    目录 1 工程目录 2 单独使用hystrix 2 1引入依赖 2 2主启动添加 EnableHystrix 2 3在需要进行错误降级的方法上添加 HystrixCommand 2 4测试 3 整合feign和hystrix 3 1依赖 3
  • 如何搭建测试平台体系

    一个健康的测试平台体系 对测试人员的职责分工 协作模式会有不同的要求 测试平台核心的职责是完成高质量的交付已满足业务需求 测试活动包括单元测试 集成测试 接口测试 性能测试等 都是通过这些测试手段 协同整个测试平台来完成高质量交付的管理工作
  • Token的详细说明,看这一篇就够了

    文章目录 1 基于Token 的身份验证方法 2 JWT 2 1 Header 2 2 Payload 2 3 signatrue 3 Web安全 对于 Token 在很多大型网站中都有所应用 比如 Facebook Twitter Goo
  • C#编码规范-使用StyleCop进行代码格式检查

    前言 但是在项目开发的过程中 如果只是验证命名规则 而没有统一程序排版 不同开发人员将产出不同的文件格式 这样的产出 虽然能够正常地提供项目功能 但缺会大幅降低了这份程序代码的可维护性与可读性 本篇文章介绍如何通过StyleCop这个工具
  • C++模板库STL——vector容器(下)

    上篇介绍了vector的基本使用 本贴将介绍一些常用的函数与方法 帮助各位更加灵活的使用vector容器 include
  • 2021-12-21 《聪明的投资者》学习笔记-17.四个非常有启发的案例--失败案例

    摘自 聪明的投资者 The Intelligent Investor 第4版 本杰明 格雷厄姆 第17章 四个非常有启发的案例 失败案例 宾州中央铁路公司的案例 利润不合理 财务实力欠佳 Ling Temco Vought公司 举债扩张 粗
  • 网络知识点------SBC和BSC的定义

    数通知识点学习 2021 7 1 2021 12 31号我就职于浙江大华技术股份有限公司 担任嵌入式软件工程师 2022 1 4我入职中兴通讯 担任数通工程师 从物联网行业跨到通讯行业 有遗憾 有悲伤 也有快乐 希望以后还能继续通过博客记录
  • Qt 查看Qt助手的方法

    为了方便大家自学 在这里提供一种查看Qt助手的方法 1 打开软件点击帮助 在这里可以搜索关键词 2 假设搜索的是QToolBar 3 搜索的全是英文 这时可以点击 4 此时会跳到网页版Qt助手 5 使用的是 Microsoft Edge 浏
  • centos 安装java11

    直接执行 yum list grep java 11 输出结果如下 java 11 openjdk i686 1 11 0 16 0 8 1 el7 9 updates java 11 openjdk x86 64 1 11 0 16 0
  • JavaWeb——JavaWeb核心之Servlet

    一 Servlet简介 1 什么是Servlet Servlet 运行在服务端的Java小程序 是sun公司提供一套规范 接口 用来处理客户端请求 响应给浏览器的动态资源 但servlet的实质就是java代码 通过java的API 动态的
  • Python3-定时任务的四种实现方式

    最近做一个小程序开发任务 主要负责后台部分开发 根据项目需求 需要实现三个定时任务 定时更新微信token 需要2小时更新一次 商品定时上线 定时检测后台服务是否存活 使用Python去实现这三个任务 这里需要使用定时相关知识点 Pytho
  • 如何回答「你的优势和劣势是什么」?【面试核心问题6】

    导读 优势和劣势也是面试中的常问问题 求职者应该有所准备 准备好自己的3个优势和3个劣势 对于优势来说 最好是结合职位要求 或是产品经理的基本能力 谈一些自己具备的和职位相关的优势 并且能拿出证据 经历来证明它 举例 具备良好的沟通能力和组
  • 手机应用软件卸载【adb】

    解决了想卸载 厂商又不让卸载 例 miui广告 卸载小爱等 adb 工具 点击下载 官方下载 安全 附自己的卸载包 adb exe shell pm uninstall user 0 com miui systemAdSolution ad
  • 双系统 Ubuntu grub启动项中 没有Windows的解决

    目标 从ubuntu的grub进入win10系统 实施 以下操作在Ubuntu系统中进行 终端依次执行下面命令 sudo grub install dev sda sudo chmod x etc grub d 30 os prober s
  • 导致项目失败常见的原因有哪些

    一 规划工作做得不细 或缺少灵活性 项目计划始终是项目开始前的热点讨论话题 但是在实际项目进行中仍会出现问题 因此在做好计划之后 在项目实施中项目经理还需要根据项目实际情况做适当的调整 项目经理可以通过进度猫甘特图制作项目计划 调整增加项目
  • 另类的唯品会和得物比价

    目前得物h5和小程序防爬弄得采集数据很费劲 另辟蹊径做了一款通过模拟器和商家后台方式采集数据的方式 目前实现了跟唯品会的比价 运行界面如下 输入品牌名称 点击 开始 表格中左边依次显示唯品会采集的数据 右边会根据采集模式的不同 从安卓模拟器
  • inux字符驱动之read、write部分

    本期主题 linux字符驱动之read write部分 往期链接 linux设备驱动中的并发 linux设备驱动中的编译乱序和执行乱序 linux设备驱动之内核模块 linux字符驱动 linux字符驱动之ioctl部分 linux字符驱动
  • 把手伸向大数据平台的云原生,是如何将大数据平台迁移至K8s上的?

    我们正身处数据大爆炸的时代 据IDC数据显示 仅在2022年 人类就将创造超过97ZB的数据 要知道截至2012年 人类生产的所有印刷材料的数据量为200PB 仅为2022年一年所创造数据量的50万分之一 据预测 中国数据量规模将从2022