AI大语言模型时代构建全新数据平台

2023-11-05

在大语言模型的引领下,数据平台领军企业 Databricks 和 Snowflake 的未来重置,探讨了 Databricks 和 Snowflake 等知名平台,

存储领域的 Delta、udi、Iceberg,还是实时化数据处理领域的 Databricks、Snowflake

1、LLM 给大数据企业带来改变

        大模型给企业带来的改变范围很广。它可以帮助企业取代许多人的工作,例如数据开发、数据调优、数据库管理员(DBA)等,大模型的成功依赖于三个要素:模型、数据和算力,Bloomberg 公司发布了一款名为“BloombergGPT”的大模型,专注于新闻和财经领域。由于在这个领域积累了丰富的数据,其生成的大模型在知识深度和逻辑结构方面更为优越

2、LLM 并发挥出数据的价值

        AI 作为核心功能融入数据平台,目前 AI 链路还在快速演进中,变化很多。企业基础设施需要能保持灵活性。插件化体系本身可以通过 UDF、FunctionCompute 或者专门的 PipelineManagement 系统来解决,LLM 应用的组件已有很多,比如 LangChain、向量数据库、LLM runtime,这些组合可以很容易搭建起来一个端到端 LLM 服务链路。很多新兴的更易用的 LLMOps 组件都在涌现,比如 Lepton.ai, XInference

3、开源产品 Spark/Flink/Clickhouse、以及 SaaS 化的 Snowflake 相比

第四种新的计算方式,即增量计算。我们希望通过增量计算来统一这三种传统计算模式,最终形成一个一体化的引擎。

Flink 是比较早去尝试做一体化的解决方案,并且提出过“流批一体”的口号,目前看落地案例并不太多

 4、BI 和 AI/ML 正在逐渐融合

        系统解耦 / 开放与高性能的平衡,两种计算模式的联动。数据分析领域 SQL 是主流语言,AI 领域 Python 最流行,如何方便地编程两种系统,是关键挑战。SQLML、SQL+UDF 内嵌 Python、Python 的 SQLAlchemy 库、原生 Python 接口等都是选择

5、BI+AI/ML,甚至是 LLM,数据平台也需要逐渐支持 OLAP、OLTP、流、Graph、向量

        数据领域分成 OLTP、OLAP、AI 三个大方向,OLAP 数据分析领域内的典型场景基本固定,Lambda 架构问题业界有明确共识,一体化架构统一所有分析类的 Workload 是未来方向。

        OLAP+AI 一体化是目前的热点,这两类数据的重合度以及交互的诉求都够强。Databricks 一直主打这个方向,它一直坚持 Data+AI 的战略。Snowflake 从 OLAP 领域出发,最近也在加速同时支持 AI 的布局,比如一直在发力的 SnowPark。

        支持数据分析和其它计算范式。SQL 引擎和 AI 引擎都能支持好,数据分析的架构将趋于统一。在数据分析领域,大家最终可能都会向着增量计算的方向发展,从而逐渐打破 Lambda 架构的限制,一体化的架构会成为未来。跟我们前两年预测湖仓一体会成为未来一样,希望一体化架构两年后也会真正落地

        大语言模型带来了半结构化和非结构化数据处理能力的显著增强。以前处理这些数据几乎是很困难的,但现在已经变得相对容易。以前阅读一个 PDF 文件,很难理清其中的内容,而现在这方面的处理变得更加简便。在这个层面上,如果以前我们只能处理结构化数据,现在又多了两类,半结构化和非结构化数据。处理这些数据能力的显著增强,势必会带来存储和计算的需求显著增长。

        大语言模型到来,数据交换 / 隐私保护会得到更多投资。数据的安全和隐私的要求进一步提升了,数据共享的需求变得更加迫切。因为数据本质上就是知识。

        BI+AI 成为数据平台必选项,数据平台需要内置或插件化支持异构数据、finetune、向量检索等 AIOps 技术。AI 让所有的平台智能化,数据平台的智能化也成为必然。大幅降低使用门槛的数据平台会被更多人所使用

《2023 中国人工智能成熟度模型报告》

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

AI大语言模型时代构建全新数据平台 的相关文章

随机推荐

  • violin plot 小提琴图 matlab R语言 Python

    最近用到violin图 在此总结制作此图的步骤 matlab 需先下载函数文件 https ww2 mathworks cn matlabcentral fileexchange 45134 violin plot 函数中有默认添加 中位数
  • GDB调试详解

    文章目录 调试信息 启动调试 调试进程 调试core文件 GDB调试命令 run continue break backtrace 与 frame info break enable disable delete list print pt
  • 基于深度学习的人脸表情识别开发

    目前深度学习很流行 很大程度减轻了图像开发的难度 表情识别是图像算法的重要研究方向 本文提供一种基于深度学习的表情识别方法 1 获取模型 深度学习的框架比较多 有TF CAFFE PYTORCH KERAS等 然后有很多网络比如resnet
  • 2022年度【产业数字化金铲奖】重磅来袭!

    出品 产业家 第二届金铲奖来了 过去的一年时间里 产业家清晰地看到 数实融合的潮水更加汹涌澎湃且势不可挡 越来越多的企业开始寻求数字化转型 它们来自金融 工业 农业 医疗 能源等等 产业数字化 已经成为当代中国的主旋律 在新的主旋律中 被看
  • OpenWrt之时区设置(夏令时设置)

    今天遇到一个客户关于设置时区问题 涉及到夏令时区 查阅一些资料终于搞明白了 记录如下 因为openwrt是基于linux内核 所以记录一下Linux的时间和时区设置 Linux的时间和时区设置 在linux中与时间相关的文件有 etc lo
  • 如何使用eclipse软件创建一个Java项目?

    同学们在参加Java的时候老师肯定会教给你们如何去创建一个项目 这里怕有些同学没记住 所以单独为大家分享一篇如何使用eclipse软件创建一个Java项目教程 感觉有用的话收藏转发一下 eclipse创建Java项目教程 1 首先我们需要打
  • 将一个Android项目作为另一个Android Library给其他项目使用

    一 eclipse中的使用 开发中如果使用eclipse将一个Android工程作为Android Library给其他项目使用 需要实现的步骤如下 1 将android工程设为库 选择工程右击选择 property gt Android
  • Flutter Plugin调用Native APIs

    关键词 Flutter Flutter Plugin Platform Channel Method Channel Flutter Package Flutter插件 Flutter是Google使用Dart语言开发的一套移动应用开发框架
  • 微信小程序 之 发布流程

    1 前期准备 先想好你的小程序是用来做什么的 是电商 服务预约 知识付费 产品展示 还是团队管理 酒店预订 主要面向的人群都是哪些 现在小程序类型繁多 你一定要对自己有清晰的定位 明确的目标 才能避免把小程序做得乱七八糟 让自己的小程序真正
  • 菜鸟操作:QString和QMap转化(QMap嵌套QMap)

    学习QT的时候遇到一个问题 我想要将QMap转成QString 用于socket通信 查了网上找不到我想到的效果 然后就用一个比较粗糙的做法来实现 以下代码是对于二级QMap操作的 主要思路 将QMap中的数据全都放到QString中 包括
  • 百度人脸识别模块使用分享

    本文出自APICloud官方论坛 感谢鲍永道的分享 首先介绍下百度人脸识别模块 baiduFaceRec baiduFaceRec模块封装了百度AI人脸识别功能 使用此模块可实现百度人脸检测 包括age beauty expression
  • DHT11解析

    一 DHT11工作原理 1 获取数据 DHT11包括一个电阻式感湿元件和一个NTC测温元件 这两个获取温湿度数据的方式都差不多 利用湿 温 敏元件的电气特性 如电阻值 随湿 温 度的变化而变化的原理进行湿 温 度测量 2 数据发送 数据格式
  • SPECjvm 2008 小记

    背景 specjvm2008是免费的 直接官网下载就可以开跑了 但俗话说的好 便宜无好货 没啥厂家买账 看官网列出的成绩公示结果 根本没几家上传成绩 另外 SPECjvm2008本身是测试JRE的执行成绩 也就是java客户端的运行成绩 但
  • IOC的两种容器对比

    Spring的IOC容器是一个提供IOC支持的轻量级容器 Spring提供了两种容器类型 BeanFactory和ApplicationContext BeanFactory 基础类型IOC容器 提供完整的IOC支持 默认采用延迟初始化策略
  • 让Python在退出时强制运行一段代码

    atexit介绍 python atexit 模块定义了一个 register 函数 用于在 python 解释器中注册一个退出函数 这个函数在解释器正常终止时自动执行 一般用来做一些资源清理的操作 atexit 按注册的相反顺序执行这些函
  • qwt之鼠标移动和滚轮滚动

    一 qwt中的鼠标左键平移 主要通过 QwtPlotPanner panner new QwtPlotPanner ui gt qwtPlot gt canvas 这种状态下默认的是鼠标拖动图形 x轴和y轴都可以进行移动 以下实现禁止x轴拖
  • MongoDB快速入门

    一 MongoDB安装配置 1 MongoDB简介 MongoDB 由 databases 组成 databases 由 collections 组成 collections 由documents 相当于行 组成 而documents有fi
  • matlab怎么导出矩阵,如何用matlab 生成矩阵

    随便敲了些和lz类似的关系数字 把你的数字放到这个txt文件里就可以了 比如你有一个txt文件叫numbers txt 里头的数字如下 2 3 1 3 4 1 3 9 1 10 9 1 4 6 1 9 6 1 8 10 1 程序如下 cle
  • 全排列的价值 python实现 蓝桥杯 2137

    问题描述 对于一个排列 A a1 a2 an 定义价值 ci 为 a1 至 ai 1 中小于 ai 的数 的个数 即 ci aj j
  • AI大语言模型时代构建全新数据平台

    在大语言模型的引领下 数据平台领军企业 Databricks 和 Snowflake 的未来重置 探讨了 Databricks 和 Snowflake 等知名平台 存储领域的 Delta udi Iceberg 还是实时化数据处理领域的 D