专访戴文渊:第四范式(现在)是一家怎样的公司?

2023-11-13

李根 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

 第四范式创始人及CEO戴文渊

第四范式是一家备受关注的公司。

仅创始团队成员来看,哪一个不是计算机、机器学习领域响当当的名字?

戴文渊是ACM2005全球冠军,百度机器学习系统带队打造者,百度最年轻高级科学家,华为诺亚方舟实验室主任科学家;陈雨强设计了全球第一个商用深度学习系统,还曾是今日头条推荐系统的负责人;胡时伟则先后任职百度、链家网,负责多个核心系统的系统设计及研发管理。

2015年,他们和杨强、涂威威一起,发起创立了AI公司第四范式。

但第四范式又是一家大众“陌生”的公司。

有时外界把他们比作AI时代的Windows,有时也把他们和“iPhone相机”放在一起。总之,第四范式所要做的事情,是要提供一整套可以直接拿起来用的系统工具——一整套AI系统工具。

拿创始人及CEO戴文渊的话来说,第四范式当前的核心任务,是要不断降低企业使用人工智能的门槛。

在乌镇世界互联网大会现场,他决定用产品说话,推出“第四范式先知”3.0产品,并向量子位详解了背后逻辑。

先知3.0

戴文渊说,先知系统的核心出发点是让企业零门槛拥有AI能力。1.0解决了IT上的门槛,2.0解决了算法方面的门槛,3.0的针对门槛则是“认知”——让企业用户知道如何正确打通数据闭环,如何喂“正确的数据”。

先知3.0把AI使用门槛降低到什么程度?

戴文渊告诉量子位,利用先知3.0系统,一个完全没有机器学习经验的HR、前台等公司职员,也能轻松打造一个新闻资讯软件使用的推荐系统。

为此,一方面是让机器学习系统程序化,另一方面,第四范式在先知3.0系统打磨中引入了“学习圈”概念。

戴文渊认为,人工智能是模拟人类智能、实现机器智能的科学,要想机器可以更聪明地学习,就要研究下人类的学习过程。

所以可参考“库伯学习圈”理论,这是人类心理学研究史的著名理论,其认为人类学习的过程是由“行动——经验——反思——理论”这四个阶段构成,即通过行动产生经验,再通过反思将经验总结为理论,指导新的行为。

 学习圈

类比到机器学习领域,机器决策则是由过程数据(行动)、反馈数据(经验)、机器学习(反思)、产出模型(理论)构成的“机器决策闭环”。

换而言之,就是建立机器对复杂事情的判断能力和场景决策能力,模拟人的思维过程,训练机器能像人一样作出决策规划、产生策略。

以较常见的新闻个性化推荐场景为例。

首先,业务人员需要定义清晰需要达成的目标;

其次,第四范式先知会帮助企业“规范化”收集、记录用户行为的“过程数据”,如用户看了哪些新闻、系统曾经推荐了哪些新闻;

进而,系统会记录结果明晰的“反馈数据”,如推荐的新闻,用户点击与否;

在此基础上,系统通过智能的模型,对“过程数据”、“反馈数据”进行计算,最终指导机器做出决策。

 信息推荐系统“学习圈”原理

戴文渊表示,先知3.0结合了机器学习特点,以及第四范式数百个行业应用案例的经验,产品迭代中,已经实现了从面向系统开发者的“机器学习平台”,迭代为企业经营管理人员服务的一体化“企业AI核心系统”,也就意味着,在生产决策层,AI也可以系统性发挥作用。

他举了个不能具名的银行使用案例。在第四范式与某全国性股份制银行的合作中,先知企业AI核心系统帮助该行制定了超过25亿个新的信用卡欺诈侦测策略,提升了超过7倍的反欺诈识别准确率。

不仅如此,该银行利用这套AI核心系统在其它20多个业务场景中发挥价值,快速实现业务线的全面智能升级。

“机器在策略方面相较人是有优势的。”戴文渊认为,机器能够依靠计算力从数据中发掘更多、更细的业务规则,精细化地做出判断。

“企业构建AI核心系统之后,大多数的一线决策行为会由效率更高的人工智能来完成,企业可以在投入最少人力、财力的成本下,获得强大生产力。”

不过,企业想要快速搭建定制化AI系统,并快速高效使用AI服务,还需要“三驾马车”。

企业AI系统“三驾马车”

这三驾马车分别指的是:数据核心、算法核心与生产核心。

企业AI系统只有连接这三驾马车、打通这三大核心,才能实现数据接入和处理、数据管理与访问、模型调研、智能建模、模型仓库、应用服务等能力。打造出具有海量数据存储和处理能力、超高维度算法、实时反馈的全流程企业AI核心系统。

 企业AI核心系统

第四范式的具体逻辑如下:

首先,数据核心方面,数据作为AI的输入端,价值日益凸显。但从现阶段来看,各个行业数据标准差异明显,且数据的组成与处理手段只为BI系统做过针对性优化,面对AI多格式、高维度、高实时性的要求显得捉襟见肘。

于是,先知3.0中的数据核心直接面向AI应用的需求,支持结构化与非结构化的数据接入,可将业务指标等结构化数据、文本等非结构化数据以及图关系数据进行处理,产生海量高维特征,并通过分布式内存数据库和统一的元数据管理系统,使机器学习训练和上线的过程能够高速获取特征数据。

与此同时,为提升智能决策的实时性和准确度,数据接入的时效性通过实时数据集成平台从T+1/T+N提升为“毫秒级”。一体化的数据平台不仅为单一业务提供支撑,更能够将企业部门间的数据壁垒打通,使多个业务的数据在同一个机器学习模型中产生化学反应,形成“1+1大于2”的效果。

其次,算法核心方面,基于第四范式技术研发,企业AI核心系统提供决策能力的生成算法及降低机器学习成本和门槛的协助算法。

其中,决策能力生成算法包括高维机器学习与深度学习训练算法、基于深度学习的高维特征生成算法、图像文本以及图关系的高维特征挖掘算法;协助算法则提供了自动模型选择、自动调参、特征组合自动探索等功能。

以特征组合自动探索为例,特征组合是一种提升模型预测效果的方法,以往业务人员需要在成百上千个特征中进行组合,组合后的特征数量呈指数级增长,而第四范式自主研发的FeatureGO算法,可以实现机器自动组合特征的功能,有效解决人为添加组合特征门槛高、耗时长等问题。

除此之外,先知3.0基于底层知识图谱,提供金融、教育、地理位置的特征增强服务以及地址验真、商户分类等应用级服务。

最后,生产核心方面,通过提供一套私有PaaS架构,将数据服务、算法任务、线上服务等基础能力服务化,成为AI应用运行态的载体。

不仅如此,先知3.0将“学习圈”中的步骤转化成运行中的具备高可用、可伸缩、可监控的应用程序。在保证功能完整性之外,生产核心还具备模型管理、灰度发布、资源隔离、审计支持等企业级关键特性,满足企业对AI业务应用的管理、运维、审计需求。

还是金融领域的例子,第四范式方面称,正是由于三驾马车并肩前行,不仅可以信用卡交易等反欺诈准确性,还把线上数据集成到提供最终欺诈评分的全过程缩短至20毫秒,而强大的生产平台能力,也使得系统可以快速通过横向扩展x86服务器的方式、达到每秒钟数十万笔交易的吞吐量。

不过,戴文渊也强调,第四范式的AI应用目标绝非止于金融,他们的初心始终未变,希望帮助企业零门槛拥有AI能力,而且今年以来,在金融之外,医疗行业的突破也已经展开。

之所以第四范式目前把金融作为当前领域,是因为内部认定,金融是服务于各行各业的。

戴文渊认为,科技+金融,能服务到更多的领域,他坚信金融在未来会和科技成为一体化服务的行业。

他还透露,银行领域的“战役”基本结束。第四范式把业内能拿下的标杆客户都拿下了,而且潜在的标杆也被收入囊中,“未来有竞争对手进入这个行业,已经没有机会拿到标杆了,在市场覆盖上,难度就会更大。”

不难看出,创立两年来,第四范式已经在企业市场打开了局面。

但这算不上第四范式创业两年的全部。

第四范式这两年

在乌镇,戴文渊还向量子位讲述了公司的其他进展。

比如在内部,“一颗赛艇”比赛已经举办了两届。区别于其他互联网公司的程序设计比赛,第四范式的“一颗赛艇”旨在检测先知系统的“门槛”性。

第一届,机器学习相关的工程师,都不被允许参加“一颗赛艇”,但公司其他全员中的70%,达到了公司开源科学家的水平,可以做到机器学习领域开源科学家可以做到的事情。

第二届,机器学习科学家和非专业选手可以分队混合参赛,但最终结果来看,专业选手参赛的成绩,并没有比非专业公司成绩更好。

这样的结果让戴文渊十足兴奋,他认为由于工具系统不断提升,更低AI使用门槛的产品,已经越来越近了——这也是先知3.0打磨完成的“前夜”。

戴文渊说,现在公司有超过一半的人,都拥有了为企业开发机器学习模型和算法的能力,即便这些人中不少人是前台、行政、HR等非技术人员。

他表示这两年来,AI门槛已经被第四范式降低到了什么程度?“类似今日头条的信息推荐应用,在我们公司有一半以上的人做得出来。”

戴文渊并不担心作为To B公司在大众视野中的短暂“缺失”。他表示IBM到底是一家什么样的公司呢?公众层面很少有统一答案。

“但对于每一家银行或我们的客户来讲,第四范式就是那家帮助他千人千面、服务更广泛受众用户的服务者。”

戴文渊很自豪,由于第四范式的所在,让越来越多B端企业拥有了新能力:对每一个客户都能提供不同的专属服务。而且由于第四范式,让这些“为科技进展而焦虑”的企业,拥有开发出智能的能力。

这位为百度打造了机器学习系统的前百度T10还说,现在通过第四范式所做的事情,可以说是“普及AI能力”,并让这种能力拥有普适性。

戴文渊比喻,他之前在百度,打造的是一辆赛车,每一个部件,都是榔头敲打出来的,可能只有参与的人才知道如何驾驭。但如今通过第四范式打造的企业AI核心系统,是民用车,每一个驾照考到C的人,都可以开。

即便公司层面进展还不错,但戴文渊认为AI普及依然任重道远。

他告诉量子位:AI仍旧是个稀缺的产品、奢侈品,并不是每一个人都能用的。我们希望让更多人驾驭这个能力,让每一个都有一个“智能手机”,现在进展而言,还属于大哥大时代,拧着出去是财富的象征。

但戴文渊同时表示,AI能力进入千行百业会比智能手机普及更快、更迅猛,他认为会是指数级增长,应该用不了5年。

此外,这种AI汹涌也体现在第四范式的增速上。

过去一年,他们业务上完成了新一轮爆发式增长——末位添0式的增速。员工也增加了一倍,即便已经在刻意控制。

对于第四范式的现在和未来,戴文渊认为,核心导向依然是“问题”。他向量子位强调:始终关注的,一定是在解决什么样的问题。

其他进展,都会顺其自然而来。

活动推荐

 点击图片阅读原文

即可报名和获取更多详情


联想全国高校AI精英挑战赛,面向全国征集优秀AI相关领域技术与应用。此次将在全国8大赛区、260所高校开启项目收集和沟通评判,最终入围总决赛的8支参赛队伍,将获得联想创投投资。

活动报名

旷视研究院深度解读COCO 2017物体检测夺冠算法


嘉宾:竞赛主力队员、论文一作,旷视研究院研究员彭超


时间:12月6日(周三)晚19:30-20:30


形式:线上直播+微信群互动


添加量子位小助手4:qbitbot4,备注“吃瓜社”,通过后即可入群参与活动

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

专访戴文渊:第四范式(现在)是一家怎样的公司? 的相关文章

随机推荐

  • 【C++入门到精通】C++入门 —— 类和对象(了解类和对象)

    目录 一 类和对象的历史由来 二 面向过程和面向对象的初步认识 三 类 1 引子 2 类的定义 3 类的访问限定符及封装 访问限定符 访问限定符解释说明 struct 与 class 的区别 1 默认访问级别 2 继承权限 默认的继承方式
  • wildfly 配置 pinpoint

    wildfly版本10 pinpoint版本1 8 4 set JAVA OPTS JAVA OPTS Djboss modules system pkgs org jboss logmanager com navercorp pinpoi
  • debian和archlinux下使用fcitx5-rime中州韵输入法之双拼及美化

    1 安装fcitx5和fcitx5 rime 中州韵输入法 apt install fcitx5 fcitx5 rime 2 启用fcitx5 debian用im config im config archlinux用 nano xprof
  • 使用反射技术实现的导入Excel文件到数据库的公共方法

    还是干脆 利索直接上代码最实惠 1 定义接口类IImportService public interface IImportService
  • R语言—随机抽样

    文章目录 专题 随机抽样 简单随机抽样 sample函数 srswor函数 srswr函数 分层抽样 专题 随机抽样 简单随机抽样 从总体中抽取样本的方法很多 最常用的方法是简单随机抽样 简单随机抽样 从容量为N的总体中 任意抽取n个单位作
  • consul学习与常用命令和使用教程

    目录 consul是什么 常用命令 API 实例1 新建服务API 注册服务 查询服务 consul是什么 Consul是分布式的 高可用的 可横向扩展的用于实现分布式系统的服务发现与配置 consul就是提供服务发现的工具 做服务发现的框
  • pyqt5按钮点击时传递参数(通过lambda表达式)

    pyqt5中按钮点击事件的响应 常见的是下面的方式 self btn clicked connet self click method 现在想在按钮click的时候能够传递参数 可以借助lambda表达式 self btn clicked
  • 数字IC手撕代码---百题斩

    前言 本篇导览目录 用来索引笔者写的其他手撕代码文章 本专栏旨在记录高频笔面试手撕代码题 以备数字前端秋招 本专栏所有文章提供原理分析 代码及波形 所有代码均经过本人验证 目录如下 1 数字IC手撕代码 分频器 任意偶数分频 2 数字IC手
  • 线性代数的本质(六)——线性空间

    文章目录 线性空间 线性空间 子空间 坐标与同构 线性变换与矩阵 基变换与坐标变换 线性空间 线性空间 Grant 普适的代价是抽象 仔细分析就会发现 关于向量空间的一切概念及有关定理都不依赖于向量的具体表现形式 有序数组 也不依赖于向量加
  • 17、SysTick—系统定时器

    17 SysTick 系统定时器 文章目录 17 SysTick 系统定时器 1 SysTick简介 2 SysTick寄存器介绍 3 SysTick 定时实验 3 1 硬件设计 3 2 软件设计 本章参考资料 Cortex M3 内核编程
  • 【硬件电子】基础知识点学习记录

    眼图 USB信号质量判断通过下面哪个参数来判断 A 眼图 B 电压 C 信噪比 D 失真度 解析 眼图测试主要是用来检测高速串行传输的信号质量 本题选A 眼图 是由于示波器的余辉作用 将扫描所得的每一个码元波形重叠在一起 从而形成眼图 眼图
  • numa节点间CPU利用率不均衡 - wakeup affinity

    最近遇到服务器numa节点间cpu利用率不均衡 清除sched domain的flags中的AFFINE WAKEUPS标志位是一个优化方法 但是如果直接将AFFINE WAKEUPS关闭 将无法充分利用L2 L3 cache缓存命中带来的
  • JMeter软件的安装(超详细教程)

    JMeter软件的安装 超详细教程 1 jdk的安装 1 1jdk的环境变量配置 2 JMeter的安装 1 1JMeter的环境变量配置 3 JMeter的运行 第一个问题 为什么下载JMeter要先下载jdk 因为JMeter是Apac
  • 数据库还原-bak文件

    数据库还原 我知道有俩种方式 一种方式是直接在数据库上操作 一种是在数据库里用代码还原 第一种方法 1 数据库上右击 选择还原文件和文件组 2 选择目标数据库 选择bak文件 确定即可还原数据库 一般情况下这样就可以还原数据库了 但有时会报
  • nginx报错:./configure: error: C compiler cc is not found, gcc 是已经安装了的

    源码安装nginx报错 找不到gcc 但是实际上gcc是存在的 如下 configure checking for OS Linux 3 10 0 957 el7 x86 64 x86 64 checking for C compiler
  • GJB1188A校验C语言算法

    GJB1188A校验和算法 先将2个字节数据拼接为一个字 16字节 然后循环右移 之后模2算法合成 按位异或 就是 运算符 最后再反向移位 循环右移 消息队列中第一个字不移位 第二个右移1位 第三个右移2位 按位异或 相同为0 不同为1 消
  • rk3399 Android9.0 ota升级失败

    rk3399 Android9 0 ota升级失败 问题 在rk3399 Android9 0 项目中需要 ota 功能 user版本编译完ota升级包后 在同版本整包升级时遇到如下问题 抓到的logcat内容如下 1044 2343 D
  • 数据安全风险分析及应对策略研究

    报告从理论与实践层面对当前企业面临的内外部数据安全风险进行分析与研究 完成了以下几方面的探索 一是梳理了当前数据安全面临的突出问题 二是提出了数据安全体系建设的行动思路和关键举措 三是提出了数据安全建设发展建议 关注公众号 互联互通社区 回
  • angular自动化测试--protractor

    前戏 面向模型编程 测试驱动开发 先保障交互逻辑 再调整细节 by 雪狼 为什么要自动化测试 1 提高产出质量 2 减少重构时的痛 反正我最近重构多了 痛苦经历多了 3 便于新人接手 angular自动化测试主要分 端到端测试和单元测试 很
  • 专访戴文渊:第四范式(现在)是一家怎样的公司?

    李根 发自 凹非寺 量子位 报道 公众号 QbitAI 第四范式创始人及CEO戴文渊 第四范式是一家备受关注的公司 仅创始团队成员来看 哪一个不是计算机 机器学习领域响当当的名字 戴文渊是ACM2005全球冠军 百度机器学习系统带队打造者