1. 前言
在线广告对于大多数同学来说是一个既熟悉又陌生的技术领域。「搜广推」、「搜推广」等各种组合耳熟能详,但广告和搜索推荐有本质区别:
广告解决的是“媒体-广告平台-广告主”等多方优化问题
,其中媒体在保证用户体验的前提下实现商业化收入,广告主的诉求是通过出价尽可能优化营销目标,广告平台则在满足这两方需求的基础上促进广告生态的长期繁荣。
广告智能决策技术在这之中起到了关键性的作用,如图1所示,它需要解决如下问题在内的一系列智能决策问题:1. 为广告主设计并实现自动出价策略,提升广告投放效果;2. 为媒体设计智能拍卖机制来保证广告生态系统的繁荣和健康。
图1:广告智能决策通过自动出价和拍卖机制等方式实现多方优化
随着智能化营销产品和机器学习的发展,阿里妈妈将深度学习和强化学习等AI技术越来越多地应用到广告智能决策领域,如RL-based Bidding(基于强化学习的出价)帮助广告主显著提升广告营销效果,Learning-based Auction Design(基于学习的拍卖机制设计)使得多方利益的统筹优化更加高效。我们追根溯源,结合时代发展的视角重新审视广告智能决策技术的演化过程,本文将以阿里妈妈广告智能决策技术的演进为例,分享我们工作和思考。也希望能以此来抛砖引玉,和大家一块探讨。
2.持续突破的自动出价决策技术
广告平台吸引广告主持续投放的核心在于给他们带来更大的投放价值,典型的例子就是自动化的出价产品一经推出便深受广告主的喜爱并持续的投入预算。在电商场景下,我们不断地探索流量的多元化价值,设计更能贴近营销本质的自动出价产品,广告主只需要简单的设置就能清晰的表达营销诉求。
图2:出价产品逐步的智能化&自动化,广告主只需要简单的设置即可清晰的表达出营销诉求
极简产品背后则是强大的自动出价策略支撑,其基于海量数据自动学习好的广告投放模式,以提升给定流量价值下的优化能力。考虑到广告优化目标、预算和成本约束,自动出价可以统一表示为带约束的竞价优化问题。
其中为广告主的预算,为成本约束,该问题就是要对所有参竞的流量进行报价,以最大化竞得流量上的价值总和。如果已经提前知道要参竞流量集合的全部信息,包括能够触达的每条流量的价值和成本等,那么可以通过线性规划(LP)方法来求得最优解 。然而在线广告环境的动态变化以及每天到访用户的随机性,竞争流量集合很难被准确的预测出来。因此常规方法并不完全适用,需要构建能够适应动态环境的自动出价算法。
对竞价环境做一定的假设(比如拍卖机制为单坑下的GSP,且流量竞得价格已知),通过拉格朗日变换构造最优出价公式,将原问题转化为最优出价参数的寻优问题[9]:
2.1 主线:从跟随到引领,迈向更强的序列决策技术
如何研发更先进的算法提升决策能力是自动出价策略发展的主线,我们参考了业界大量公开的正式文献,并结合阿里妈妈自身的技术发展,勾勒出自动出价策略的发展演进脉络。
图3:自动出价策略的演进主线:迈向更强的决策能力
整体可以划分为4个阶段:
????????
第一代:经典控制类
????????
第二代:规划求解类
????????
第三代:强化学习类
????????
第四代:生成模型类
为了让大家有更好地理解,我们以阿里妈妈的实践为基础,重点讲述下强化学习在工业界的落地以及对生成式模型的探索。
2.1.1 强化学习在自动出价场景的大规模应用实践
2.2 副线:百花齐放,更全面的出价决策技术
3. 拍卖机制设计也是一个决策问题
4. 结语
雄关漫道真如铁,而今迈步从头越。历经阿里妈妈技术同学们坚持不懈的努力,在自动出价决策技术上,从推动经典强化学习类算法在工业界大规模落地,到持续革新提出Offline RL-based Bidding、Online RL-based Bidding等适应工业界特点的新算法,再到提出AIGB迈入生成式Bidding的新时代;在拍卖机制设计上,从只远观的高深领域,到可Learning的决策问题,再与工业界深入结合的Two-Stage Auction、整页拍卖、融合机制等,以及未来的Auto-bidding和拍卖机制的联合优化。一路走来,我们持续推动业界广告决策智能技术的发展,并秉承开放共赢,把我们的工作以学术化沉淀的方式实现对学术界研究的反哺。
参考
迈步从头越-阿里妈妈广告智能决策技术的演进之路