不确定性决策框架(决策算法)及其行业应用场景

· 24分钟阅读
不确定性决策框架(决策算法)及其行业应用场景
Algorithms for Decision Making

人类社会许多重要问题都涉及在不确定性中进行决策,包括飞机碰撞规避、野火管理和灾难应对。在设计自动决策系统或决策支持系统时,重要的是在平衡多个目标的同时考虑各种不确定性来源。本文从计算的角度讨论了这些挑战,旨在提供关于决策模型和计算方法的理论。探讨在不确定性下进行决策的问题,提供了一些应用实例及计算方法的范围。然后,讲讲各个学科如何贡献于对智能决策的理解,并强调了可能的社会影响。

1. 决策过程

一个代理是根据对环境的观察进行行动的实体。代理可以是物理实体,如人类或机器人,也可以是非物理实体,如完全由软件实现的决策支持系统。如下图所示,代理和环境之间的互动遵循观察-行动的循环或回路。

代理在时间 t 接收到关于环境的观察,记为 o_t 。例如,观察可以通过生物感官过程(如人类的感官)或传感器系统(如空中交通控制系统中的雷达)来进行。观察通常是不完整或有噪声的,比如人类可能看不到一架逼近的飞机,或者雷达系统可能由于电磁干扰而漏掉某次检测。随后,代理通过某种决策过程选择一个行动 a_t 。这一行动(如发出警报)可能对环境产生非确定性的影响。

我们关注的是那些在与环境智能互动以实现目标的过程中进行决策的代理。给定过去的观察序列 ( o_1, \dots, o_t ) 以及对环境的了解,代理必须在各种不确定性来源下选择一个最能实现其目标的行动,包括以下几种不确定性:

•	结果不确定性,即我们行动的效果是不确定的
•	模型不确定性,即我们对问题的模型是不确定的
•	状态不确定性,即环境的真实状态是不确定的
•	交互不确定性,即与环境中其他代理交互的行为是不确定的

我们将围绕这些不确定性来源展开讨论,在不确定性下进行决策(决策算法)是人工智能领域的核心问题,也是许多其他领域的核心问题。

2. 应用

前面介绍的决策框架可以应用于广泛的领域。接下来我们将讨论一些具有实际应用的概念性示例。

2.1 飞机防撞系统

为了防止飞机在空中相撞,我们希望设计一个系统,能够提醒飞行员潜在的威胁并指导他们如何规避。该系统通过与其他飞机的应答器通信来识别它们的位置,具有一定的精确度。决定提供什么样的指导给飞行员是一个挑战,因为飞行员的响应速度和他们执行指导的程度存在不确定性。此外,其他飞机的行为也是不确定的。我们希望系统能足够早地发出警报,为飞行员留出足够的时间调整航向以避免碰撞,但又不能太早发出警报,以免引起过多不必要的规避动作。由于该系统将在全球范围内持续运行,我们需要它提供极高的安全性。

2.2 自动驾驶

我们希望构建一辆能够在城市环境中安全行驶的自动驾驶汽车。该车辆必须依赖一套传感器来感知其周围环境以做出安全决策。一种传感器是激光雷达,它通过测量激光反射来确定与障碍物的距离。另一种传感器是摄像头,通过计算机视觉算法,可以检测行人和其他车辆。这两种传感器都是不完美的,容易受到噪声和遮挡的影响。例如,停在路边的卡车可能遮挡正在人行横道上试图过马路的行人。我们的系统必须从可观察到的行为中预测其他车辆、行人和其他道路使用者的意图和未来路径,以确保安全到达目的地。

2.3 乳腺癌筛查

乳腺癌是全球女性中最常见的癌症。早期检测有助于挽救生命,而乳腺X线摄影是最有效的筛查工具。然而,乳腺X线摄影也带来了一些潜在风险,包括假阳性,可能导致不必要且侵入性的诊断性随访。多年来的研究已经产生了基于年龄的、平衡测试益处与风险的各种人群筛查方案。开发一个能够根据个人风险特征和筛查历史做出推荐的系统,具有改善健康结果的潜力。这样的系统可以通过总预期质量调整生命年、乳腺X线摄影的次数、假阳性的发生率以及未检测到的侵袭性癌症风险等指标与人群筛查方案进行比较。

2.4 金融消费与投资组合分配

假设我们想构建一个系统,推荐一个人在某年应该消费多少财富以及应该投资多少。投资组合可能包括具有不同风险和预期回报的股票和债券。财富的演变具有随机性,由于收入和投资收益的不确定性,通常在投资者接近退休前不断增长,然后稳步下降。在某一年消费一单位财富所带来的享受通常随着消费量的增加而减少,导致希望在整个生命周期内平滑消费。

2.5 分布式野火监测

应对野火时,态势感知是一个主要挑战。火情状态随着时间推移而演变,受到风和环境中燃料分布等因素的影响。许多野火覆盖大面积的地理区域。一种监测野火的概念是使用配备传感器的无人机团队飞行在火灾上方进行监测。单个无人机的传感范围有限,但团队中的信息可以融合,提供一个统一的态势快照,以驱动资源分配决策。我们希望团队成员能够自主确定如何协作以提供最佳的火灾覆盖范围。有效的监测需要决定如何机动以覆盖可能获取到有用新传感信息的区域;在那些我们已经确定是否燃烧的区域停留会造成资源浪费。识别重要的探索区域需要在仅有不完善的当前火情信息的基础上,推理火灾的随机演变。

2.6 火星科学探测

火星车在探索火星和加深我们对火星的理解方面取得了重要发现。然而,科学探测中的一个主要瓶颈是火星车与地球操作团队之间的通信链路。传感器信息从火星发送到地球以及指令从地球发送到火星可能需要长达半小时。此外,由于绕行轨道器在两星之间充当信息中继的限制,与火星的上传和下载窗口有限,导致对火星车的引导需要提前规划。最近的研究表明,通过引入更高水平的自主性,可以将科学探测任务的效率提高五倍。人类操作员仍然会提供任务目标的高层指导,但火星车将有灵活性,能够使用最新信息自主选择科学目标。此外,希望火星车能够在不需要人类干预的情况下适应各种危险和系统故障。

3. 方法

设计决策代理有许多方法。根据具体应用,一些方法可能比其他方法更合适。它们在设计者的责任和自动化任务之间有所不同。本节简要概述了这些方法的集合。尽管本书主要聚焦于规划和强化学习,但有些技术会涉及监督学习和优化的元素。

3.1 显式编程

设计决策代理的最直接方法是预先设想代理可能遇到的所有场景,并明确编程以规定代理在每个场景下应做什么。对于简单问题,显式编程方法可能效果很好,但它给设计者带来了巨大负担,要求他们提供一个完整的策略。各种代理编程语言和框架已经被提出,以便使代理的编程更加容易。

3.2 监督学习

对于某些问题,教代理该做什么可能比编写程序让代理遵循更容易。设计者提供了一组训练样本,自动学习算法则必须从这些样本中进行概括。这种方法被称为监督学习,并广泛应用于分类问题。当应用于学习从观察到动作的映射时,这种技术有时被称为行为克隆。行为克隆在专家设计者确实知道代表性情境下最佳行动时效果良好。虽然存在多种不同的学习算法,但它们通常在新情境中表现不如人类设计者。

3.3 优化

另一种方法是让设计者指定可能的决策策略空间和一个需要最大化的性能指标。评估决策策略的性能通常涉及运行一批模拟。优化算法随后在这个空间中搜索最优策略。如果空间相对较小且性能指标没有太多局部最优解,那么各种局部或全局搜索方法可能是合适的。尽管假设需要动态模型来运行模拟,但模型并未被用于指导搜索,这在处理复杂问题时可能是重要的。

3.4 规划

规划是一种利用问题动态模型来帮助指导搜索的优化形式。大量文献探讨了不同的规划问题,其中许多集中于确定性问题。对于某些问题,使用确定性模型来近似动态过程可能是可接受的。假设确定性模型允许我们使用更易于扩展至高维问题的方法。对于其他问题,考虑未来的不确定性至关重要。本书完全聚焦于那些考虑不确定性重要的问题。

3.5 强化学习

强化学习放宽了规划中预先已知模型的假设。相反,决策策略是在代理与环境交互的过程中学习的。设计者只需提供一个性能指标,优化代理行为的任务则交由学习算法处理。在强化学习中,一个有趣的复杂性在于,行动的选择不仅影响代理实现目标的即时成功,还影响代理学习环境并识别出可利用的特性。

4. 历史

自动化决策过程的理论可以追溯到早期哲学家、科学家、数学家和作家的梦想。早在公元前800年,古希腊人就开始将自动化融入神话和故事中。自动机一词首次出现在荷马的《伊利亚特》中,书中提到了一种自动机器的概念,包括用于招待宾客的机械三脚架。到了17世纪,哲学家们提出使用逻辑规则自动解决争端的想法,这些构想为机械化推理奠定了基础。

从18世纪末开始,发明家们开始制造自动机器以进行劳作。特别是在纺织行业的一系列创新催生了自动织机的发展,这为第一代工厂机器人奠定了基础。在19世纪初,使用智能机器自动化劳动的概念逐渐进入科幻小说中。机器人一词源自捷克作家卡雷尔·恰佩克的剧作《罗梭姆的万能机器人》(R.U.R.),讲述了能够从事人类不愿做的工作的机器。这部剧作启发了其他科幻作家在他们的作品中融入机器人元素。在20世纪中期,著名作家兼教授艾萨克·阿西莫夫在他著名的《机器人系列》中阐述了他对机器人学的愿景。

在实际实现自动化决策过程中,一个主要挑战是如何应对不确定性。即使到了20世纪末,因开发单纯形算法而闻名的乔治·丹齐格在1991年仍表示:

“回顾过去,有趣的是,最初促使我研究的问题仍未解决——即在时间上动态规划或调度,特别是在不确定性下进行动态规划的问题。如果这个问题能够成功解决,它(最终通过更好的规划)可以为世界的福祉和稳定作出贡献。”

尽管在不确定性下的决策仍然是一个活跃的研究领域,但在过去几个世纪中,研究人员和工程师越来越接近于将这些早期梦想者提出的概念变为现实。当前最先进的决策算法依赖于多个学科(包括经济学、心理学、神经科学、计算机科学、工程学、数学和运筹学)中开发的概念的融合。本节强调了这些学科的一些主要贡献。不同学科之间的相互影响推动了许多最近的进展,并有望继续支持未来的增长。

4.1 经济学

经济学需要建立人类决策的模型。其中一种方法是使用效用理论,这一理论最早在18世纪末引入。效用理论提供了一种建模和比较各种结果可取性的方法。例如,效用可以用来比较不同金额的货币可取性。在《立法理论》中,杰里米·边沁总结了货币效用的非线性关系:

  1. 每一部分财富对应于相应的幸福感。
  2. 在两个财富不平等的个体中,财富更多的人会有更多的幸福感。
  3. 较富裕者的幸福感增加不会与其财富增加成正比。

通过将效用概念与理性决策的理念结合起来,20世纪中期的经济学家为最大期望效用原则奠定了基础。这个原则是创建自主决策代理的重要概念之一。效用理论还催生了博弈论的发展,博弈论试图理解多个代理在彼此存在的情况下,为最大化其利益而采取的行为。

4.2 心理学

心理学家也研究人类决策,通常是从人类行为的角度出发。自19世纪以来,心理学家通过研究动物对刺激的反应,发展了试错学习的理论。研究者注意到,动物倾向于根据它们在先前类似情境中经历的满足感或不适感做出决策。俄罗斯心理学家伊万·巴甫洛夫结合这一观点,观察到狗在进食时的唾液分泌模式,提出了强化概念。心理学家发现,通过持续强化特定刺激,可以增强或削弱某种行为模式。20世纪中期,数学家兼计算机科学家艾伦·图灵表达了允许机器以相似方式学习的可能性:

“如果干涉安排仅涉及非常少的输入,一个通用机器的组织将会非常令人印象深刻。人类儿童的训练在很大程度上依赖于奖励和惩罚系统,这表明我们应该能够通过仅两个干涉输入,一个用于‘快乐’或‘奖励’(R),另一个用于‘痛苦’或‘惩罚’(P)来完成组织。”

心理学家的工作为强化学习领域奠定了基础,这是一种用于教导代理在不确定环境中做出决策的关键技术。

4.3 神经科学

心理学家研究人类行为的发生过程,而神经科学家则专注于产生这些行为的生物过程。19世纪末,科学家发现大脑由相互连接的神经元网络组成,这一网络负责感知和推理世界。人工智能先驱尼尔斯·尼尔森描述了将这些发现应用于决策的情况:

“由于动物的大脑负责将感知信息转化为行动,因此可以预期,神经生理学家和神经解剖学家对大脑及其基本组成部分——神经元——的研究中可以找到一些有用的想法。”

在20世纪40年代,研究人员首次提出,神经元可以被视为“逻辑单元”,当它们被组合成网络时,可以执行计算操作。这项研究成为神经网络的基础,而神经网络在人工智能领域被用于执行各种复杂任务。

4.4 计算机科学

20世纪中期,计算机科学家开始将智能决策问题表述为通过形式逻辑进行符号操纵的问题。20世纪中期开发的用于自动推理的计算机程序“逻辑理论家”就采用了这种思路来证明数学定理。其发明者之一赫伯特·西蒙通过将该程序与人类心智进行类比,讨论了该程序的符号性质:

“我们发明了一个能够进行非数字思考的计算机程序,从而解决了长期存在的心智/身体问题,解释了由物质组成的系统如何具备心智的特性。”

这些符号系统在很大程度上依赖于人类专家的知识。另一种智能方法,称为联结主义,部分受神经科学发展的启发,着重于使用人工神经网络作为智能的基础。随着人们了解到神经网络可以用于模式识别,联结主义者试图通过数据或经验学习智能行为,而非依赖专家的硬编码知识。联结主义范式支撑了AlphaGo的成功,该自主程序击败了人类职业棋手,并且还推动了自动驾驶车辆的开发。结合符号和联结主义范式的算法仍然是当前研究的活跃领域。

4.5 工程学

工程学领域专注于让物理系统(如机器人)做出智能决策。世界著名的机器人专家塞巴斯蒂安·特龙描述了这些系统的组成部分:

“机器人系统的共同点在于,它们存在于物理世界中,通过传感器感知其环境,并通过运动的物体来操控其环境。”

为了设计这些系统,工程师必须解决感知、规划和执行问题。物理系统通过使用其传感器感知世界,以创建环境中重要特征的表示。状态估计领域专注于利用传感器测量来构建对世界状态的信念。规划需要推理如何执行它们被设计的任务。半导体行业几十年来的进步使得规划过程成为可能。一旦计划制定完成,自主代理必须在现实世界中执行该计划。这一任务既需要硬件(如执行器),也需要算法来控制执行器并抵御干扰。控制理论领域专注于通过反馈控制来稳定机械系统。自动控制系统广泛应用于工业中,从调节烤箱温度到航空航天系统的导航。

4.6 数学

在不确定环境中做出明智决策,代理必须能够量化其不确定性。决策领域在这方面严重依赖概率理论。特别是,贝叶斯统计在本书中扮演了重要角色。1763年,托马斯·贝叶斯的一篇论文在他去世后发表,其中包含了后来被称为贝叶斯定理的内容。他的概率推理方法经历了起伏,直到20世纪中期,研究人员才发现贝叶斯方法在多个领域中具有应用价值。数学家伯纳德·库普曼在二战期间发现了该理论的实际用途:

“搜索中涉及的每一个操作都充满了不确定性;只能通过[…]概率进行定量理解。这现在可能被视为一种常识,但似乎是二战中的运筹学发展才让其实际意义得以确立。”

20世纪早期,作为曼哈顿计划一部分的大规模计算开发出的基于采样的方法(有时称为蒙特卡洛方法),使得一些以前无法处理的推理技术成为可能。这些基础为贝叶斯网络奠定了基础,贝叶斯网络在20世纪后期的人工智能领域逐渐流行起来。

4.7 运筹学

运筹学关注的是为决策问题(如资源分配、资产投资和维护调度)寻找最优解。19世纪末,研究人员开始探讨将数学和科学分析应用于商品和服务生产领域。在工业革命期间,该领域得到了加速发展,公司开始将管理划分为负责整体决策不同方面的部门。在第二次世界大战期间,决策优化被应用于为军队分配资源。战后,企业开始意识到,曾用于军事决策的运筹学概念同样可以帮助它们优化商业决策。这一认识促使了管理科学的发展,正如组织理论家哈罗德·孔茨所描述的:

“这一群体持久的信念是,如果管理、组织、规划或决策是一个逻辑过程,那么它可以用数学符号和关系来表达。该学派的核心方法是模型,因为通过这些手段,问题得以表达其基本关系,并与所选的目标或目的相关。”

这种对更好建模和理解商业决策的渴望催生了许多今天仍在使用的概念,如线性规划、动态规划和排队论。

5. 社会影响

算法决策方法已经改变了社会,并可能在未来继续发挥作用。本节简要概述了决策算法如何为社会做出贡献,并介绍了在确保广泛利益方面面临的一些挑战。

算法方法为环境可持续性做出了贡献。例如,在能源管理方面,贝叶斯优化已应用于自动化家庭能源管理系统。多代理系统领域的算法用于预测智能电网的运行、设计能源交易市场和预测屋顶太阳能的采用。还开发了用于保护生物多样性的算法,例如,神经网络被用于自动化野生动物普查,博弈论方法被用于打击森林中的偷猎行为,优化技术则用于分配栖息地管理的资源。

在医学领域,决策算法已取得成功几十年。这些算法被用于将住院医师匹配到医院、将器官捐赠者匹配到有需要的患者。贝叶斯网络的一项早期应用是疾病诊断,我们将在本书的第一部分讨论这一内容。从那时起,贝叶斯网络在医学中广泛用于疾病的诊断和预后。医学图像处理领域已被深度学习所变革,算法概念最近在理解疾病传播方面发挥了重要作用。

算法帮助我们理解城市区域的扩展并促进其设计。数据驱动算法被广泛用于改善公共基础设施。例如,随机过程被用于预测水管故障,深度学习改善了交通管理,马尔可夫决策过程和蒙特卡洛方法则被用于优化应急响应。去中心化多代理系统的概念优化了出行路线,路径规划技术则用于优化商品配送。决策算法被用于自动驾驶汽车和改进航空安全。

优化决策的算法能够放大其用户的影响力,无论用户的意图如何。例如,如果算法用户的目标是在政治选举期间散布错误信息,优化过程可以帮助实现这一目标。然而,类似的算法也可以用于监控和对抗虚假信息的传播。有时,这些决策算法的实施可能会带来用户未预料到的后续影响。

虽然算法有潜力带来显著利益,但它们在社会中的应用也面临挑战。数据驱动的算法通常由于数据收集方式的缘故存在固有偏见和盲点。随着算法逐渐融入我们的生活,理解如何减少偏见风险以及如何以公平的方式分配算法进展的益处变得尤为重要。算法也可能易受对抗性操控,因此设计对这种攻击具有鲁棒性的算法至关重要。此外,扩展道德和法律框架以预防意外后果并明确责任同样重要。