清华大学崔鹏:可信智能决策框架及实践_当前热文
一、一种可信智能决策框架首先和大家分享一种可信智能决策框架。1、比预测更重要的决策在实际的很多场景中
2023-05-04首先和大家分享一种可信智能决策框架。
【资料图】
1、比预测更重要的决策在实际的很多场景中,决策比预测更加重要。因为预测本身的目的并不只是单纯地预知未来长什么样子,而是希望通过预测去影响当下的一些关键行为和决策。
在很多领域,包括商业社会学领域,做决策非常重要,比如持续的业务增长(Continual business growth)、新商业机会发现(New business opportunity)等,如何通过数据驱动来更好地支撑最终的决策,是人工智能领域不可忽视的一部分工作。
2、无处不在的决策决策场景无处不在。众所周知的推荐系统,给一个用户推荐什么样的商品,实际上是在所有商品里做了一个选择决策(selection decision)。在电子商务中的定价算法,比如物流服务定价等,如何为一个服务制定一个合理的价格;在医疗场景中,针对病人的症状,应该推荐使用哪种药物或者治疗方式,这些都是干预性的决策场景。
3、决策的通常做法 1:用模拟器做决策学术界和产业界对决策都不陌生,有一些常用的方法去解决或是探讨决策的问题,总结下来有两种通常的做法。
第一种通常做法是用模拟器做决策,即强化学习(reinforcement learning)。强化学习是非常强大的一类做决策的方法体系,相当于有一个真实场景(environment),或者有一个对真实场景的模拟,就可以通过智能代理(agent)不断和真实场景进行试错学习,不断探索关键行为(action),最终找到在此真实场景中收益(reward)最大的关键行为。
整套强化学习的决策体系在很多实际应用问题上,会被大家首先想到。但是在真实的应用场景下,使用强化学习最大的挑战是有没有一个很好的对真实场景的模拟器。模拟器的构建本身就是一项极具挑战性的任务。当然比如阿尔法狗(Alphago)象棋等游戏场景,总体上来讲规则是相对封闭的,去构造一个模拟器还是比较容易的。但是在商业上和真实生活中,大多是开放性的场景,比如无人驾驶,很难给出一个非常完备的模拟器。要构造出模拟器,就需要对该场景有非常深入的理解。因此,构造模拟器本身可能是比做决策、做预测更难的一个问题,这实际上是强化学习的局限性。
4、决策的通常做法 2:用预测做决策另外一种通常做法就是用预测去做决策。指的是,虽然现在不知道什么样的决策好,但假如有一个预测器,能够在预测空间里边“打哪指哪”,如下图左边所示,像人射箭一样,可以先放几箭去打靶子,发现哪一箭射得比较好,就取这一箭的关键行为做相关决策。如果有这样的一个预测空间,就可以用预测做决策。
但是决策的效果取决于预测空间的准确性,到底预测得准不准。虽然在预测空间,打中了 10 次靶子,但当应用到实际的生活或产品时,中靶次数为 0,这就说明预测空间是不准的。到目前为止在预测任务上,最有信心的一个场景是在独立同分布假设下做预测,即测试分布(test distribution)和训练分布(training distribution)是同一个分布,当下有非常多强大的预测模型(prediction model),可以很好地解决实际问题。这就告诉我们:预测准确性好不好,某种程度上取决于实际场景下的测试数据和训练数据的分布是不是满足独立同分布。
继续深入思考一下预测准确性问题。假设基于历史数据 P(X,Y) 构造了一个预测模型,然后去探索一些不同的关键行为所带来收益,即如前面所述的多次射箭,看到底哪一次靶数最大。拆解一下,可以分为两类不同的情况。
第一类是给定决策变量,优化取值。事先知道了输入变量 X 中哪一个是比较好的决策变量,比如价格是 X 里面的一个决策变量,则变化价格变量的取值,用已构造出来的 P(X,Y) 预测模型去预测改变取值后的情况如何。
另外一类是寻求最优决策变量,并优化取值。事先并不知道 X 中哪一个是比较好的决策变量,场景上相对比较灵活,需要寻求最优的决策变量并优化其取值,也就是变化最优的决策变量的取值,然后看哪个取值经过预测模型预测的结果好。
基于这样的前提假设,在改变决策变量的取值时,实际上是改变了 P(X),即 P(X) 发生了变化,P(X,Y) 肯定会发生变化,那么独立同分布的假设本身就不成立了,意味着预测实际上很有可能失效。因此决策问题,如果用预测的方式来做,就会触发分布外泛化的问题,因为改变了决策变量的取值,一定会发生分布偏移(distribution shift)。在分布偏移的情况下,怎么样做预测,是属于分布外泛化的预测问题范畴,不是今天文章的主题。如果在预测领域能够解决分布外泛化的预测问题,用预测做决策也是可行的路径之一。但当下用 ID(In-Distribution)或者直接预测(direct prediction)的方法做决策,从理论上来讲是失效的,是有问题的。
5、决策问题是因果范畴在谈到决策问题时,通常都会直接把决策问题和因果挂钩,所谓决策,就是要做一个什么样的决定,肯定要问为什么做这样一个决定,很明显存在因果链条,在学界很多学者的共识是:要解决决策问题,是绕不开因果的,也就是要从可观测的数据(observational data)上来去获取足够的因果关系信息(causal information),并理解相关的因果机制(causal mechanism),然后基于因果机制再去设计最终做决策的一些策略。如果能够把整个过程都理解得很透彻,就能完美地复原整个因果机制,这样决策就不是问题,因为实际上相当于具有了上帝视角,就不存在做决策的挑战。
6、一种对决策的框架性描述早在 2015 年,Jon Kleinberg 就在一篇论文中发表过:决策问题不是只有因果机制能解决,即不是所有的决策问题都需要因果机制去解决。Jon Kleinberg 是康奈尔大学的知名教授,著名的 hits 算法、六度风格理论等都是 Jon Kleinberg 的研究成果。Jon Kleinberg 在 2015 年发表了一篇关于决策问题的论文,“Prediction Policy Problems”[1]。他认为有些决策问题就是预测策略问题,并且为了证明该论点,给出了一种对决策的框架性描述,如下图所示。
Π 是收益函数(Payoff function),x0是决策变量(Decision Variable),Y 是因决策变量产生的结果(Outcome),Π 实际上是x0和 Y 的函数。那x0怎样变化,Π 是最大的,就可以去求这样的一个导数 :
然后将它展开为:
展开后,根据 Y 和x0是否不相关,等式右边分别刻画了两种决策(decision)场景。第一种决策场景,就是 Y 和x0不相干时,即,但和 Y 是有关系的,这种情况下,如果能够很好地预测 Y,就能用已预测的 Y,更有针对性地用来做决策,这就是预测性决策问题。另外一种决策场景为,x0做了这样的一个决策,会影响 Y,Y 又会影响收益,这就是一个因果性决策问题。那什么情况下决策场景是因果性的,什么情况下是预测性的呢,后续会有案例解释;当然也有复合性决策场景,既有因果性的,又有预测性的。到此,就初步地框架性地描述了决策问题是怎样的。
7、决策场景的两个案例如上图所示的两种决策场景,其中x0是决策变量(decision variable),在两个场景下的定义是分别不同的。
先看左边的场景案例。要不要带伞,和是否下雨之间是没有关系的,即x0和 Y 不相关,带入到
中,即:
为 0,则:
那么预测出来是否要下雨,最终的收益是不一样的。所以这个例子很明显是一个预测性决策(prediction decision)。
右边的案例是如果你是一个酋长,要不要花钱请人跳大神求雨,实际上很大程度上取决于“跳大神”到底能不能求到雨,是否有因果效应。等式右侧的
,如果能预测出来是否下雨,那么:
为 0,即收益(是否下雨)和决策变量(跳不跳大神)其实是没有任何关系的。那么这就不是一个预测性决策,是一个纯粹的因果性决策。
通过上述两个实际的决策案例场景,可以将决策问题划分为两类:预测性决策和因果性决策,并且 Jon Kleinberg 给出的决策问题的框架,也很好地说明了对决策的划分。
8、决策的复杂性Jon Kleinberg 的论文中给出的一个观点是,对于预测性决策问题,就只管预测的好不好,因果机制不一定是必须的,预测模型在决策场景上很好用,对决策问题有很好的表达能力,可以把很多情况都融合在一起。但实际上决策的复杂性是超出之前对预测场景的理解的。大部分情况下,在解决预测问题时,只是尽力而为(best effort),尽量用更复杂的模型,更多的数据,希望提升最终的准确率,即尽力而为的模型(best effort model)。
但决策场景下受制约的限制因素远比预测要多。决策实际上是最后一公里,最后做出的某个决策确实会影响方方面面,影响很多利益相关主体,涉及到非常复杂的社会性、经济性的因素。例如,同样是贷款,对于不同性别、不同区域的人是否存在歧视,就是很典型的算法公平性问题。大数据杀熟,同样的商品对不同人给出不同的价格,也是一个问题。近几年来大家深有体会的信息茧房,就是不断按照用户兴趣或者相对比较窄的频谱上的兴趣,集中地对某个用户进行推荐,就会造成信息茧房。长此以往,就会出现一些不好的文化和社会现象。所以做决策时,要考虑更多的因素,才可以做出可信的决策。
9、一种可信智能决策的框架从决策可信角度对 Jon Kleinberg 给出的决策问题框架继续进行解读。虽然 Jon Kleinberg 本身提出这个决策问题框架是主张预测模型(prediction model)对于决策问题的有效性,但实际上该决策问题框架的内涵非常丰富,下面依次对该决策问题框架的各项进行解读。
首先是最右边的一项:
针对一些反事实的现象,就是某些x0没有出现,但假设它出现,到底 Y 会发生一些什么样的变化,是一个典型的反事实推理,是因果推断中核心的部分,当然在 Judea Pearl 给出的框架里,它是第三阶梯了。关于反事实推理有很多不同的理解和解释,这里所谈到的反事实推理姑且认为是合理的。
第二项是,实际相当于收益函数和模型结果之间的关系。Y 和 Π 的关系有比较简单的场景。比如进行商品推荐时,给用户推荐什么样的商品,用户会点击,优化后的最后的收益函数(Payoff function),实际上就是总体点击率。这种是两者关系比较简单的场景。但是实际业务中,不管是从平台还是从监管的角度,Y 和 Π 的关系大部分情况下是非常复杂的。比如后续会讲到的一个案例,在做平台的收益优化时,不能只看当下的点击率,要看长期收益;当看长期的收益时,Y 和 Π 的关系就会相对复杂,即复杂收益。
第三项是 Y,核心任务就是做预测(prediction),但如果预测(prediction)是用来做决策的,并且决策场景是社会属性的,比如影响到个人征信,影响到高考是不是被录取,影响到犯人是否会被释放等,那么所有的这些所谓的预测性的任务,都会要求预测必须是公平的,不能去用一些比较敏感(sensitive)的维度变量,比如性别、种族、身份等去做预测。
第四项是:
,指的是收益和决策之间的关系。常规来讲,应该是在收益最大化的前提下去做决策。但现实中,不管是国内还是国际上,都逐渐地加大了对平台性算法的监管力度,即在收益函数(Payoff function)的设计上增加监管因素,使得做决策时是有一定限制的。比如定价,不能平台随意定,而是在收益函数(Payoff function)里加入一些监管因素,这就是可监管决策。
这个决策问题框架包含了不同层面的场景,也可以认为它有以上四个不同的子方向。但是总体上以上四个子方向都和可信决策是非常相关的,也就是如果要保证角色可信,必须要考虑方方面面的因素。但总体上来讲,都可以用 Jon Kleinberg 给出的框架进行统一的表述。
接下来会依次介绍可信智能决策框架下的四个子方向:反事实推理、复杂收益、预测公平性和可监管决策。
二、可信智能决策中的反事实推理首先介绍关于可信智能决策框架下的反事实推理的一些思考和实践。
1、反事实推理反事实推理有三个场景。
第一是策略平均效果评估(Off-Policy Evaluation)。对于一个给定的策略(policy),不希望进行 AB 测试,因为 AB 测试成本太高,因此在离线数据上评测该策略上线后,会有什么样的效果,就相当于对整个族群(population)或所有 sample 进行评测,比如对所有用户群体的一个整体效果评估。
第二是策略个体效果评估(Counterfactual Prediction),是对策略在一个个体层面的效果进行预测,不是整体平台性策略,而是针对某个个体进行一定的干预后,会有什么样的效果。
第三是策略优化(Policy Optimization),即怎么样去为一个个体选择效果最好的干预。和个体效果预测不一样,个体效果预测是先知道怎么干预,然后预测干预后的效果;策略优化是事先不知道怎么干预,但寻求怎样干预之后的效果最好。
2、策略平均效果评估(1) 策略平均效果评估的问题框架概述策略平均效果评估,就是基于从策略 Π0(Behavior policy)产生的离线数据 D,评估策略 Π(Target policy)的效用值(Utility)。
Π0是已有的一个策略,比如现有推荐系统中一直在用的推荐策略。
现有策略下产生的离线数据 D 蕴含至少三个维度,如上图所示,xi就是背景信息(Context),比如在推荐系统中的用户和商品的属性;ai是行为, 比如推荐系统中某个商品有没有对用户曝光;ri是最终结果(reward),比如推荐系统中用户是否最终点击或者购买商品。
基于历史数据去评测一个新的策略 Π(Target policy)的效用值(Utility)。所以整体的框架就是在某个背景(context)下,某策略(policy)会有对应的行为或者干预变量(treatment),这个干预变量(treatment)触发后,就会产生对应结果。其中,效用值(Utility)即前述的收益(Payoff),在简化 前提下,效用值就是所有用户产生的结果的总和,或者平均效果。
(2)策略平均效果评估的现有方法传统的策略平均效果评估方法是基于结果预测的方法(Direct Method),在新的策略(policy)下给定xi,对于主体,建议曝光还是不曝光,即对应的行为,就要预测如果进行了曝光,最终用户会不会购买,或会不会点击,即最终获得的结果(reward)。但请注意,reward 实际上是一个预测函数(prediction function),是通过历史数据得到的。历史数据中的 x、a 和 r 的联合分布(joint distribution)实际是在Π0下产生的,现在换了一个 Π 所产生的数据分布,再用原来Π0下产生的联合分布预测模型(joint distribution prediction model)去做预测,很显然这是一个 OOD(Out-of-Distribution)问题,如果后面用 OOD 预测模型,那么数据分布偏移问题有可能得到缓解,如果用一个 ID(In-Distribution)预测模型,原则上肯定会出问题。这是传统的策略平均效果评估方法。
另外一种方法是基于因果推断的,引入了倾向指数(propensity score),其核心思想是,用原始策略下的三元组(xi,ai,ri) 在新的策略下,到底应该使用什么样的权重去加权最终产生的结果。权重应该是给定xi,在新策略下xi曝光(ai)的概率和在原有策略下xi进行曝光(ai)的概率之比,即在新的策略下,对一个三元组所对应的结果进行加权的一个系数。该种做法最难的地方是在原始策略下,给定xi后,对应ai的概率分布其实是不知道的,因为原始策略可能很复杂,也有可能是多个策略的叠加,并没有办法显性地刻画对应的分布,因此需要进行估算,那么就会存在估算是否准确的问题,并且该估算值在分母上,会导致整个方法的分布方差(variance)非常大。另外使用倾向指数(propensity score)的估计本身就存在问题,假设倾向指数(propensity score)的函数是线性的,还是非线性的,是什么形式,估计是否准确等等。
(3)策略平均效果评估的新方法:FCB estimator借鉴因果关系(Causality)的直接混淆变量平衡(directly confounder balancing),提出了对样本直接加权的方法,使得加权后,可以保证在各个对应行为群(action group)的分布 P(X|ai)整体上和 P(X) 是一致的。
历史数据是在给定 Π0的情况下产生的,要去掉因 Π0引起的分布偏差(bias),具体做法如上图所示,原始的数据分布 P(X),在 Π0的作用下,相当于把 P(X) 划分为若干个子分布 P(X|a=1)、P(X|a=2)、P(X|a=3)、...、P(X|a=K),即不同的行为下对应 P(X) 的一个子集,是无偏的分布,每个行为群下都有因 Π0而引起的偏差,要去掉偏差,可以通过对经 Π0而产生的历史数据进行重加权,使得加权以后的所有子分布,都逼近原始分布 P(X),即样本直接加权。
预测一个新的策略在历史数据的前提下最终的效果会是什么样的,需要分两步进行。第一步,就是如前所述,先通过样本直接加权的方式去掉原始策略 Π0所带来的偏差。第二步,要预测新策略 Π 的效果,也就是在新策略 Π 引起的偏差下去预估最终的效果,所以需要加上新策略 Π 引起的偏差
因此:
其中wi就相当于第一步去掉Π0带来的偏差:
相当于把新策略的偏差加上,这样就可以预测一个新的策略最终的效果。具体方法不赘述,可以参考论文 [2]。
新方法 FCB Estimator 的最后提升效果如上图所示,提升效果非常明显,不管是从偏差(bias),还是 RMSE 的维度上来讲,相对提升大概有 15%-20%。FCB Estimator 在变化 sample size 和 context 维度的不同场景下都显著优于 baseline。相关论文发表在 KDD 2019 [2]。
3、策略个体效果预测(1)策略个体效果预测的整体描述策略个体效果预测就是要充分考虑个体异质性,直接对个体实施差别化干预,即尊重个体意志,对不同的个体实施不同的干预。
(2)现有方法的局限策略个体效果预测常用的方法是直接对个体进行预测建模,也就是基于历史观测数据:
然后训练得到反事实预测模型:
,即给定了 X 和 T,能比较合理和准确地预测实际效果 y 是怎样的。
如果直接在历史数据分布下,做回归分析或者类似的模型,是有问题的。因为历史观测数据中的ti和xi并不独立,直接学习(X,T)与 Y 直接的映射函数必然受到 X 与 T 之间的关系影响,也就相当于给定了一个xi,在历史数据里面必然对应一个ti,比如ti就应该等于 0,当干预 T 时,比如硬要把ti改成 1,实际上就已经不服从原来的历史分布了,意味着在历史数据分布下构造出来的 ID(In-Distribution)预测模型就无效了,触发了 OOD(Out-of-Distribution)。
因此在构造所谓的预测模型时,就需要消除 X 和 T 之间的关联,分别估计 X 对 Y 的影响和 T 对 Y 的影响,这种情况,如果干预或改变了 T,和 X 就没关系,到底对 Y 会有什么影响和变化,完全由 T->Y 这条链路决定,就不存在 OOD(Out-of-Distribution)问题了。
传统做法是采用样本重加权(Sample Re-weighting)的方法来去除 X 和 T 之间的关联,有两种方法:(1)逆倾向性得分加权,(2)变量平衡。但这些方法都存在局限性:只适用于简单类型的干预变量(treatment)场景,二值或离散值。在真实的应用场景下,比如推荐系统,干预变量(treatment)维度很高,给用户推荐商品,推荐的是一个束(bundle),即从很多商品中进行推荐。当干预变量(treatment)维度很高时,使用传统的方法,把初始干预变量(raw treatment)和混淆变量(confounder) X 直接去关联,复杂度非常高,甚至样本空间不足够来去支撑高维度的干预变量(treatment)。
(3)策略个体效果预测新方法:VSR如果假设高维度的干预变量(treatment)存在低维隐变量结构,也就是给出高维度的干预变量(treatment)原则上不是随机出来的,比如推荐系统中,给定推荐策略推荐出来的商品束(bundle),里面的商品和商品之间都有各种各样的关系,存在低维隐变量结构,也就是推荐商品列表由若干因素所决定。
如果高维度的干预变量(treatment)下有一个隐变量(latent variable) z,实际上可以把问题转化为 x 与 z 之间的去关联,即和隐性因素(latent factor)之间去相关。通过这种方式,可以在有限的样本空间下实现束处理(bundle treatment)。
因此提出了新方法VSR。VSR 方法中,首先是高维度干预变量(treatment)的隐变量 z(latent variable z)的学习,即使用变分自编码器(VAE)进行学习;然后是权重函数 w(x,z)的学习,通过样本重加权的方式对 x 和 z 之间进行去相关(decorrelation);最后在重加权的相关分布下直接使用回归分析模型(regression model),就能得到一个比较理想的策略个体效果预测模型。
上图是新方法 VSR 的实验验证,是在一些场景下,通过 Recsim 模拟器生成部分数据,以及部分人工模拟的数据,进行验证。可以看到,在不同的 p 的取值下,VSR 的性能都相对比较稳定,相比其他方法有了很大的提升。相关论文发表在 NeurIPS 2020 [3]。
4、策略优化策略优化和前面两种的预测评估是有本质性区别的。预测评估都是提前给定一个策略(policy)或者个性化的干预(individual treatment),去预估最终的结果。策略优化,也叫策略学习,目标只有一个结果变大。比如收益要增长,应该施加什么样的干预。
如果现在有一个反事实的个体级别的预测模型 f,即策略个体效果预测模型 f,也就是给定xi和ti,就可以估计出来对应的结果,那么就可以对 T 进行遍历,t 取什么值时,f 的值最大。就相当于构造一个比较好的预测空间,在预测空间中“打哪指哪”。
但把策略优化问题退化为策略个体效果预测模型的构建,是有问题的。策略个体效果预测的目标,如前所述,实际上是相当于给定了一个干预,希望反事实预测出来的情况与真实情况的误差尽量比较小,并且对于所有给定的干预,都希望比较准确。策略优化的目标,是找到的pf点离真实情况上帝视角下的最优决策的结果之间的距离越小越好,并不是一个全空间的策略个体效果预测的问题,而是能不能找到离最优点比较近的区域,以及能不能准确地预测最优点。策略优化和策略个体效果预测在目标上是不一样的,存在很明显的差别。
如上图中的案例图所示,横轴是不同的干预(treatment),绿线是上帝视角下的真实函数,反映某个干预下真实的结果;红线和蓝线反映的两个预测模型下的结果。从策略个体效果预测的评价角度来看,很显然蓝线是优于红线的,蓝线离绿线的总体偏差,远小于红线离绿线的总体偏差。但从最优决策的角度来看,红线的最优结果和上帝视角的绿线的最优结果更接近,相应的干预也更接近,而蓝线的明显要更远。因此一个更好地策略个体效果预测模型,不一定能够得到一个最优的决策;并且在真实的场景下,数据量通常是不充分的,在全空间下去做优化,还是从结果的角度仅在一个子区域里做优化,优化的效果和力度是不一样的。
因此提出了策略优化的新方法OOSR,目的是加强结果比较好的干预区域的预测力度和优化力度,而不是在全空间去做优化。因此在做优化时,在做面向结果的加权(outcome-oriented weighting)时,当前的干预离给定的已经训练下的最优解的距离越近,则优化力度更大。
上图是 OOSR 的实验验证,可以看出,从各个角度上提升都非常明显,有几倍的提升,并且变化了 selection bias 的强度后,效果也依旧非常好。相关论文发表在 ICML 2022 [4]。
5、反事实推理总结不管是做策略评估,还是策略优化、策略个体效果预测,实际上都是在利用因果关系(Causality),来对决策了解更多,让决策表现更好,或者让决策变得更加个性化。当然针对不同的场景,还有很多开放性的问题。
三、可信智能决策中的复杂收益在研究复杂收益,即:
时,考虑这样一个场景,比如推荐系统,希望推荐的商品或信息等用户都会购买或点击,同时也会实施一些刺激,比如降价,或进行红包回馈等等,有很多类似的商业运营策略,虽然短期内销量提高了,提升效果很显著,但从长期看并没有非常显著的变化,也就是商业上的很多刺激,并不是把不想买的变成想买的,而是本来一个月总需求量是 4 件,这次降价就一次性把 4 件都买完了。因此在做模型优化时,不能只考虑短期收益,要兼顾短期收益和长期收益,共同去优化策略。
要想兼顾短期和长期收益,共同优化策略,有两个非常重要的方面。第一,要对消费者的选择模型有比较深入的理解。当给定一个用户时,是没有办法得到真实的消费者选择模型的,需要通过研究和挖掘的方式不断地探索,一个是探索消费者选择模型,另一个就是探索在消费者选择模型下怎么样最大化长期收益和短期收益,以及两者的平衡。在这个方面的工作如上两张图所示,就不展开讲了。
从最后的效果上来看,如上图所示,在很多真实场景都有显著的收益提升。相关论文发表在 NeurIPS 2022 [5]。
四、可信智能决策中的预测公平性如果预测要参与到决策中,特别是面向社会性的决策,一定要兼顾预测的公平性。
关于公平性,传统的做法有 DP 和 EO,要求男女的接受概率是相等的,或者对于男女的预测能力是一样的,都是比较经典的指标。但 DP 和 EO 并不能从本质上解决公平性的问题。
比如在大学录取的案例中,理论上各个系男生和女生的录取率应该都是一样的,但实际总体上会发现女生的录取率偏低,实际上这是一种辛普森悖论。大学录取本质上是一个公平的案例,但是 DP 的指标检测出来,会认为不公平,实际上 DP 并不是一个非常完美的公平性指标。
EO 模型本质上确实是性别参与了决策,但在一个不公平的场景下,如果对于男性和女性都有一个完美预测因子,就认为是公平的。这就说明 EO 的鉴别率是不够的。
2020 年提出了有条件的公平性(conditional fairness)这一概念。有条件的公平性并不是要绝对地去保证最终结果和敏感因素(sensitive attributes)独立,而是给定某些公平性变量(fair variable),最终结果和敏感因素独立,就认为是公平的。比如专业选择,是公平的,是一个 fair variable,因为是学生主观能动性可以决定的,不存在公平性问题。
这样做带来了非常多的好处。从预测的角度来讲,公平性和预测之间实际上就是一种权衡,也就是公平性要求越强,可用的预测变量(predictive variable)就会越少。比如在 EO 的框架下,只要一个变量是在从性别到结果决策之间的链路上,是都不能用的,用了就会导致很多变量实际上预测效率非常高,但是不能做预测。但在有条件公平性下,给定了一个公平性变量,不管是不是在链路上,都可以保证预测效率可用。
在此框架下,设计和提出了 DCFR 算法模型,如下三图所示。
下图 DCFR 算法的实验验证。从整体上看,DCFR 算法能够取得更好的预测和公平性的折中,从帕雷托最优的角度上来讲,左上的曲线实际上是更优的。相关论文发表在 KDD 2020 [6]。
五、可信智能决策中的可监管决策最后是可信智能决策中的可监管决策。
现在的平台有很多个性化定价机制。本质上来讲,个性化定价是可以最大化社会的总效率和总剩余的。但是在某一些极端情况下,商家会把所有的剩余都拿走,而不给用户留一分的剩余,这是我们不希望看到的。
从总体上看,就是要设计出一种策略,可以使得在社会总剩余不受太大影响的情况,商家让渡一部分可视为财富的剩余给消费者。
最终设计出了一种调控手段来解决这个问题,如下图所示。也就是比如同一个商品,最高价和最低价之间不能超过一个 ,或者不能超过一定的比例。理论上可以证明这样设计的规则可以实现如前所述的优化目标。
在此种场景下,本质上是通过对收益函数增加一些约束,使得在做决策的时候必须要有另一个层面的考虑。因此在这个体系下,可以把监管相关的一些策略或者工具加入进来。
六、可信智能决策的总结以上就是在可信智能决策的这样一个框架下,在反事实推理、复杂收益、预测公平性和可监管决策各个单点上做的一些尝试。总体而言,决策的想象空间远比预测更大。在决策的领域里,还有很多和我们生活、商业息息相关的开放性问题值得探究。相关论文发表在WWW 2022 [7]。
PS:本文涉及的很多技术细节,可以参看崔鹏老师团队近期在可信智能决策方向上所发表的论文。
七、参考文献[1] Jon Kleinberg, Jens Ludwig, Sendhil Mullainathan, Ziad Obermeyer. Prediction Policy Problems. AER, 2015。
[2] Hao Zou, Kun Kuang, Boqi Chen, Peng Cui, Peixuan Chen. Focused Context Balancing for Robust Offline Policy Evaluation. KDD, 2019。
[3] Hao Zou, Peng Cui, Bo Li, Zheyan Shen, Jianxin Ma, Hongxia Yang, Yue He. Counterfactual Prediction for Bundle Treatments. NeurIPS, 2020。
[4] Hao Zou, Bo Li, Jiangang Han, Shuiping Chen, Xuetao Ding, Peng Cui. Counterfactual Prediction for Outcome-oriented Treatments. ICML, 2022。
[5] Renzhe Xu, Xingxuan Zhang, Bo Li, Yafeng Zhang, Xiaolong Chen, Peng Cui. Product Ranking for Revenue Maximization with Multiple Purchases. NeurIPS, 2022。
[6] Renzhe Xu, Peng Cui, Kun Kuang, Bo Li, Linjun Zhou, Zheyan Shen and Wei Cui. Algorithmic Decision Making with Conditional Fairness. KDD, 2020。
[7] Renzhe Xu, Xingxuan Zhang, Peng Cui, Bo Li, Zheyan Shen, Jiazheng Xu. Regulatory Instruments for Fair Personalized Pricing. WWW, 2022。
标签:
一、一种可信智能决策框架首先和大家分享一种可信智能决策框架。1、比预测更重要的决策在实际的很多场景中
2023-05-04智通财经获悉,香港恒生指数开盘跌0 02%。早盘恒指迅速冲高,此后全天呈窄幅震荡走势。截至收盘,恒生指数
2023-05-04美股异动|苹果盘前跌1 24%将于盘后发布财报:苹果(AAPL US)盘前跌1 24%,报165 37美元。苹果将于5月4日美股
2023-05-04马来西亚林肯大学硕士学费及申请条件由MBA考试栏目提供,查找更多考试报名资讯、准考证打印、成绩查询或马来
2023-05-04“五一”假期日均125 3万人次出入境,主流媒体,山西门户。山西新闻网是经国务院新闻办审核批准,由山西...
2023-05-04他是一名打私警察,奋战在广东西江水域,打掉了一批又一批的走私团伙;在执行任务中负伤并不幸截肢后,他凭
2023-05-041、为有效保护和传承非物质文化遗产,建立科学的非物质文化遗产保护制度,规范非物质文化遗产的申报评定和
2023-05-04朗玛信息在互动平台表示,公司基于积累的医学及健康数据资源和相关技术基础,已开始探索医疗健康垂直领域的
2023-05-04和而泰近期接受投资者调研时表示,基于公司研发能力储备和现有客户资源渠道,公司在电池管理系统(BMS)、
2023-05-04本文内容是由小编为大家搜集关于天天红彩票app最新,以及天天红彩票平台网址的资料,整理后发布的内容,让我
2023-05-04【美驻华大使表达“希望与中方对话”】美驻华大使表达“希望与中方对话”,网友:听其言,更要观其行!
2023-05-04据报道,近日,英国国防部投入6 56亿英镑(约合8 16亿美元),加速推进“全球作战空中计划”中“暴风...
2023-05-04日前,公募基金一季报已全部披露完毕,公募基金持仓变化以及显现出的市场“新动向”也随之浮出水面。数...
2023-05-04及时应对,“一日一图”调运力。
2023-05-04日前,为期一个月的国家大剧院第八届“中国交响乐之春”正式落幕。在“新时代号角”的主题下,来自全国...
2023-05-04缓缓行走在嘉定的大街小巷 在某个不经意的转角 就能和烂漫春光撞个满怀 这一站浪漫 一簇簇粉色的蔷薇
2023-05-04一、游客手机掉西湖被要1500元打捞费5月2日,杭州有游客发布视频称,手机掉到西湖里,被一位衣服上写着...
2023-05-04读特客户端·深圳新闻网2023年5月4日讯(晶报记者柯季陈馥玉通讯员陈友安姜帆张佳露)为加快推进保障性...
2023-05-044月29日,示范区管委会副主任、常务副市长张宏义调研假期安全生产工作。张宏义一行先后到沁园丹尼斯、市二
2023-05-04两大综合家电巨头,美的集团和格力电器已先后完成了2022年年报和2023年一季报披露。
2023-05-045月2日,在东方市竹金沟公园项目建设现场,工人们紧扣工程节点抓紧施工,力争项目今年6月底竣工交付。
2023-05-041、首先要先把脏兮兮的杯子用自来水或者热水冲洗一下,把易清洗掉的污渍稍微清洗一下,这样就可以有针对性
2023-05-04雪魄梅魂粤语版,雪魄这个很多人还不知道,现在让我们一起来看看吧!1、正章帝是玉润。2、清河死时挺年轻的
2023-05-041、我们知道定制版的手机一般都是用专门的电话卡,但是给手机换电话卡是很麻烦的。电信iPhone6如何使用移动
2023-05-041、2021年中南林业科技大学招生计划(湖南)2、序号专业层次学费科类批次备注计划3、(元 年)4、1土地资源管
2023-05-041、花牙子是用于倒挂楣子两端角的一种装饰构件,有用棂条拼结而成,也有用木板雕刻而成,形似如雀替,不过
2023-05-04五一假期已近尾声,据统计,在今年五一全国最热十大景点中,杭州西湖游客量高居榜首。这已不是杭州首次获此
2023-05-031、是因为你在磁盘管理里重新分过区。2、里面默认名称‘新加卷’你需要重新命名一下。3、自然就不会再有新
2023-05-031、顺着头套下去最好是在最硬的时候套能紧贴阴颈然后就是头上留有一点气泡的空间是有用滴就不多介绍了友情
2023-05-03智通财经获悉,据香港金管局5月3日消息,香港金管局总裁余伟文在《汇思》文章中表示,随着美国加息,全球流
2023-05-03(祁增蓓马晓光)记者3日从中国铁路青藏集团有限公司(以下简称“青藏集团公司”)获悉,青藏铁路西宁至格尔...
2023-05-031、房水作用:对维持角膜和晶体的正常生理功能,保持它们的透明性,起着十分重要的作用。2、房水内有了有害
2023-05-03今天来聊聊关于女娲造人课文原文故事,女娲造人课文原文的文章,现在就为大家来简单介绍下女娲造人课文原文
2023-05-03敦煌市鸣沙山月牙泉景区游人如织。张晓亮摄“骆驼红绿灯”让景区交通更有序。张晓亮摄“骆驼红绿灯”让...
2023-05-03新湖南,主流新媒体,移动新门户。-分享自@新湖南
2023-05-03点击下方卡片,关注“CVer”公众号AI CV重磅干货,第一时间送达今天Amusi看到这么一则新闻: 今年高校毕业
2023-05-031、秋思张籍洛阳城里见秋风,欲作家书意万重。2、复恐匆匆说不尽,行人临发又开封描写秋天的诗:《山居秋暝
2023-05-03详情请见:https: content-static cctvnews cctv com snow-book index html?toc_style_id=
2023-05-031、延吉街道少数民族志愿者服务队是由杨浦区少数民族志愿服务队领导下的志愿团体。2、成立于2015年10月5日。
2023-05-03如果您喜欢这篇文章,请您分享到微信朋友圈!如果您想要获得更多精彩内容,请您点击上方蓝字“管理系统...
2023-05-03潮新闻记者俞刘东五一假期,杭州西湖游人如织。5月1日,翠光亭附近的一家小店被游客投诉了。而也是这一个投
2023-05-032023年4月29日11时20分,沈阳公安交警高速一大队民警吕晓东在沈海高速公路1公里处疏导交通时,接到群众求助
2023-05-03数十万法国人走上街头示威抗议活动正在扰乱法国经济
2023-05-031、帮会规矩。2、如果做了无可挽回的错事,请求对方恕罪,就得用利刃在自己的身体上对穿三个窟窿,此之...
2023-05-031、孙玉莲。2、济南市保健办公室副主任。文章到此就分享结束,希望对大家有所帮助。
2023-05-03前篇此文主要介绍如何把window的鼠标指针更改成Mac的鼠标指针点https: img02 mockplus cn image 2020-09-1
2023-05-03对于word里如何调整表格行高这个问题感兴趣的朋友应该很多,这个也是目前大家比较关注的问题,那么下面小好
2023-05-031、简介:众化(杭州)科技有限公司是一家专业从事精细化学品B2B交易平台建设的专业技术企业。2、法定代表
2023-05-031、前言小时候最爱吃妈妈煮的白菜粉丝。2、喜欢那爽滑筋道的口感,配上白菜芯、瘦肉丝、蛋皮、香菇加少许高
2023-05-03今天来聊聊关于达则兼济天下穷则独善其身是什么意思兼读音,达则兼济天下穷则独善其身是什么意思的文章,现
2023-05-021、金山公司推出的一款办公软件。2、可与微软公司的OFFICE相媲美。3、可惜现在使用率越来越低了。4、金山杀
2023-05-02抖音短视频现在属于比较火的形式,但凡大家拿着手机就会忍不住拍短视频,现在短视频发展的越来越好,很多
2023-05-02黄金虚晃一枪,行情还是跌势,建议继续顺势做空,设4美金损即可!!!热烈庆祝五一劳动节,也感谢粉丝们的
2023-05-02据澳大利亚广播公司2日报道,澳大利亚央行(澳联储)当天下午宣布,将现金利率再提高0 25个百分点至3 85%。报
2023-05-021、电焊证的真假不能在网站上检测只能持物件到安监局当面检测方知真伪。本文到此分享完毕,希望对大家有所
2023-05-021 问:什么是甲状腺结节?答:甲状腺位于颈部中间。甲状腺结节是生长在甲状腺中的圆形或椭圆形的东西。甲状
2023-05-02美财长说美或最早6月1日出现债务违约---新华社华盛顿5月1日电美国财政部长耶伦5月1日警告说,如果国会不尽
2023-05-02【ITBEAR科技资讯】5月2日消息,据美国联邦通信委员会(FCC)网站公示,谷歌PixelFold折叠屏手机已通过FCC认
2023-05-02据香雪制药(300147)消息,为了满足市场需求,五一假期不停歇,香雪制药(300147)生产线开足马力生产抗病毒口
2023-05-02五月的第一天,国际油价下挫。截至5月1日收盘,纽约商品交易所6月交货的轻质原油(下称“WTI原油”)期...
2023-05-02在刚结束的上海车展,新能源汽车带了很多新鲜的体验,让我们看到汽车未来发展的方向,现在再回味几款有创新
2023-05-02辛顿在接受采访时称,他离开谷歌的原因,是因为他越来越担心人工智能可能带来的问题,特别是当它被用于武器
2023-05-02河北:全力保障电动汽车“五一”高速出行---“五一”假期来了,今年出行人数呈现大幅增长,河北省内跨城...
2023-05-02金茂悦是高档楼盘吗:大兴金茂悦是高档楼盘,占地面积约48589平方米,建筑面积约106896平方米,小区容积率
2023-05-02今日永州讯(江华特约记者黄春华)“五一”假期,在湘江乡的千年瑶寨桐冲口村,游人如织、人气高涨,仅假...
2023-05-02格隆汇5月2日丨比亚迪股份公布2023年4月产销快报,当月新能源汽车销量达210,295辆,同比增长98 31%。其中乘
2023-05-02奥地利两列货运列车相撞致少量危险品泄漏
2023-05-02智通财经APP获悉周一优步UBERUS股价走高截至发稿该股涨超47报32545美元优步将于美东时间5月2日盘前发布财报
2023-05-02今天来聊聊关于什么是供应链融资支付,什么是供应链融资的文章,现在就为大家来简单介绍下什么是供应链融资
2023-05-02为确保“五一”期间安全生产形势稳定,有效预防和减少生产事故的发生,保障辖区安全生产状况持续稳定,...
2023-05-02能成为作家的人,或许骨子里都是多情的,因为只有丰富的情感经历,才能将这切身感受融入一个个故事,生成笔
2023-05-01近日,江苏省文化和旅游厅公布了江苏省乡村旅游业态创新示范产品和示范项目,大丰恒北梨乡非遗文创集市成功
2023-05-01客流量连续3天创历史新高武汉地铁夜间3小时内加开48趟临客送乘客返程---4月30日,武汉地铁线网客流再创新高
2023-05-011、字有什么组词:暑假、避暑、酷暑、溽暑、小暑、伏暑、炎暑、防暑、大暑、暑热、寒暑、暑天、中暑、盛暑
2023-05-011、据联合国人口基金预测,2011年10月30日世界人口即将达到70亿。2、2011年10月31日凌晨前2分钟,作为全球
2023-05-011、佩奇PeppaPig乔治George猪妈妈MummyPig猪爸爸Daddypig小猪佩奇是一个可
2023-05-011、新湖财富投资管理有限公司是2011-09-15在北京市石景山区注册成立的其他有限责任公司,注册地址位于北京
2023-05-011、首先我们二技能向前丢去,然后按住大招,通过方向键调整位置向二技能笔势方向冲去。2、触碰到二技能会刷
2023-05-01据报道,苹果的AR头显正处于 "最后冲刺 "和 "供应链交付阶段 ",将如期在6月份的WWDC上亮相。报道称,
2023-05-01随着美联储本周可能发出几十年来最激进加息周期即将结束的信号,投资者正在大举押注美元下跌。美国商品期货
2023-05-011、带着仓库到大明(中后期就不怎么使用仓库了)帝国崛起(古代现代双穿,后期也是依靠自己逆天)我的明朝
2023-05-011、打开PS,点击文件——>导入;如果弹出dynamiclink不可用,则表示功能不可用,需要进行下一步修复与安装。2、
2023-05-01暗黑破坏神4是一款有着丰富内容的游戏,游戏中可以探索的地方有很多,所以很多玩家在探索游戏的过程中遇到
2023-05-012023年上海市普通高中学业水平考试的5月等级性考试为5月6日和5月7日,科目为化学、思想政治、物理、历史、
2023-05-01天蓝的底色配以雪白的玉飞凤标识,在崇安大厦楼下,新增加的共享车位让人一目了然。近日,为有效治理中心城
2023-05-01“快看!这个花开得真好看!”“来,我站在这个花下面,帮我拍张照。”“帮我在这里拍张照片。”这两天...
2023-05-01尽管其他球队都已经开始了半决赛,但是勇士和国王的这场战役还在激烈进行中。随后克莱连续得分,勇士终于反
2023-05-01金融界基金05月01日讯富国中证银行ETF基金04月28日上涨1 16%,现价1 129元,成交2122 85万元。当前本基金场
2023-05-01游客在江苏省苏州市吴江区的同里古镇游玩。 张锋摄(人民视觉) 市民在四川省宜宾市翠屏区李庄古镇拍
2023-05-011、孙昕,男,汉族。2、1975年4月出生,群众,硕士研究生学历。3、现任北京中科金财科技股份有限公司事业部
2023-05-01网红痞幼自从与陆文臣分手后,就一心只干事业,最近接连更新视频,心情也好了起来。4月30日,有狗仔爆料,
2023-05-011、一个数组只有3个元素,那么当你引用第4个元素时就超出索引范围了。2、同理,本来只有二维,三维索引
2023-05-01在本赛季的意甲联赛当中,那不勒斯的表现可以说是独一档的存在,虽然在后半程统治力出现了一定的下滑,但是
2023-04-30公司安全存储业务方向研制的固态硬盘相关产品技术也已在航空领域得以应用
2023-04-3000:28潮新闻记者叶怡霖“五一”小长假第二天,2023年度第一窝西湖小鸳鸯出窝啦,就像是专程迎接来自四面...
2023-04-301、1 不仅;何止。2、2 无异于,如同。3、3 只有,不过。4、4 不如,比不上。5、祝你好运。本文到此分享完毕
2023-04-30五一,一个繁花似锦的节日。在这个以 "劳动 "命名的节日里,各行各业的劳动者依然在用自己智慧和双手...
2023-04-3001:38日常有人非常注意饮食,有些老年人甚至不敢沾一点油腻,但血脂还是居高不下,这是为什么呢?扬子晚报
2023-04-301、作者:贺新辉主编定价:198元书号:9787802033757开本:16出版社:中国妇女出版社。本文到此分享完
2023-04-301、链接:提取码:37te《宦海纵横》作者:陈宁(又名万马犇腾)类别:官场历史小说。本文到此分享完毕,希望
2023-04-30Copyright © 2015-2022 太平洋水产网版权所有 备案号:豫ICP备2022016495号-17 联系邮箱:93 96 74 66 9@qq.com