2020年2月5日0时-24时,湖北省新增新型冠状病毒感染的肺炎病例2987例,其中:武汉市1766例、孝感市424例、黄冈市162例、随州市128例、荆州市88例、荆门市86例、宜昌市67例、黄石市57例、襄阳市52例、鄂州市41例、仙桃市40例、十堰市35例、咸宁市15例、天门市10例、潜江市10例、恩施州6例。全省新增死亡70例,其中:武汉市52例、宜昌市2例、荆州市1例、荆门市1例、孝感市7例、黄冈市4例、咸宁市1例、随州市1例、仙桃市1例。新增出院113例,其中:武汉市63例、黄石市7例、十堰市5例、襄阳市3例、荆州市9例、荆门市5例、鄂州市2例、孝感市3例、黄冈市10例、咸宁市1例、恩施州4例、天门市1例。

截至2020年2月5日24时,湖北省累计报告新型冠状病毒感染的肺炎病例19665例,其中:武汉市10117例、孝感市1886例、黄冈市1807例、随州市834例、荆州市801例、襄阳市787例、黄石市566例、宜昌市563例、荆门市508例、鄂州市423例、咸宁市399例、十堰市353例、仙桃市265例、恩施州144例、天门市138例、潜江市64例、神农架林区10例。已治愈出院633例。死亡549例,其中:武汉市414例、黄石市2例、襄阳市2例、宜昌市6例、荆州市10例、荆门市17例、鄂州市18例、孝感市25例、黄冈市29例、咸宁市1例、随州市9例、仙桃市5例、天门市10例、潜江市1例。目前仍在院治疗14314例,其中:重症2328例、危重症756例,均在定点医疗机构接受隔离治疗。累计追踪密切接触者90997人,尚在接受医学观察64127人。

在图 3 中,我们绘制出了三种度量标准以及它们随着 λ 增大而发生的变化。第一个竖条对应于联合误差(即 ),它是在成人数据集上的整体误差。第二个红色的竖条代表群体间误差率之和,这正是在我们的定理 1 和定理 2 中都出现了的下界。第三个灰色竖条对应于衡量 满足统计均等的程度的差异得分(gap score)。具体而言,灰色的竖条代表的是:。简而言之,这个差异得分越小,预测器越满足统计均等。

定理1. 对于任意满足统计均等的预测器 ,

三、公平表征学习的权衡

现在,我们的目标就非常直接了:根据著名的数据处理不等式(DPI),如果我们试图训练一种特征转换方式 Z,使其能够骗过非常强的对抗者(判别器),那么任何使用这种表征的预测器也会是公平的(即满足统计均等)。

被抢的员工是Facebook工资管理部门的一员,按规定他本不应该把硬盘带出办公室。“我们已经采取了适当的违纪措施,”这位女发言人说。“我们不会对外讨论具体的人事细节。”

其次,要意识到,越小,则下界越大。因此,当  较大时,针对不同群体的表征对齐地越好,则不同群体上的误差之和也会越大。

需要指出的是,选择总变分距离作为分布对齐质量的度量没有什么特别之处。在论文「Inherent Tradeoffs in Learning Fair Representations」的 3.2 节,我们使用 f 散度给出了一种一般性分析,读者可以也可以使用其它的散度测度(例如,HS 距离、Hellinger 距离等)对其进行实例化,从而得到相同的下界。

上述下界意味着在群体间过度对齐的特征分布将会不可避免地导致更大的联合误差。为了证明这种可能性,我们在真实世界数据集(UCI 成人数据集)上进行了实验。这里的任务是收入预测(年薪是否高于 50,000),群体属性则对应于「男性/女性」。对于该数据集而言,,即在 1994 年男性年收入大于 50,000 的比率比女性高 19.7%。

另一方面,我们的实验结果说明了,将统计均等定义为公平性是有缺陷的。当我们定义公平性的概念时,还应该将目标的信息考虑进来。例如,均等几率和准确率均等是两种另外的定义群体公平性的方式,它们都是可以与完美的预测器兼容的。

据内部邮件显示,这起事件发生在11月17日,11月20日公司意识到硬盘丢失。11月29日,一项“司法调查”证实,这些硬盘内包含了员工工资信息。Facebook从12月13日开始向受影响的员工发出警报。

雷锋网原创文章,。详情见转载须知。

如果我们分别使用 A=0 表示申请人来自圆形群组,A=1 表示申请人来自方形群组,这种统计均等的定义要求如下:

自动贷款核准系统 C 的目标是预测:如果某位贷款申请人被批准放贷,在给定对于申请人的描述信息 X 时,他是否会按期还款,C(x)=1 代表会按期还款,C(x)=0 代表不会按期还款。

定理 2. 令  为一种特征变换。对于任意(随机的)假设 ,令  为一种预测器,则下面的不等式成立:

根据定理 1,对于任意公平分类器,它在两种群体上的误差率之和必然至少为 10%,所以它们都是最优的。定理 1 是非常直观的,它本质上说明了:

事实证明,这种近似有助于减小定理 1 中的下界。具体而言,令  为给定 A=a 时的条件分布 D。对于特征转换函数   来说,令  为 Da 在使用 g 转换后的前推分布(Pushforward Distribution)。此外,如果我们使用 代表两个概率分布之间的总变分距离,那么下面的定理成立:

正如预期的那样,随着 λ 的增大,差异得分迅速减小。当 λ=50.0 时,相应的  已经非常接近于满足统计均等。另一方面,我们也可以观察到,随着 λ 的增大,红色的竖条也迅速增大,最终群体间误差之和达到了大于 0.36 的水平。

随着机器学习应用程序在诸如刑事判决,医学检测,在线广告等高风险领域中的盛行,确保自动化的决策支持系统不会传播历史数据中可能存在的固有偏见或歧视是至关重要的。从广义上讲, 有关算法公平性的文献中包含两个核心的「公平性」概念:

举例而言,我们不妨考虑一下下面的贷款核准问题。假如这个虚拟设定的环境中有通过圆形和方形代表的两组贷款申请人。

其中 ϵ > 0 是一个预设的常数,我们使用 I(⋅;⋅) 表示两个随机变量之间的互信息。如图 2 所示,得益于近期深度神经网络表征学习方面的研究进展,我们可以通过对抗性训练算法实现上面的优化问题。这种特殊的方法至少可以追溯到 Edwards 等人的工作:「Censoring Representations with an Adversary」(https://arxiv.org/abs/1511.05897)。

图 2:学习公平表征的一种算法实现。中间的表征 Z 试图骗过对抗者 A,A 的目标是识别出输入变量的群体属性是「圆形:A=0」还是「方形:A=1」。整体的网络架构可以使用梯度下降法训练。

一位发言人证实,这些硬盘里涵盖了2018年在Facebook工作的约2.9万名美国员工的个人数据。近年来,Facebook面临了数起泄露用户个人数据的事件。不过,这位发言人说,被盗的硬盘里不包括Facebook的用户数据。

从积极的一面来看,在一定的条件下,我们也证明了学习公平的表征有助于实现另一种公平的概念,即准确率均等,它要求组间的误差率相等。

以责任担当之勇“赴考”。疫情防控这场大考,事关千万人民群众生命安全和身体健康,是检验守初心、担使命成效的试金石,是兑现“人民对美好生活的向往就是我们的奋斗目标”承诺的新战场。各级领导干部要传承好共产党人的“赶考”状态,不害怕病毒传播的风险,不畏惧遏制病毒扩散的困难,主动奔赴疫情防控的“考场”,靠前指挥、冲锋陷阵,认真负责、勇于担当,始终与人民群众心连心、肩并肩,心无旁骛做好疫情防控的每一项工作、每一个环节,切实做到守土有责、守土担责、守土尽责。

“时代是出卷人,我们是答卷人,人民是阅卷人。”各级领导干部要当好“考生”,全力以赴应考,打赢疫情防控的人民战争、总体战、阻击战,努力实现全年经济社会发展目标任务,交出一份人民满意的合格答卷。(艾佩韦)

以科学防控之智“抓分”。把人民群众生命安全和身体健康放在第一位,是防控疫情必须坚持的总原则,也是此次疫情防控大考的重点“得分项”。各级领导干部要始终把人民群众生命安全和身体健康放在第一位,按照科学防治、精准施策原则落实防控举措,争取抓高分、得高分。要以增加定点医院、治疗床位和隔离点等全面增强收治能力,以加强社区防控等降低感染率,以集中优势医疗资源和技术力量救治患者等提高治愈率,以加强对返程人员的健康监测等筑牢防控网,以县域为单元,确定不同县域风险等级,分区分级制定差异化防控策略。同时,对疫情防控中的偏颇和极端做法要及时纠正,不搞简单化一关了之、一停了之,尽可能减少疫情防控对群众生产生活的影响。

当不同群体的基准比率有差异时,所有满足统计均等的公平分类器都必然会至少在其中一个群体上产生较大的误差。

这名女发言人在与彭博社分享的一份声明中表示:“我们正在与执法部门合作,调查最近发生的这起汽车盗窃事件,被盗窃员工的包里装有公司设备,里面存储着员工工资信息。我们没有看到任何滥用数据的证据,我们认为这是一起砸抢犯罪,而不是一起以窃取员工信息为目的犯罪。”

从宏观上说,这类工作试图找到一种信息丰富的表征 Z(详见 Richard Zemel 教授的相关工作:http://www.cs.toronto.edu/~zemel/inquiry/home.php)、一种输入变量 X 的特征转换方式,从而使 Z(近似地)与 A 无关,同时 Z 仍然包含关于目标 Y 的丰富信息。这种目标可以被形式化定义为下面的优化问题:

具体而言,根据鸽巢原理,我们很容易发现任意的公平分类器必然会至少在其中一个群体上产生至少  的误差率。此外,该结论是预算法无关的,它在群体层面上成立(即使用大的训练集并不能有所帮助)。接下来,让我们深入分析   这个量:

以统筹兼顾之谋“审题”。今年是全面建成小康社会和“十三五”规划收官之年。在这样一个关键年份,疫情防控就不只是一场事关人民群众生命安全和身体健康的阻击战,也是一场事关经济社会发展等方方面面的总体战。身处这场疫情防控的大考,各级领导干部要注意“审题”,吃透“总体战”的内涵,统筹兼顾,把握好疫情防控大考的全局,切实做到疫情防控和经济社会发展“两手抓”。湖北武汉等疫情严重地区要集中精力抓好疫情防控工作,其他地区要在做好疫情防控工作的同时,全面抓好改革发展稳定各项工作,在促进“六稳”上多发力,努力把新冠肺炎疫情影响降到最低,保持经济平稳运行和社会和谐稳定。

我们是否有可能在某种预测器只能近似地满足统计均等的标准时,表示这种内在的权衡?如果可能的话,这种表征的特性将会在何时、以何种方式发挥作用?

尽管尚未找到相关硬盘驱动器,但目前Facebook仍在积极与执法部门合作,以找回这些信息。Facebook在给员工的电子邮件中鼓励员工让银行介入,并订阅银行为期两年的身份盗窃监控服务。

在我们贷款核准的例子中,圆形申请者和方形申请者的还款率之差为 10%,因此。请注意,上述两种公平分类器针对圆形申请者和方形申请者的的误差率都为 0.1。

而要想在回归问题中找到相应的描述方式,仍然是个有待解决的问题,目前尚不明确如何将我们现在的这种证明策略扩展到分析回归问题中类似的权衡上去。

图 3:统计均等的权衡,以及在不同这种系数 λ 下群体间的误差率之和。

理解效用和统计均等之间的基本权衡既有趣又充满挑战。在我们的论文和这篇博文中,我们在二元分类问题的环境下,给出了对这种内在权衡的简单而直观的描述:当各群体之间的基准比率不同时,任何满足统计均等的公平分类器都必然至少在其中一个群体上产生较大的误差!

我们实现了图 2 所示的模型,将对抗性损失的权衡超参数 λ 取了不同的值:0.1,1.0,5.0,以及 50.0。实验结果如图 3 所示:

二、公平性和效用间的权衡

首先,显然当  时,定理 2 退化到了定理 1 中的下界。

第一个概念是「个体公平」。简而言之,它要求公平的算法以类似的方式对待相似的个体。然而,在实践中,通常很难找到或设计一种被社会所认可的距离度量标准,该标准用于衡量个体在面对特定任务时的相似度。 第二个概念是「群体公平」,这是本文重点讨论的问题。更具体地说,就是所谓的统计均等,它本质上是要求预测器对于不同子群输出的结果相同。

例如,在我们图 1 所示的贷款核准问题中,圆形群体的还款率(90%)要高于方形群体的还款率(80%)。根据统计均等的概念,一个公平的预测器必须以相同的比例将贷款发放给圆形和方形群体。举例而言,一个公平的分类器会将贷款恰好发放给 80% 会还款的方形申请者,同时也会将贷款发放给 80% 会还款的圆形申请者(详见图 1 左图)。但是,这就意味着有 10% 确实会还款的圆形申请者会被拒绝放款。

通常而言, 取介于 0 和 1 之间的值,正是这个值表示了在二分类情况下对于公平性和效用的权衡。

其中,该概率值是根据 X,A,Y(即申请人的描述信息、申请人所属群体、申请人实际是否还款的真实标签) 的联合分布 D 得到的。换而言之,统计均等要求预测器 C(x) 与群体属性 A 无关:C(x)⊥A。

请注意,在图 3 中,黑色的水平线对应于 ,所有的红色薯条都超过了这个水平线,这与我们的理论分析结果是一致的。实际上, 是非常容易计算的,它可以在不实际训练公平分类器的情况下,限制它们所产生的误差之和。

如图 2 所示的模型包含两个目标函数,我们在训练阶段同时优化他们。第一个目标是为了通过骗过对抗者确保统计均等,第二个目标是为了减小预测 Y 的目标任务的损失函数。

定理 1 仅仅在某种「精确」的情况下成立:预测器需要「精确地」满足统计均等。然而,实际上,由于有限的训练数据量或模型容量,这种要求可能是难以实现的。

如果 A⊥Y,那么Pr(Y=1 | A=0) = Pr(Y=1 | A=1),这意味着 。也就是说,如果群体属性与目标无关,那么上述下界为 0,因此此时不存在效用和公平性的权衡。 如果基于可以确定 A=Y 或 A=1-Y,那么   将取到其最大值 1。在这种情况下,任何公平分类器都必然会在至少一个群体上产生至少为 0.5 的误差。

在本例中,同样根据数据处理不等式(DPI),任何作用于 Z 的假设 h 也会在不同的群体上以相同的比率输出结果,因此是公平的。

以组织实施之能“下笔”。千忙万忙,不抓落实就是白忙。答好疫情防控考卷,关键就在“下笔”抓落实。各级领导干部要坚决贯彻落实党中央的重大决策部署,把疫情防控的各项工作抓实抓细抓落地。要毫不放松做好疫情防控重点工作,加强疫情特别严重或风险较大的地区防控。要分类有序推动企业复工复产,强化医疗物资、生活必需品等保障。要坚定不移推进减税降费、提供差异化优惠金融服务、调动民间投资积极性、加快释放新兴消费潜力、实施好外商投资法及配套法规等举措落到实处,统筹做好稳就业、稳金融、稳外贸、稳外资、稳投资、稳预期工作。

这两个目标函数往往会通过一个调和超参数 λ 融合在一起。然而,统计均等的概念并没有考虑与真实标签 Y 相关的信息。正如你可以想到的,加入某个人的群体特征 A 与其目标标签 Y 高度相关,那么要想使预测器满足统计均等就必然会同时破坏预测器的最佳性能。

在近百年的历史长河中,从执政中国到发展中国,再到民族复兴,一代又一代共产党人一直在赶考路上全力以赴、担当作为,向广大人民群众交出了无数份合格考卷。当前,大疫如大考。统筹做好疫情防控和经济社会发展,各级党委、政府和领导干部要继续发挥“赶考”精神,坚决贯彻党中央的决策部署,勇敢赴考、机智抓分、认真审题、仔细下笔,全力以赴答好疫情防控的考卷。

为各个群体之间基准比率(Base Rate)之差。则下面的定理成立:

另一种可能的情况是,一个公平的分类器会将贷款恰好发放给 90% 会还款的圆形申请者,同时将贷款发放给 80% 会还款和 10% 不会还款的方形申请者。在我们例子中的这两种情况下,为了满足统计均等的标准,一个公平的分类器都会在预测准确率方面有所损失。当然,也可能存在其它公平的预测器,这些预测器可不可能遭受较小的损失呢?

muadforo.com