光大科技向小佳博士:关于联邦学习落地”临门一脚”问题的思考与探索

图片1.png

分享嘉宾:向小佳博士 光大科技 副总经理

出品平台:DataFunSummit

导读:我是来自光大科技有限公司的向小佳,我们团队一直在为光大金控集团的协同和数据共享在持续不断努力。我今天将结合联邦学习落地“临门一脚”的问题,以及业务上的一些思考和技术方案,跟大家做一些交流。

主要内容包括:

▪ 首先是监管背景,简要介绍现在的监管态势。

▪ 然后是针对法规上的严格监管,我们采用了哪些技术手段来缓解相关问题。

▪ 接着是关于业务专家的激励问题,不论明文共享还是联邦共享,能落地的必定是有业务价值的,要给参与推动共享的组织带来效益,给业务人员以激励。

▪ 最后是技术上“最后一公里”的问题,我们也在研究联邦的一些内核的技术,去年也做了一部分算法的革新,但是站在金控集团的角度考虑,我们希望能够在近期内有一些效益出现,所以我后面会做一个小的演示,将技术上的一些难点向大家做一个介绍。

01

监管合规对金控数据共享提出新要求

加强个人信息,尤其是金融信息的保护,保障数据安全成为必然趋势

合规对数据共享提出了新的要求,尤其是今年人行出台了两个法规,对个人信息进行保护。

2020年出台的规范是最多的,包括个人金融信息保护试行办法,个人金融信息保护技术规范,金融消费权益保护实施办法等等。大家看一下知道监管的态势,尤其是,除了个人信息方面,其他类型信息保护其实是多头治理的,国家秘密、商业秘密、公司治理、反垄断,都有相应的法律出台,网信办在这方面也很有权威。

图片2.png

最后也给大家贡献一个案例。原来大家都有一定的侥幸心理,但实际上在证监会执法时候是非常严格的,即便是加密的信息做了共享,还是会被证监会处罚,这件事情当时对我们的触动也比较大。这个案例是基于证监会《证券基金机构信息技术管理办法》(证监会令第152号)第34条,一家证券公司受到处罚。当时是银证之间的合作,还是用了透明信息,也是被处罚了。所以从宏观上看,政策趋严。

图片3.png

总结一下,在法律法规上,目前尚无明确的法规确定联邦学习方式可以用于客户隐私数据共享。但从当前强监管的态势来看,其实联邦学习或者是多方安全计算已经是一个必然,想要再用原来的方法来做数据的共享几乎是不可能的,所以从法规上来看,联邦学习是必由之路。

02

做到完全合规

提出带审计功能的联邦学习,为证券基金经营机构的数据合规提供过渡解决方案

首先我们来看怎么做到完全合规,尤其是证券基金机构。为了让联邦学习落地,我们提出了一个“加强联邦学习的审计”的要求。其实这跟联邦学习的内核并没有太大关系,我们对联邦学习的建模、算子、pipeline,其实没有做任何改造,只是在联邦学习的“最后一公里”之后,给业务机构提供一个基于区块链或是其他系统的不可篡改的证据,方便让机构的从业人员在做了联邦学习的数据联合以后,还能够有一些材料和资料来提供给审计方,做法律上一些储备。

图片4.png

举一个最简单的PSI的例子,联邦学习RSA算法将用户数据进行hash后,利用公钥对用户三要素哈希值和手机号进行加密,按需对加密数据进行统计计算,实现了152号令第34条“原始数据不出证券基金经营机构”的要求,并增加了审计环节——所有的数据提取都要留证,之后再传给需求部门。

图片5.png

说起来这其实算是一个工程上的小改进,主要是为了做到完全合规,可以称之为过渡方案。

基于现在的技术手段,我们能实现三种方案:客户的总量模型,可以做一些客户的总量评分;PSI类客户模型,即多家机构之间客户协同的指标,还有区域客户模型,能够输出一些粒度更细的模型指标,但依然无法精确到个体。所有的模型在做完以后都要留证,它主要是应对当前的过渡时期来做的一种折中。

03

逐步解决业务上的不愿

落地场景是关键:智策-集成联邦学习的风控

狴犴-金控数据要素有偿共享沙箱

针对“业务上的不愿”,我们在风控策略里做了一些联邦学习的集成作为试点。另外我们也提出了一个新的思路,从联邦学习这个层面给予激励,提供一个公平公正的数据流通平台,在平台上能够把数据的贡献能够清晰的记录下来,并且对数据贡献方给予一定积分上的奖励,促进业务方能够真正加入到数据和联邦学习的共享两个环节中来。

图片6.png

首先是一个实例,是我们和某持牌消金公司的一个合作。它原本的风控引擎贷前贷中贷后的一些策略还是以规则为主,针对该消金公司想在集团内部拓展业务的场景,我们可以采用联邦学习,在不透露客户具体信息的基础上为他们提供客户准入、以及额度方面的规则与策略,同时也可以获取一些抽象的客户评分,指导其准入和授信。

图片7.png

另外一个案例,是向愿意拥抱联邦学习的业务部门提供的一个激励方案。在数据流通中,目前存在四个痛点:第一是数据权属不明,需要一个公平公正的平台来记录数据的归属;第二是数据价格难判断,所以我们参照市场机制做了一个有偿的共享沙箱;第三是数据隐私容易泄露,安全难保障,这个是联邦学习的拿手好戏,也是我们现在为什么提出多方安全计算的原因;第四是数据流通能力弱,这是一个商业的问题,需要一定的激励机制。

针对这四大问题我们提出了“狴犴”金控数据要素有偿共享沙箱方案,其根本思想还是借助联邦学习,把数据资产用联邦学习做线上打包进行线上交割,为愿意拥抱数据共享的业务方提供一个公平公正的平台,使他们的数据共享没有后顾之忧,同时还能带来一定的激励。狴犴平台使用区块链来做激励的定价,区块链会产生积分,可以用于联邦内的数据交换。

图片8.png

整体框架分为三个部分:狴犴有偿共享平台,采用互联网架构,类似Pusher的消息分发机制;Quorum,做分布式账本,一方面用于记录有偿共享的一些信息、生成电子合约,一方面用于联邦的资产定价。我们发行了两种积分,一种是稳定积分,另一种是用于激励的促活积分;基于联邦的引擎,我们目前选择了FATE。

以下是一个例子:如果银行愿意和其他公司共享,可以把相应的加密数据资产拿来上架,系统会赋予其一个编号,自然也会有买方,双方都采用稳定积分结算。如果购买的次数频繁,供需关系会在平台内引起流通量和价格的变化,自然会激励卖方多放优质的数据上架。这也是联邦的一个好处,数据资产是可以在线交割的,而不像黄金、原油可能需要线下交割。

图片9.png

有偿共享平台有如下特色:数据资产分为raw data、数据产品、数据模型等类型,都可以拿来有偿共享;数据资产不出域,满足监管要求;区块链积分做记账结算;上架的产品为数据资产使用权限,可以存在类似时效、次数之类的限制;采用双轨积分制,稳定积分为联邦资产定价,证券通行证的促活机制能够让稀缺的资源更加显示出其价值;利用区块链技术进行全生命周期的数据安全保证。

以下是联邦数据资产打包的一个例子。资产为某银行的客户数据,但是明文对外不可见,通过类似“撞库”的方式提供收费服务,如果银行的客户信息可以增强买方标签的说服力,就可以有偿共享。在线平台交割避免了很多线下操作的麻烦,例如谈合同等等,但也需要形成一定固有的共识模式。

图片10.png

对于双轨积分制。首先,稳定积分EBP来购买资产,EBP是由金控集团背书的稳定性积分,用于数据资产的共享激励、积分通兑,可以实现出入金的KYC和反洗钱的一些风控策略,后期也可以做一些规则,实现穿透式监管。数据的交割任务同样都在区块链上面存证,这跟之前审计的想法是一样的。

EBST就是我们证券行通证,在稳定积分基础上发行,它可以承担全资源的证券化,解决融资难融资贵的问题,激发中小微企业的入驻平台的积极性。

图片11.png

如果不是真正的数据使用者,也可以申请EBST,获得收益分红。在集团内的收益分红其实就是数据的使用权,收益分红会折算成稳定积分,稳定积分又可以去兑换更多的数据服务,形成一个内生的闭环。

04

创新缓解技术上的不易

提出Federated AI Hub和前端联邦推理的概念

在技术上,我们创新了一些算子。在面对客户的“最后一公里”方面,我们也有一些想法的创新,一个是联邦推理的前端化,第二个是联邦服务的SaaS化。

图片12.png

通常大家使用联邦学习应该是右下角这样一个模式,以local server为中心,我们对比左上角使用FedAI Hub的联邦推理模式,它虽然没有把联邦训练前端化,但实现了联邦推理的前端化,把联邦放在前端,同时有性能优势,绕开了local server,用手机之类的硬件分担服务器的负担。

以上是目前我们在金控公司内推广遇到的一些痛点。

05

未来展望

关注并期待业界的发展:

▪ 更成熟的联邦学习工具链,开箱即用,学习成本低

▪ 标准的统一,使得跨平台合作成为可能

▪ 金融级安全,安全算法,安全协议经得起推敲

▪ 更多辅助合规的技术手段、工具(审计),助力法律尽快出台

▪ 与区块链的结合,建立公正、公平、合理的数据交易环境

▪ 更多数据资产上线联邦平台

今天的分享就到这里,谢谢大家。

(0)
上一篇 2021年11月10日 17:18
下一篇 2021年11月10日 17:44