去中心化如何减轻人工智能中的数据偏差

扫码链接5000+新基建产业链上下游从业者,入群请备注“机智地+姓名+公司+岗位

新冠肺炎的爆发使世界各地的卫生系统不堪重负。在某种程度上,病人的床位和、吸器以及卫生工作人员的防护设备都不够。这意味着卫生系统,特别是发达国家的卫生系统,必须采用某些技术来有效地分配资源。AI是其中之一,它在防治冠状病毒方面的重要性继续增强。纽约大学的研究人员开发了一款应用程序,利用人工智能大数据来预测新冠肺炎病例的严重程度,很好地说明了这项技术是如何帮助资源分配的,至少在理论上是这样。研究人员利用来自中国武汉160家医院的患者数据,确定了四种生物标志物,它们在死于该病毒的患者中明显高于那些康复的患者。基于人工智能模型中的数据,该应用程序为患者分配了一个严重程度评分,临床医生可以使用该评分来做出知情的护理和资源分配决定。


去中心化如何减轻人工智能中的数据偏差
加州大学伯克利哈斯商学院(UC Berkeley Haas School Of Business)公平、性别和领导力中心的Genevieve Smith和Ishita Rustagi在一篇发表在“斯坦福社会创新评论”(Stanford Social创新评论)上的文章中写道,尽管人工智能可能给冠状病毒战场带来积极影响,但所使用的底层数据的缺陷可能加深性别和种族群体中已经存在的不平等现象。


有趣的是,这些数据可靠性问题并不是冠状病毒时代特有的。事实上,人工智能以及它的机器学习和深度学习的子集,都被数据偏见和数据质量难题的困扰。

这里主要讨论的是区块链如何帮助解决这些数据可靠性问题。但是,首先了解数据偏差的来源是很有价值的。

数据偏差如何进入人工智能

数据偏差可能会在不同的阶段进入人工智能,包括问题框架、数据收集和数据准备阶段。一个公司希望达到的商业目标将是解决问题的基础。这一目标本身可能是歧视性的或不公平的。

此外,在数据收集阶段,偏见可能会通过收集不具有现实代表性或反映现有偏见的数据而被忽略。例如,如果你给一个深度学习模型提供了更多的特定肤色的照片,那么随后的面部识别系统在识别训练数据中占主导地位的肤色方面就会有更好的表现。

关于收集反映现有偏见的数据方面,据说在发现一个基于人工智能的招聘系统对妇女有偏见之后,亚马逊公司放弃了该招聘系统。回到医疗保健领域,一组研究人员在2019年发现,许多美国医院使用一种算法来预测风险,然后分配资源,在同样的疾病折磨方面,白人患者比黑人患者更受青睐。

基于区块链的两种提高数据质量的方法

你挖得越深,就会发现越多的偏见。鉴于这些问题的复杂性,没有一个单一的解决方案。不过,专家们一致认为需要多样性的数据。为了实现数据的多样性,提高数据的透明度以及强有力的协作可以改善这种情况。根据设计,区块链技术只能通过多方协作来维护网络。这可能会给机器学习模型和它们所提供的数据带来透明度、去中心化和可验证性。

激励质量培训数据的贡献

去年微软MSFT推出了一项名为区块链上的去中心化和协作式人工智能的计划。我们的目标是利用公共区块链(以太坊),用于协作和持续的模型培训和维护。据参与这项计划的微软高级软件开发人员Justin Harris表示,其中的一个关键部分是开发一种机制,激励参与者贡献“好的数据”。

在这个系统中,参与者必须在智能合约上预先承诺一定的金额,以便为培训贡献他们的数据。如果系统确定数据是好的——即满足某些要求,他们就会得到退款。因此,提供不良数据将导致最初承诺的损失。


然而,这里的重点并不是提供好数据的经济动机,而是坏数据带来的成本。

例如,以面部识别模型为例,您可以使用智能合约来要求参与者提交的图像数据中的各种肤色。因此,任何不符合要求的数据集都被认为是坏的,因此贡献者会受到惩罚。这是一个简化的例子。当处理不同和复杂的数据集时,事情可能会变得更加复杂。然而,这里的意图是指出基于区块链的激励系统如何能够帮助生成更高质量的数据。

基于区块链的数据市场Streamr也正在开发一个系统,该系统可能有助于提高人工智能模型中使用的数据的质量和深度。通过它所谓的“数据联盟”,Streamr希望让互联网用户能够出售他们的数据。第一个名为Swash的数据联盟由第三方公司创建,它使用浏览器扩展来聚合用户数据。捆绑后的数据最终在其市场上出售。用户保留排除任何他们不愿意共享的数据的权利。

这里有趣的是,任何人都可以建立一个数据联合来生成特定类型的数据——例如基于性别或种族。此外,在联合中收集数据使它们比单个实体更有用和更有价值。这样一个系统可能会使人工智能中使用的数据在某些领域更接近现实。

使用区块链打开对孤立数据的访问

一些项目也在探索基于区块链的联邦学习的潜力。联邦学习使得人工智能算法能够从大量筒孤立据中积累经验。计算不是将数据移动到计算地点,而是在数据位置进行。联邦学习允许数据提供者保留对其数据的控制。然而,无论何时使用联邦学习都存在隐私风险。

区块链由于其卓越的可追溯性和透明度,能够减轻这种风险。此外,智能合约还可以通过要求一笔保证金来阻止恶意玩家,这笔保证金只有在算法没有违反网络隐私标准的情况下才可以退还。

海洋议定书和GNY是两个探索基于区块链的联邦学习的项目。海洋最近推出了一款名为“计算到数据”的产品,它允许数据提供者和数据消费者安全地在区块链上购买和销售数据。这家总部位于新加坡的初创公司已经拥有一些企业名称。

GNY计划在今年晚些时候推出其主网,最近演示了研究人员如何在其区块链上建立一个侧链,并对全美各城市每天的新冠病毒死亡人数进行了比较分析。这是一种略有不同的方法,因为它鼓励数据提供者将其数据放在链上,从而消除了以往存在的单点攻击风险。

在它的演示中,GNY采用支持向量机(SVM)的链上算法来分析新冠病毒相关的死亡率数据。然后,支持向量机模型预测哪些城市的感染率可能会上升或下降。这样的预测可以帮助城市和州提前收紧或放松管制措施。

数据提供商和消费者会转向区块链吗?

这里的一个大问题是,区块链提供的激励是否足以让人工智能领域的企业和决策者接受区块链。在过去的几年里,区块链被吹捧为有可能颠覆一切。而现实并没有改变多少。区块链可能有助于缓解问题或促进各行业提高效率,但这并不足以成为放弃现状的动力。基于区块链的人工智能的支持者将寻求逆潮流而动。


声明: 本文由入驻基智地平台的作者撰写,观点仅代表作者本人,不代表基智地立场;基智地发布此信息的目的在于传播更多信息,与本站立场无关。

发表评论

邮箱地址不会被公开。 必填项已用*标注