为什么「顶级量化对冲基金们」要自建人工智能平台?

克日,海内领先的对冲基金公司「幻方」宣布,其新一代AI超级盘算机“萤火一号”,已于2020年3月正式投入运行。

该服务器是由一个存储集群和一个盘算集群组成。存储集群提供4.1Tbps读写带宽以及1.2PB容量。盘算集群搭载1100张高端显卡,每秒可以举行1.84亿亿次浮点运算,相当于4万台个人电脑算力。

在全球著名对冲基金Two Sigma的主页上,公司先容中写到,只有基于数据的、不停优化迭代的科学方式才是最好投资方式。他们使用42 PB(1PB=1000TB,1TB=1000GB)数据用于投资模子,涵盖了10000个以上的数据源,并使用33万个CPU以上的集群处置数据。

数字化时代

数字化时代,基于传统统计、计量的方式已无法处置云云大的数据量。而机械学习、深度学习的优势随着大数据、盘算机处置能力的飞速生长逐渐展现出来。

数据驱动的量化计谋,是指通过相关数据,直接识别金融市场的模式或纪律,寻找投资机遇,这一直是对冲基金主流的计谋模式之一。在数字化时代,这类计谋将越来越获得重视,而机械学习自然是这类计谋主要的手艺与方式之一。

为什么「顶级量化对冲基金们」要自建人工智能平台?

全球每年数据增进表

数据近几十年都一直在指数级增进, 当5G周全普及,物联网中各样装备接入互联网,每年发生的数据还将几何式爆炸增进。

IDC预计,到2025年全球数据每年将到达163ZB。

随着石油的价钱一降再降,将数据比作天下上最有价值的资源,已然没有任何疑问。

数据将使我们有机遇改善我们的决议,在经济、社会中的作用将加倍举足轻重。越来越多的公司使用这些数据用于企业自身决议,并为他们的客户提供更好的服务。那些能够充分行使数据为用户服务,解决问题的企业将会在新的竞争中脱颖而出。

在金融投资领域亦是云云,来自手机、社交媒体、物联网各式传感器的数据,将对金融投资机构的数据处置能力提出挑战。

能网络更大局限、更实时的数据,并有能力处置剖析并发现新投资价值的机构,必将获得更强的竞争力。

数据是墙壁上的投影

信息是用来消除随机不确定性的器械。

—— 香农(Shannon)

柏拉图在《理想国》中有一个著名的比喻——窟窿之喻(Allegory of the Cave)。

设想在一个地穴中有一批囚徒,他们自小被锁链约束,不能转头,只能瞥见眼前洞壁上的影子。

在他们后上方有一堆火,有一条横贯窟窿的小道,沿小道筑有一堵矮墙,犹如木偶戏的屏风。

人们扛着种种用具走过墙后的小道,而火光便把那些器物的影像投射到眼前的洞壁上,囚徒自然地以为影子是惟一真实的事物。

为什么「顶级量化对冲基金们」要自建人工智能平台?

【 图片:窟窿之喻 】

窟窿之喻简直是关于事实与数据之间关系最好的解读。

数据就像印在壁洞上的影像——人们试图行使低维的数据,去描绘一个高维的事实。这和我们以为,在数字化时代亦不存在全局性信息,大致是一个寄义。

但数字化时代,墙壁上将不再是火炬的倒影,种种用具举行数据化处置,可以天生一个全息的影像,这一定能让窟窿人感知到一个加倍真实的天下。

不远的未来,随着物理天下数字化不停生长,数据就不再是一个火炬照出的影像,而是成为一个全息影像。更多维度、更实时的数据,将辅助我们真正明白我们的周遭环境、事物以及我们自己。

信息的基本作用是消除人们对事物的不确定性。

信息熵(Information Entropy)是对信息的量化器量,也是对不确定性的器量。关于信息熵,另有更准确的公式形貌,感兴趣的读者请参考相关专业书籍。这里只需要领会,信息和不确定性是逆向关系,有用信息可以削减不确定性,增添确定性。

金融市场,若是对某个资产价钱异常不确定,市场介入各方都有差别预期,资产价钱就会猛烈颠簸。需要大量信息才气消除这不确定性,随着信息不停在市场中流传,资产价钱的不确定性也不停下降逐步趋于平衡价。

我们强调经济、社会中是存在不确定性的。哈耶克有一段关于经济不确定性不能被统计有用消除的叙述:”经济学家们越来越容易遗忘组成整个经济系统的经常不停的小转变,其缘故原由之一也许是他们越来越耽于统计总数,这种统计总数比详细细节的运动表现出更大的稳定性。

然而,这种统计中的相对稳定性并不能像统计学家时常想做的那样以’大数定律’即随机转变的相互抵偿来注释。我们必须处置的因素,其数目并非大得足以使这些有时气力发生稳定性。

货物和服务的不间断流动得以维持,是由于连续不停的经心调治,由于天天要根据前一天所不知的情形做出新的放置,由于一旦A不能交付就马上由B取代。”

笔者异常认同,但数字化时代,将改善原有人们基于统计的决议。

随着网络手艺以及各种传感器不停优化,生产过程中哪些是由A交付,哪些是由B交付都被记录下来,再加上实时反馈系统,从而有可能实现更高效的调剂。

而且,原有抽样统计中被忽略的变量也将被有用网络,大数据差别于统计样本抽样,是更大的样本集,甚至是全样本集,有用制止样本统计过程中的信息损失。

数字化时代离不开机械学习

面临大数据集时,部门统计学习算法无法处置大数据的高维、希罕、海量等特征。

之后,随着分布式存储、盘算手艺、分布式机械学习平台的生长,机械学习能够有用处置更大规模的数据集,大数据的价值才更好的获得体现,才有了数据被以为是天下上最主要的资源一说。以是,大数据与机械学习是相辅相成的。

相对于大数据的兴起,机械学习、人工智能已经由半个多世纪的生长,几经兴衰,冷暖沉浮,兴时,改变天下;衰时,无法就业。虽然有人说这几年机械学习大热,可能会和之前几回人工智能浪潮一样退去。

但笔者信赖,纵然在热潮中,机械学习会有些被滥用,但年深月久,经由专家学者们连续不停地探索,不可逆转的数字化历程,不间断的盘算能力提升,大可乐观。只有在数字化时代,机械学习、人工智能才成为一个不退去的浪潮。

现在,通常所说的大数据,数据量都到达PB级以上,必须借助于云盘算才气处置。

而且在大数据上的建模已然离不开机械学习和深度学习。那些图像识别、翻译、无人驾驶等领域,都是由于有了大数据集,才施展了深度学习的优势。

大数据将原有抽样样本集变为全量样本集,呈现出抽样样本上无法展现的纪律。而且机械学习、深度学习模子在大数据集上,能够更有用地学习之前统计模子中忽略的那些结构和关系,这也是之前所说数据中无法处置的信息中的一部门,从而可能获得更好的模子展望效果。

在数据处置、网络成本的下降的同时,机械学习、算法的成本也下降了,而且易用性也提高了。机械学习算法的实现已然不是各领域应用人工智能需要思量的问题。

那些云盘算供应商们会不停降低机械学习的应用成本并提高易用性。也就是说展望的性价比将越来越高,金融投资领域也不破例,机械学习的应用将无处不在。

另外,金融投资领域和各行各业的生长都息息相关,既然实体经济都在数字化、智能化,自然金融投资领域也必须数字化、智能化。

自建大数据、机械学习平台的利益与瑕玷

通常来说,对于金融投资机构,选择外部云盘算服务商也是对照合适的选择。

那另一个问题来了,为什么顶级金融投资机构需要自建平台、系统呢?

当金融投资机构的目的是在他们的公司中投资的决议各个环节嵌入大数据,举行投资全流程数字化升级,将数据的剖析效果作为投资依据的主要泉源。

那么外部的大数据供应商或咨询机构都无法取代公司内部的大数据团队。数据团队的事情分成两大部门,一是搭建数据存储和盘算平台,二是提供数据产物和数据服务。

对数据平台有更高掌控要求的机构来说,在开源大数据手艺上,构建定制化大数据存储和盘算平台亦是不错的选择。数据处置团队则主要卖力对各种营业数据举行洗濯、加工、分类以及挖掘剖析,然后把数据效果存储到数据平台,构建公司的数据中心。

在互联网行业,大数据效果异常容易体现。

采集、处置并行使数据,可以实现改善用户体验或研发新产物等作用,依托数据化运营吸引、留住用户并使之活跃是互联网公司的生存之道。

这些都有明确的相关指标量化效果,以是大数据团队的价值很容易被认可。然而在金融机构的数据处置团队并不直接介入投资,往往是作为中后台支持团队,其价值多是通过与前中台团队有用互助发生。

若是公司是一个数据驱动型投资公司,在投资决议系统依据数据支持,数据团队职能定位对照明确,并拥有较好的信息化基础和较强的数据驱动意识,那么大数据团队对照容易发生价值。

但,若是公司高层和营业团队对数据团队有着过高的期待,团队职能定位不明确,数据团队自己投资领域知识不足的话,大数据团队的价值将难以施展。

以是,金融机构有用行使大数据团队一样平常需具备以下几点:

公司高层认可大数据的价值,清晰的大数据团队目的。打造一支数据科学团队是有一定成本的,确立大数据团队前,必须在高层杀青一致,确认投入资源打造一支数据科学团队的必要性,并能明确团队目的和期待。

大数据和数据剖析纳入投资决议流程。数据在投资中的作用是不言而喻的,但对新的大数据集,买卖团队和量化、风控等团队往往心存疑虑,需要确立合适的流程,确保大数据集经由验证后进入投资决议。激励买卖团队、量化团队多多接触大数据集,配合探讨新数据集的价值。只有大数据能够真正应用于投资,大数据团队的价值才气展现。

寻找到合适的数据人才。对于金融机构的大数据团队,往往倾向于有金融靠山的大数据和机械学习人才,但这方面人才在海内相对较少,而且互联网行业也在鼎力争取相关人才。只要明确各团队职责,可适当放宽要求,差别靠山的职员也是能够有用互助的。

一样平常来说,机械学习团队是和大数据团队划归为后台支持团队的。

由于并不直接介入投资,机械学习团队价值是通过与前中台团队有用互助体现的。

另外一种组织方案是将机械学习团队划入前、中台量化团队,这样更有利于机械学习算法直接应用于买卖计谋以及风险模子中,但这时就需要和后台大数据团队有用互助了。

不论如何选择组织架构,目的都是为了将大数据和机械学习纳入投资决议流程中。将大数据,机械学习融入原有金融投资机构在线买卖决议、风控系统中,并支持线下计谋、风控模子研究,这将涉及整体公司内IT系统的重构。

但这样的趋势已不可制止,面临数字化时代不停生长,物理天下、实体经济数字化历程加速,金融投资机构应该以加倍开放的心态,将机械学习等手艺有用融合到原有投资决议流程中才气获得行业竞争优势。

既然谈了自建大数据、机械学习平台的利益,那也应该说说瑕玷:花钱

需要和互联网公司挣强人才。纵然金融机构给的待遇更高些,但思量到学习环境、股权激励等缘故原由,一样平常人人照样更愿意选择互联网公司。固然,对于不差钱的顶级投资机构来说,自然不在思量之列,原微软首席人工智能科学家邓力就加盟了对冲基金巨头之一Citadel公司。

最后,笔者要喊句,虽然金融投资市场不是公正的,已往不是,现在也不是,未来应该也不是。但若是,市场中的新座次取决于谁拥有最强的机械、最多的数据、最厉害的算法,那亦是违反市场机制了。

声明: 本文由入驻基智地平台的作者撰写,观点仅代表作者本人,不代表基智地立场;基智地发布此信息的目的在于传播更多信息,与本站立场无关。