面向AI Everywhere:英特尔在人工智能领域的突围

【51CTO.com原创稿件】随着云计算、大数据5G物联网技术的普及,人工智能也在加速发展,大众对于人脸识别、视频监控、工业质检、远程维护等AI应用场景也算得上耳熟能详。但事实上,AI发展远非一帆风顺,其落地之路一直是荆棘丛生。

首先,如何在海量数据中构建更高效的数据集,从而在更短时间内获得更好的训练效果是一大挑战;其次,人工智能技术本身的赋能属性会使其和业务场景深度深度结合,如何基于场景加速AI模型的构建是关键;再者,较大的模型才有可能获得较好的准确度,但大模型往往也对硬件的算力提出了更高的技术要求;还有,如何通过软硬件协同优化加速AI部署,也是影响AI大规模落地的要义。

从中不难窥见,围绕着“数据、算法、算力”三要素,人工智能应用开发的整个过程可以说环环相扣。无论是数据处理,还是建模、训练,抑或部署,针对每个具体步骤进行细节优化,才有可能真正突破瓶颈,加速AI落地。当然这一切都离不开底层技术供应商的支持。

在日前举行的英特尔 On技术创新峰会上,英特尔基于一系列创新发布向大众描绘了一张“AI Everywhere”的愿景图。英特尔在开发者生态系统、工具、技术和开放平台上的深度投资,正在为人工智能的普及扫清道路。

面向AI Everywhere:英特尔在人工智能领域的突围

数据基础设施的优化革新

数据是人工智能的基石。如果能在更短时间内将数据变为洞察,对于人工智能的开发而言无疑事半功倍。

在数据基础设施建设方面,英特尔早有布局。开源开发平台BigDL台简化了Spark生产环境中的端到端分布式大数据人工智能管线,利用Apache Spark帮助用户无缝扩展、数据预处理和Tensorflow或PyTorch建模,缩短了构建解决方案的时间,并为推荐系统、时序分析、隐私、保护机器学习等对象提供面向行业特定应用的数据管线。BigDL目前已被Mastercard、Burger King、SK Telecom等厂商应用于生产环境中,其应用规模还在不断增大。

在数据预处理方面,英特热对相关工具进行了优化。开源库Modin能够使Pandas应用程序加速多达20倍,通过Jupyter Notebook几乎可以实现从PC到云的无限扩展;对于热门的Python数学库NumPy和SciPy,英特尔也做了针对性优化,使用oneMKL等oneAPI核心构建基块将线性代数、快速傅里叶变换随机数生成器及elementwise函数的速度提升达100倍。

算力加速度:硬件平台的“鱼与熊掌”兼得

随着应用的复杂性不断增加,单纯堆积CPU内核已经无法满足应用程序对于性能、功耗、成本的要求。人们开始使用越来越多的倾向于各种非CPU计算单元。作为老牌芯片厂商,英特尔近年来在AI硬件领域的投入取得了“鱼与熊掌”兼得的成果。

在硬件平台的构建上,英特尔已经打造了一个完整的XPU平台——从CPU到GPU到FPGA再到深度学习专用加速器,适用于各种类型的AI需求。

在新近的数代产品中,英特尔的每个CPU核心均增添了内置AI加速能力,无需任何独立加速器即可贴合一般用户需求。值得关注的是,在本次会议上,英特尔宣布,其目标是到2022年将英特尔至强可扩展处理器的人工智能性能提高30倍。据悉,下一代英特尔至强可扩展处理器(代号“Sapphire Rapids”)将利用内置高级矩阵扩展(AMX)引擎,英特尔®神经压缩机(INC),以及基于oneAPI开放行业标准的oneDNN优化,进一步提升计算性能。

除了内置AI加速的通用CPU,英特尔在GPU平台建设上同样有不俗表现。Ponte Vecchio可对AI、HPC和高级分析工作负载进行加载。其新型微架构专为可拓展性而构建,能够将多种内部和外部制程技术与先进的封装技术相结合,从而量身定制产品。

此外,基于业界对于深度学习训练的需求不断增长,深度学习训练模型为提高准确性也变得越来越大,训练这些模型导致计算消耗和相关成本呈指数级飙升,市场对于专用深度学习训练处理器也日益迫切。在这一背景下,英特尔又推出了Habana Gaudi处理器。这个取自画家之名的处理器可以在云端和数据中心提高深度学习训练效率。据资料显示,Gaudi加速器提高了Amazon EC2训练实例的效率,与目前基于GPU的实例相比,性能比最多可提高40%。

开发者福音:通向跨架构编程的可能

当硬件体系渐趋完善,GPU、FPGA以及各种针对不同应用而开发的专用芯片与CPU一起组成复杂的异构平台时,新的问题应运而生。

一般而言,要发挥这种异构平台的性能,开发者需要深入了解底层硬件的体系结构,以便针对性的利用各个异构单元的优势。但事实上,在普通的软件工程师或算法工程师群体中,能够了解和掌握这些硬件相关的开发知识的人往往寥寥无几。

针对这一点,英特尔推出了oneAPI工具包。oneAPI早在2018年底举行的英特尔架构日上就已亮相,其在英特尔生态布局中的地位不言而喻。

oneAPI提供了一个统一的软件编程接口,这使得应用程序开发者可以专注于算法和应用的开发,而无需关心太多底层细节的实现。除了编程接口外,oneAPI还会包含完整的开发环境、软件库、驱动程序、调试工具等要素,而且这些加速库都已经针对底层硬件进行了优化设计。以Neural Compressor为例,作为一种开源Python库,它可以跨多个面向CPU和GPU的英特尔优化深度学习框架自动进行模型压缩,将优化时间缩短达一个数量级。

对开发者来说,oneAPI提供的是一种通用、开放的编程体验,让开发者可以自由选择架构,而无需在性能上作出妥协,同时也大大降低了使用不同的代码库、编程语言、编程工具和工作流程所带来的复杂性。

部署神器OpenVINO的的进化

在人工智能领域,只有同时提供硬件和软件生态,才能在激烈的竞争中杀出一席之地。为了充分挖掘处理器的性能,各个厂家都发布了各种软件框架和工具。OpenVINO是英特尔推出的一款全面的工具套件,用于快速部署应用和解决方案。

通常人工智能应用开发中,当模型训练结束,上线部署时会遇到各种问题:模型性能是否满足线上要求?模型如何嵌入到原有工程系统?这些问题在很大程度上决定着投资回报率。只有深入且准确地理解深度学习框架,才能更好地满足上线要求。但遗憾的是,新的算法模型和所用框架层出不穷,要求开发者随时掌握未免强人所难。

OpenVINO针对的就是这一痛点。作为Pipeline工具集,OpenVINO可以兼容各种开源框架训练好的模型,拥有算法模型上线部署的各种能力。这就意味着,只要掌握了这一工具,你可以轻松地将预训练模型在英特尔的CPU上快速部署起来。

在历时三年多的时间里,OpenVINO在不断改进中。据了解,OpenVINO2022.1的2.0版本将在第一季度发布。这一版本有三大突破:

其一,针对给开发人员造成的问题进行重要升级,包括将更多默认值合并到模型转换,API内保留原有架构内的模型输入布局和精度,从而减少代码更改;

其二,从根源上改进了OpenVINO在计算机视觉方面的表现,使其现在可支持横跨从边缘到云端的广泛模型,尤其是自然语言处理和文本分类;

其三,新增自动硬件目标优化功能,全新自动插件可以自动发现系统加速器并与推理模型要求进行匹配,这大大优化了延迟与吞吐量。

结语

在本届英特尔 On技术创新峰会上,英特尔面向人工智能领域展现出了一种鲜明的态度:不是要将某几个硬件产品做强,而是要面向AI市场,提供从硬件到软件的全栈解决方案。英特尔投资多个人工智能架构以满足不同的用户需求,使用开放的基于标准的编程模型,使开发人员更容易在更多的用例中运行更多的人工智能工作负载。

在人工智能这一赛道上,英特尔也为其他同业竞争者树立了标杆:在原有的硬件开发能力基础上,通过对英特尔至强可扩展处理器上的流行库和框架进行广泛优化,使开发人员更容易获得和扩展AI。英特尔致力于携手合作伙伴、拥抱开发者,共建AI创新生态,共创“AI Everywhere”的图景。无尽的远方,有触手可及的未来。

点击了解更多英特尔On技术创新峰会

面向AI Everywhere:英特尔在人工智能领域的突围

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

发表评论

登录后才能评论