两服务上线,AWS数据湖方案进一步丰满

两服务上线,AWS数据湖方案进一步丰满

“已往,数据来了像一个小河,我们知道河大概有若干水,于是设计河流、闸门来处置使用数据。然则今天的互联网时代,数据呈爆炸增进,一下子涌出来,很难掌握数据的性子,数据像洪水猛兽,要规则整理存储数据于数据库里,需要花许多时间,在这样的靠山下,我们找到一大片湿地、洼地,把所有数据就像湖水一样、洪水一样先蓄在这里。”AWS首席云盘算企业战略照料张侠用小河与湿地、湖泊来讲述传统数据与数据湖之间的差异。有了数据湖就可以异常容易地快速缩放数据,然后有林林总总的工具来利便查询数据,举行林林总总的剖析。

3月24日AWS中国宣布在西云数据运营的AWS中国(宁夏)区域推出两个重磅的数据剖析服务AWS Glue和Amazon Athena,这使得AWS的数据湖解决方案拼图进一步完善。

在数据经济时代,传统的数据库、数据仓库的方式越来越难以知足,爆炸、快速增进的数据挖掘价值需求。“一方面,其设计思绪始于常见的企业级单体/焦点应用,与大数据特征和环境不匹配;另一方面,无法有用应对数据的快速增进,支持种种数据类型和剖析需求。”张侠示意,基于此数据湖越来越受到青睐。

所谓数据湖,就是一个集中式的、平安的存储库,它依托云盘算的手艺和基础设施,允许企业或机构以随便规模,存储所有的结构化和非结构化数据。客户可以按原样存储数据,无需先对数据举行结构化处置;可以对这些数据运行差别类型的剖析,从数据仪表板和可视化数据展现,到大数据处置、实时剖析和机械学习,指导客户做出更好的决议。

事实上,在今天我们想象到的各种大数据剖析场景中,数据湖框架都是基础架构系统的“唯一正解”。从客户市场服务方面的消费者细分、商品门类剖析、客户忠诚度/流失率剖析,金融风控领域的异常买卖/敲诈侦测、种种风险评估预警,企业市场流动中的价钱剖析、需求展望,到医疗领域的疾病流传模式、药物发现等,一应俱全。

2006年,AWS公布Amazon S3,引发云盘算革命。十多年来,AWS逐渐将Amazon S3生长成云上数据湖的焦点,并围绕Amazon S3陆续开发出一系列数据湖相关服务,构建了一套完整的云端大数据剖析系统。

好比,通过面向大数据处置的Amazon EMR,用户可在AWS上轻松运行Spark、Hadoop、Presto、Hbase等大数据剖析;对应实时数据剖析这一剖析框架的主要组成部分,Amazon Kinesis可支持用户轻松地实时网络、处置并剖析视频和流数据;数据湖还可以与机械学习和人工智能连系,通过Amazon SageMaker开展更多自动化的展望性剖析,充实释放大数据的潜能。

就像张侠所言,当我们有了数据湖,我们需要林林总总的工具来对“湖”中差别类型、差别需求的数据举行抓取、挪用,来快速实现数据的剖析和挖掘,释放数据价值。而这次3月24日宣布上线的两项服务:AWS Glue和Amazon Athena让AWS的数据湖的工具链进一步完善,让AWS的数据湖解决方案大拼图越渐丰满。

据介绍,AWS Glue是一种全托管的数据提取、转换和加载(ETL)服务及元数据目录,实现了数据剖析准备工作的自动化,让客户从准备数据到最先剖析的时间由几个月缩短到几分钟。由于AWS Glue是无服务器服务,客户在执行ETL义务时,只需要为他们所消耗的盘算资源付费。

Amazon Athena是一种交互式查询服务,它让客户可以使用尺度SQL语言、轻松剖析Amazon S3中的数据,几秒钟内便可获得查询效果。

据了解,现在AWS的剖析组建涵盖了数据移动、数据存储、数据湖、剖析和机械学习五大维度,基于AWS的整个大数据剖析全景图中,绝大多数服务现在都已在中国落地。针对各种现代应用和大数据剖析场景,各行各业的用户都可以在AWS上快速构建,通过种种产物方案组合匹配需求。

AWS全球副总裁及大中华区执行董事张文翊示意,“客户经常问我们,是否可以让他们利便地对Amazon S3数据湖中的数据执行查询,而不用体贴设置和治理服务器、集群这些事情。现在,我们很喜悦由西云数据运营的AWS中国(宁夏)区域推出Amazon Athena,以响应AWS中国客户的需求。Athena完全不需要治理基础设施,任何能够编写SQL查询的人都能以高性价比的方式快速剖析他们在Amazon S3中的数据。”“AWS可扩展、可靠的云存储,加上我们普遍的剖析服务,使客户比以往任何时候都更容易网络、存储、剖析和共享数据。随着AWS Glue在由西云数据运营的AWS中国(宁夏)区域正式上线,中国区域的客户可以轻松地从随便多的数据源传输和处置数据,整合数据到数据湖,而且可以选用多种AWS剖析服务,迅速最先剖析所有数据。”

客户对于AWS的数据剖析解决方案也给出了使用反馈。茄子快传是一家全球化的互联网科技公司,累计有18亿用户。茄子快传搭建了一个数字内容毗邻入口,辅助全球200多个国家和地区的用户获取优质数字内容。茄子快传数据运营负责人何诚示意,“茄子快传的数据量大,剖析维度多,营业也异常复杂,以是经常需要多维度多颗粒度的高并发剖析,AWS的剖析工具很好地知足了我们一样平常的数据提取和剖析需求。使用Amazon Athena,我们可以轻松地运行交互式查询,剖析数据,不必构建和部署分外的集群。同时,我们运行新数据剖析所需的时间缩短了30%,大幅减少了成本与运维方面的风险。”

大宇无限是一家专门从事移动应用程序开发的公司,主要为中东、东南亚和拉丁美洲等新兴市场提供移动短视频服务。大宇无限平台手艺负责人李睿示意,“每个月,我们的营业运营都需要破费大量人力,剖析全球十亿用户的海量数据。使用Amazon Athena交互式查询服务之后,我们可以用SQL语言直接在 Amazon S3 中轻松查询、剖析用戶数据,节省了成本,减轻了运营压力,通俗的工程师与营业部门职员都可以利便地自助查询各种营业数据,极大地提高了生产效率。

声明: 本文由入驻基智地平台的作者撰写,观点仅代表作者本人,不代表基智地立场;基智地发布此信息的目的在于传播更多信息,与本站立场无关。