首页 >> 企业信息

大数据和云计算概念不同但有交集<凌众版>

发布时间:2012-7-5 14:05:47 被阅览数:次 来源:厦门凌众科技有限公司

微软全球副总裁张亚勤说,大数据现在是一个很时髦的名词,它是一个很重要的云计算的机遇,同时也确实是一个挑战。从三高特点上看,包括高容量(过去两年产生的数据基本是人类历史两年前数据的总和,且如今每两年增加一倍。)、高素质(当下数据的产生越来越快,需要数据的时间和反映的速度也是越来越快)、数据类型多(比如说有时时的,非时时的,结构化的,非结构化的,也有从服务器来的,也有从商业公司来的,这么多不同的数据,对于过去的系统而言,前所未有,如何处理?)三个方面。

也有一个挑战,即各种不同的数据挖掘技术、商业智能的软件系统对数据的解读不一样,会产生各种不同的结果,具有高度的可变性,最终会产生压力。对此,我们需要将所采集的数据,即一种原始的信号,变成可用的数据、信息和知识,最后成为决策的依据。这整个的过程,绝不是一种数据挖掘和分析工具能解决的。

EMC基辛格:大数据和云计算概念不同但有交集

“EMC正在处于转型期,从过去到未来,这种变化让EMC将是两家完全不同的企业,”EMC信息基础架构产品事业部总裁兼首席运营官帕特?基辛格一年后如约再次来到中国,“过去EMC只是一家存储厂商,而未来EMC将引领信息基础架构解决方案市场的发展,成为市场的领导厂商,而不再是一个跟随者。”

EMC信息基础架构产品事业部总裁兼首席运营官帕特-基辛格

EMC 2011年开局不凡,第一季度财报显示EMC Q1综合收入创纪录达到46亿美元,其中在在欧洲、中东和非洲地区、亚太地区和日本都取得出色业绩。“其中大中华区业务增长态势非常良好,在中国的市场份额在增加中,研发中心的能力也不断壮大,其中包括Hadoop和Greenplum的研发工作也在中国进行。目前对大中华区EMC团队的表现非常满意。中国市场很大,所以要走的步伐还要更快一些。”基辛格如是评价。

在刚刚结束的EMC World 2011上,EMC除了一直倡导的云计算外,还抛出了“大数据”概念,大数据构想是EMC带来的全新理念,想要理解好这个概念首先要从“大”入手,“大”肯定是指大型数据集,一般在10TB规模左右,但在实际应用中,很多用户把多个数据集放在一起,已经形成了PB级的数据量,而且这些数据来自多种数据源,并以实时、迭代的方式来实现。这种大数据趋势应该是顺势而生,在医疗、地理信息、基因分析、电影娱乐行业都会存在大型数据,而EMC通过Avamar、Isilon、Greenplum等产品不是简单把数据进行存储,除此之外还需要对数据进行分析,并且与业务流程联系到一起以进行操作。

在本次的EMC World 2011上,EMC针对常用于数据密集型分布式应用的Apache Hadoop开源软件,宣布了一项有关软件发布、集成和支持的全面战略,为客户提供了最强大、最高效率的方法,充分挖掘大数据的价值。这项战略发布,将进一步巩固EMC的领先地位。EMC今天还推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备——Greenplum HD数据计算设备(Data Computing Appliance)。

基辛格透露:“可以说Hadoop战略代表着EMC进军开源领域,同时还宣布了15家EMC Hadoop分销商,更多的新产品和解决方案将在VMware大会上进行发布。”
而在大数据市场,EMC也面临着诸如IBM、微软、甲骨文等实力强劲的竞争对手,其中,IBM在大数据领域对EMC威胁极大,对此,基辛格分析道:“IBM拥有非常丰富的资产,比如有DB2数据库环境,而且IBM收购了很多企业,在整个硬件、软件、解决方案都有非常强的研发力量。最近IBM在推进大数据项目,IBM也是Hadoop的分销商,所以在大数据领域EMC和IBM有很多竞争。但我们的大数据战略不同,EMC秉持着基于云、虚拟化、X86架构,而IBM是局限于大型机架构,不具有伸缩性,这将极大制约IBM架构的发展。”

事实上,大数据和云计算是两个不同的概念,但两者之间有很多交集。简单形容两者的关系就是“大数据离不开云”,支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,这些都是底层的技术原则,实际上大数据和云计算之间存在很多合力的地方。

云计算和大数据已经成为许多企业面临的希望和挑战。企业认为云计算是所有的数据问题的答案,其想法是利用公共云,最大限度地提高企业的成本效益,获得更有弹性、有无限的可扩展性的解决方案。

像大多数的技术解决方案一样,这是谈易行难的主意。在企业想将数据库迁移到公共云之前,还有很多关键技术和战略必须得到解决。

挑战一:整合

第一个问题是整合。当整个公司的运行在一个特定的系统,并收集数以百万计的数据,当涉及到一个新的系统,系统将如何收集这些数据,准确的翻译,并与现有系统同步?

规模较小或那些刚刚开始建立自己的系统的公司,可能要稍微简单,但只是稍微——他们还要面临带宽限制和设置成本的问题。

挑战二:安全

第二个挑战是更为重要的——安全。私有云很明显提供更好的安全性模型。这并不是说,没有办法保护你在公共云的数据,但它确实变得更加脆弱。

挑战三:关联

第三个是最关键的,至少对于企业主而言。这个问题就是业务相关性。

到目前为止,许多云计算公司在兜售其技术,这并没有什么错。这是令人印象深刻并且真正改变游戏规则的。然而,任何一种技术是无用的,除非它服务于企业的目的。

云计算公司经常说他们的产品是数据中心的业务。没有业务是数据中心的,至少在企业主的心目中不是。

企业所有的业务都是以钱为中心。他们可能把它称为投资回报率(ROI),收入,盈利,或他们甚至声称,一切都是为了顾客满意度。一件事是肯定的,他们都将不会继续运作,除非他们赚到足够的钱。

大数据和云计算,公共或私有的,是两个伟大的概念,但是这两个必须都是努力支持企业的。如何迁移到公共云,或者私有云来帮助企业业务?什么样的数据将是企业希望的?系统将如何将这些数据转化为洞察力,可以提高客户满意度,帮助获取客户,增加销售?这些技术将如何帮助我发现,追求,和接近业务机会?

这并不是说大数据和公共云不能牵手,或这两个不值得它们现在所得到的关注。只是如同建筑,它们应该有一个正确的宏观战略贯穿于始终。

大数据: 发展还是变革?

无论你是使用关系型数据库系统、哈希表,还是其它结构来维护数据,你肯定对NoSQL和大数据有所耳闻。 目前,谷歌、雅虎和亚马逊等公司都已经在开发或者使用大数据/NoSQL的解决方案。但除了一些非常具体的案例外,这些大数据的实现方案真的那么有用吗?在近期的一篇文章中,凯捷咨询公司的史蒂夫·琼斯甚至指出有时候大数据可能就是一大骗局,或者至少还不能完全成为一种万能药,可以解决原有关系型数据库管理系统实现方案中的各种问题,这些你可能都已经注意到了:

我注意到市场上对大数据的宣传已成泛滥之势。有些公司将这种容量的爆炸式增长看作是历史、新技术、新方法延续的一部分,只是发展而不是变革。诚然,Map Reduce技术很酷,但它的技术难度也远胜于SQL和数据库设计,因此这也意味着该技术远不能成为一种商业上的万能药。

史蒂夫接着指出,可用于存储极为重要且有一定规模数据集的内存数据库技术(基于关系型数据库管理系统)不久将成为现实。他通过引用一篇文章来阐述自己的观点,该文章讨论了数年前,雅虎是如何使用一种经过重大修改的Postgres实现来存储2PB数据的:

下面是大数据的要点:它95%以上都只是以指数级持续增长的数据,这是与增强的处理能力和存储容量相匹配的,或者至少是随之增长的。(……)当然,对索引的优化可能更难,并且你可能要将数据来回移动到固态硬盘上,但严格来说,这样数据量就变得“更大”了,而不是一次简单的数据移动。

我们过去也从Mike Stonebraker这些人那里听说过类似的事情,他表示许多用户都将受益于诸如重新构建的关系型数据库管理系统和列存储等方法,从而尽可能多地利用主存和固态硬盘,同时仍能保持传统较强的一致性、ACID语义,并在某些情况下可以使用SQL。但史蒂夫接着重新强调了Map Reduce技术,并且认为这一实现方案背后的模型需要你就如何存储、查询和操作数据有一种不同的思维方式,在某种程度上,用户要将这种解决方案集成到他们现有的投资环境中就变得更加困难了。

就像不会有那么多人能够准确地用多线程的方式思考一样,也不会有那么多人能够用Map Reduce的方式思考。

当我们经常听到新的实现方案,或者厂商指望着能鼓动我们采用他们的解决方案时,这又把大数据置于何地呢?根据史蒂夫的观点:

我们发现人们使用大数据的方式和使用SOA一样,贴个标签,然后就宣称 “集成了Hadoop”或“集成了社交媒体(social media)”,或者换个说法,“我们已经建立了一个连接器”。看看刚刚那个让你大跌眼镜的说法吧。它只是一种老式的学校企业应用集成(EAI)连接器,不过连接到新数据源或新ETL连接器而已。

这可能算是一种笼统的说法,但也说明了一些事实。因为现在有过多的炒作,并且太多的厂商都在自己的实现方案上贴上了NoSQL/大数据的标签,但其实这些实现方案对于手头上的任务并不适合,那么在这种“新的数据解决方案”的背后是否有丢失核心信息的风险呢?正如史蒂夫所指出的,这种状况可能跟SOA的早期应用状况相似,那时各厂商都在自己的解决方案上贴上SOA的标签,但实际上大多数方案都根本不是SOA。那么你如何准确衡量你需要的是大数据的解决方案,还是提供给你的是场大骗局(正如史蒂夫所言)呢?史蒂夫提出了一些建议,至少可以在评估厂商的解决方案时使用。其中包括:

1.你可以用“大数据库(Big Database)”来代替“大数据”吗?如果可以,那它就只是一次更新。

2.“高级”可以简化成“我们刚刚获得一个企业应用集成连接器”吗?

3.是否与2009年的产品基本相同,只不过在新产品上贴上了大数据/NoSQL的标签?

4.有什么方法可以将处理流程移动到数据上进行,而不是到处移动数据吗?这是过去包括Jim Grey在内的很多人都建议的做法。

不幸的是这些“规则”都不具有科学性,并且都需要某种程度的主观判断。那么还有其它规则可用吗?如果你已经从传统的关系型数据库管理系统迁移到别的平台上,那么你是使用什么来决定迁移的必要性,以及如何选择要迁移到的具体实现方案呢?这种迁移工作是否成功?如果不成功,又是为什么呢?
对于云计算,我们说更多地是从IT架构上来说,IT资源得到更高的利用率。它更多解决企业IT资源利用率不高,IT部署较为繁杂,以及IT管理较为复杂的问题。应该说,云计算让企业的IT系统更加高校可控。这种高效可供,一定要为处理大数据而使用吗?不一定!

哪些行业会将云计算和大数据结合来使用。例如,腾讯、百度和淘宝等大型互联网企业。首先他们的IT资源庞大,分布较为广泛,而且异构系统较多,另外,基于互联网的应用数据多是混合结构的数据。要及时准确地处理这些数据,就必须求助云计算的力量。

所以,如何不让大数据搅了云计算的好局,就得让大数据在云计算的平台上找到用武之地。那么,如果从这个角度来分析的话,大数据不但没有搅局,而且还提云计算打开了应用需求的一个缺口。

为什么这么说?云计算自从2007年诞生,2008年大谈于国内媒体。一直是国内媒体的宠儿。真正得到企业CIO的拥戴,还很晚。

国内媒体以及业界专家很多认为,2011年是云计算元年,而2012年被认为是云计算应用之年,但是从具体的成果来看,还远远不够。

2010年,国务院通过审批,在国内先建立五个云计算示范城市,如今这五个收到特殊照顾的云计算示范城市发展如何呢?北京的祥云计划,上海的大云计划,无锡到处兴建云计算中心,好像已经成为IBM、微软、英特尔和AMD等IT国际巨头,华山论剑的地方了,并没有多大实质性进展。而广州和浙江更是收效甚微。

发展云计算并不是发展房地产事业,非要比谁盖的数据中心和机房多,非要比较谁吸引来的外商多。更主要的是将云计算新技术的落地与当地的IT需求直接挂钩。

在国外,很多云计算项目由政府牵头,那是因为,政府希望整合政府职能部门的IT资源,通过统一的出口使用,以达到最终节省IT资源和电力资源的目的。

而国内发展云计算产业基地,更多的目的是房地产工程,政绩。很多云计算数据中心建成了多年,没有任何应用,大部分服务器常年关机。等着政府来人检查,再开机验货。

2012年6月20日左右,BSA机构对全球的云计算实力进行排名,结果中国成为云计算综合实力倒数第四的国家。与古巴等国家排名接近。这不得不让我们感叹,这么多年,花费这么多金钱发展云计算,起到的作用在哪里呢?如果没有,请国家放开手让云计算“自由飞翔”。

 

  • 电话咨询

  • 05925908028