大数据与我们的生活

发布时间:2016-03-28 21:03:42

大数据与我们的生活

2013年被称为大数据元年,这一年几乎所有的世界级互联网企业,都将业务触角延伸至大数据产业;无论社交平台逐鹿、电商价格大战还是门户网站的竞争,都有它的影子。如今,一个大规模生产、分享和应用数据的时代正在开启。《大数据时代》的作者维克托教授曾说,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。互联网的出现使得我们身边的社交网络,电子商务与移动通信把人类社会带入了一个以“PB”1024TB)为单位的结构与非结构数据的新时代。而发掘数据价值、征服数据海洋的动力就是云计算。云计算出现之前,传统的计算机是无法处理如此量大并且不规则的非结构数据的。而以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。大数据与云计算是一个问题的两个方面:一个是问题,一个是解决问题的方法。那么在这里普及一下云计算的概念。云计算(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。 这里我们没有必要将云计算的概念搞得十分透彻,因为它本身就像云一样,我们只需要知道它可以为我们提供本地主机无法提供的超强计算能力和各种服务,可以用云计算的方式解决许多在原本看来无法解决的问题。

我们回到正题什么是大数据?

对于大数据Big data)研究机构Gartner给出了这样的定义。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

IBM则提出了大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(精确)、Value(价值)。大量是指数据量的规模可以从数百TB到数十百TB甚至EB。高速是指大数据需要在一定的时间限度下得到及时的处理。多样是指大数据包括各种格式和形态的数据。精确是指大数据的处理结果要保证一定的准确性。价值则是大数据的根本所在。

数据的收集方式有很多方法,通过浏览器可以获取用户上网的浏览记录,搜索引擎可以轻而易举地获取全球每天发出的数十亿条搜索指令,购物网站可以得到顾客的购买记录,也可以根据人们在社交软件上面的聊天记录来收集有用的信息,还可以通过让别人做网页上面的答卷来收集信息,知道人们对于一种东西的看法和态度

这些收集起来的数据就会全部都储藏在一起,然后有用的时候就会用特殊的软件来分析处理这些数据,国家有国家的数据,很多的公司也有自己的数据库,一个公司的数据库越大就代表了这个公司的实力越强,未来发展的可能性也就越大越好。

当然这些数据最主要的并不是绝对的大,而是有用的信息比较多,覆盖的范围比较广,是一种相对的大。这样分析出来的结果也就越准确,这些数据可以准确的反映现在社会上面发生的事情和现在人们的心理状态,可以预测到很多事情的未来的发展方向,有的公司可以根据这些数据发现自己的不足和管理漏洞,及时的改变和处理,延长企业的寿命,增加企业的资产和竞争能力。通过数据,也可以知道现在社会上面主流的东西是什么,只有抓住主流的社会,才能跟上时代的步伐,顺应历史的潮流,抓住机遇,发展自己的公司和事业

大数据时代的三个转变

大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。

第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。19世纪以来,当面临大量数据时,社会都依赖于采样分析,但采样分析是信息缺乏时代和信息流受限制的模拟数据时代的产物。为了让分析变得简单,我们会把数据量缩减到最小,潜意识里认为我们与大量数据的交流困难是自然现象,而没有意识到这只是当时技术条件下的一种人为限制。与局限在小数据范围相比,使用一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节。

第二个转变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。这种思维方式适用于掌握小数据量的情况,因为需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录。当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。并不是说我们完全放弃精确度,只是适当忽略围观层面上的精确度让我们在宏观层面拥有更好的洞察力。

第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且具有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但它会提醒我们这件事请正在发生。大数据告诉我们是什么而不是为什么。在大数据时代,我们不必知道现象背后的原因,我们只需要让数据发声。

要全体不要抽样

当我们可以获得海量数据的时候,采样这种用最少的数据得到最多信息的方法就没什么意义了。随着收集和处理数据的技术能力越来越强,我们更加倾向于样本=总体的数据处理方式。收集的数据越来越多,分析和预测结果就会越来越准确。乔布斯在与癌症抗争的过程中采用了不同的方式成为世界上第一个对自身所有的DNA和肿瘤DNA进行排序的人他得到的不是一个只有一系列标记的基因组样本而是包括整个基因密码的数据文档对于普通的癌症患者医生只能期望他的DNA排列同实验中使用的样本足够相似但是乔布斯的医生们能够基于乔布斯的特定基因组成按所需效果用药如果癌症病变导致药物失效医生就可以及时更换另一种药虽然传奇的乔布斯最终在2011年离开了这个曾被他改变的世界,但是这种获得所有数据而不仅仅是样本的方法还是使他的生命延长了好几年。

要效率不要绝对精确

对于小数据而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。同时我们需要与各种各样的混乱作斗争。混乱,简单的说就是随着数据的增加,错误率也会相应的增加,还可以指格式的不一致。2000年的时候,微软研究中心一直在寻求改进Word中拼写检查的方法。但是他们不能确定是努力改进现有的算法、研发新算法还是添加更细腻精致的特点更有效。所以在实施这些措施之前,他们往现有的4种常见算法中添加更多的数据,先是一千万字,再到一亿字,最后到十亿。当数据只有500万的时候,有一种简单的算法表现很差,但当数据达到10亿的时候,它变成了最好的,准确率从原来的75%提高到了95%以上。相反少量数据情况下运行的最好的算法,加入到更多的数据时也会像其他算法一样有所提高,但却成了在大数据条件下运行得最不好的,它的准确率从86%提高到了94%。2006年,谷歌公司也开始涉足机器翻译。谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本。谷歌翻译部的负责人指出,“谷歌的翻译系统不会像IBM的Candide一样只是仔细地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿文档。”尽管其输入源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的。和微软一样,谷歌翻译的成功在于它接受了有错误的数据。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。

要相关不要因果

亚马逊公司为了提高书籍销量,最初雇佣了一个由20多名书评家和编辑组成的团队,他们创立了“亚马逊的声音”这个版块,为的就是发掘潜在的顾客,提高顾客购买商品的概率。后来,亚马逊的创始人以及总裁林登,决定尝试一个极富创造力的想法:根据顾客个人以前的购物喜好,为其推荐具体的书籍。亚马逊从每一个顾客身上捕获了大量的数据,顾客的信息数据量非常大,亚马逊先用传统的方法对其进行处理,通过样本分析找到客户之间的相似性。但是这种算法的推荐效果并不好。很快,林登意识到推荐系统实际上并没有必要把顾客与其他顾客进行对比,而只需要找到产品之间的关联性。这样一来,每个人登录了亚马逊网站后看到的商品信息都会与自己曾经的浏览、购买记录相关联,是专门为我们每个人“设计”的网页

我们身边的大数据

搜狗输入法

最新版本的iOS版搜狗拼音输入法可以通过已经输入的文字来预测下一个可能需要输入的文字电脑版的搜狗拼音输入法可以纠正拼音输入时的错误比如说我们输入了zengzahng输入法会自动纠正为zengzhang从而匹配出增长

各类猜你喜欢

一是从你的购买或浏览记录分析,推荐相似的产品。二是从人的角度,推荐和比较相似的其他人所购买的产品。

Siri的语音识别

iDevices的Siri语音识别功能已被证明非常受欢迎,它也受到大数据的支持。通过机器捕捉的语音数据被上传到云分析平台上,在那里与其他用户数以百万计的输入命令进行对比,帮助其更好地识别语音模式(机器学习),更精确地将用户与他们正在寻找的数据匹配起来。

大数据存在的问题

大数据能告诉我们是什么但不能告诉我们为什么

尽管大数据能够非常好地检测相关性,特别是那些用小数据集可能无法测出的微妙相关性,但是它并不会告诉我们哪一种相关性是有意义的。

大数据只能是辅助工具通过大数据下结论是有风险的

大数据可以辅助科学调查,但不可能成功地完全代替比如谷歌预测流感的案例曾经是大数据的典范。2009年,谷歌通过相当大的宣传称它可以通过分析与流感相关的搜索预测流感爆发的趋势,这种准确性和快速甚至超过了疾病控制和预防中心等官方机构。但是几年后,谷歌宣称的流感预测并没有得到好的结果最近一篇《科学杂志》的文章解释道,谷歌流感预测的失败很大程度上是因为谷歌搜索引擎自己在不断的更新,这个时候收集的数据未必能够适用于下一个时候收集的数据。

大数据可能导致大错误

如果你在两个变量中不断地寻找相关性,那么你很可能会纯粹出于偶然发现虚假的相关性,即便在这些变量中并没有实际意义的联系。缺乏谨慎的检查,大数据的量级会扩大这些错误。

炒作

大数据的支持者宣称它是革命性的进步。但是即便是给出大数据的成功例子,比如谷歌流感趋势的预测,即便有用但对于一些更大的事这些显得微不足道。相比19世纪和20世纪的伟大发明比如抗生素,汽车,飞机,大数据所得出的东西实在算不了什么。

大数据与我们的生活

相关推荐