您的位置: 首页 > EXCEL技巧 > Excel综合 >

大数据时代,让一群脑残为你选书

时间:2016-07-14 整理:docExcel.net

对 大数据 概念还搞不清的人可以松一口气了,如果你读过《大数据时代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),你会发现舍恩伯格(Viktor Mayer-Sch nberger)对 大数据 的定义如此简单:所谓大数据(Big Data),就是大量的数据;它的反义词同样简单:小数据(Small Data),很少很少的数据。

相比于作者所著同样谈论大数据话题的《删除:大数据取舍之道》一书,《大数据时代》结构紧密,逻辑清晰,论证过程也更为严谨。

本书在何为大数据、大数据有何典型特征、大数据的实际应用和未来以及大数据的隐忧等关键问题上,通过案例和通畅晓白的解释,梳理清楚了 大数据 这个看起来高深复杂但其实无处不在的概念。在舍恩伯格看来,以往我们因受限于工具而采用的抽样调查以及精准采样数据的分析方法需要革新,大数据时代是改变方法论和思维方式的过程。

(图片为《大数据时代》作者舍恩伯格 )

大数据时代的到来,与信息数字化息息相关。在 2000 年的时候,以数字化形式存储的数据仅占全球数据量的四分之一,而到了 2007 年时,90% 以上数据是数字化数据,剩下不到 10% 是存储在报纸、CD 等介质上的模拟数据。

我们知道,模拟数据在复制和传播过程中信息会失真、噪音叠加,比如一张纸连续复印三次之后,噪点越来越多,字迹越来越模糊,一盘音乐磁带连续翻录多次之后,令人厌烦的 嗞嗞 声越来越大。

而二进制数字世界,是一个非黑即白的世界,要么 1 要么 0,即使有噪点,灰色也会被识别黑色(1),浅白则被计算机处理为白(0),没有中间地带,也就没有了噪音的容身之处。信息在数字世界得以无损复制和传播,再加上不断廉价化的存储能力以及同时提高的计算能力,大量以前无法处理的数据,有了分析、解读它们的可能。

在模拟信息的世界,因为信息收集、信息复制、信息存储以及信息分析的工具既不够好,成本也极为高昂,我们只能收集极少量的数据(也即所谓的 结构化数据 )进行分析。由于条件所限,我们发明了统计学来通过尽可能少的数据,去推导、去证实尽可能重大的发现。当我们意识到我们已经拥有能够收集和处理大规模数据(也即所谓更多的 非结构化数据 )能力的时候,我们需要新的理念和工具去重新认识这个世界了。

(图片来源:YouTube )

新的理念运用于工具上的体现之一是光场相机 Lytro。与其它数码相机不同的是,Lytro 相机可以在拍摄完照片之后再对焦。因为在拍摄时,Lytro 可以记录整个光场里所有的光,照片具体生成什么样,拍完之后根据需要再决定。

有没有发现这颠覆了我们做事的一贯逻辑?以往我们因为受制于工具或金钱,需要提前想好我们的目的,再去获取我们需要的信息。而大数据时代的思维方式则如 Lytro 的特性一样,先拍下来再说,需要什么样的照片,后期再处理。Lytro 相机也算从胶片机过渡到数码相机交叠时代思维的延续,如果摄影技术不太好,先拍一堆片子再说,你总能挑出几张好的来。

对小数据而言,最重要的要求是减少错误,保证质量。而大数据对更糙的信息及冗余信息容忍度更高,也即当资源足够丰富且廉价的时候,可以先大量浪费,再来精准化,而不是预设精准的目标。

亚马逊早期雇佣了一群书评家为读者荐书,后来发现通过算法 一群对图书质量判断能力远不如专业人士的普通读者的口味的集合 推荐图书的转化率更高之后,亚马逊把书评家们都解雇了。由于自己多年积累被算法取代的愤怒,在被解雇之后,书评家发出这样的抱怨:(通过算法推荐) 那种感觉就像你和一群脑残在一起逛书店。

类似的故事也发生微软。微软机器翻译部门的统计学家们在茶余饭后闲聊中会说,每次一有语言学家离开他们团队,微软机器翻译质量就会变得更好一点。

从对信息质量的角度出发去观察,我们会发现大数据时代的特性的确越来越 脑残化 :它放弃原始数据的精确性,强调数据量的多和杂;它放弃因果关系的判断,强调相关关系;它放弃知其所以然(为什么),只需知其然(是什么)就可以了。

(《中国合伙人》剧照)

豆瓣阅读为什么给你推荐《中国合伙人》?背后的逻辑可能是你的朋友最近点了 想看 或 看过 。新浪微博为什么推荐李承鹏而不是李开复给你关注?背后的逻辑可能是你关注的人中更多人关注李承鹏。但为什么因为朋友喜欢,所以机器就会判定你也会喜欢呢?不知道。机器通过计算得知,如果你有很多朋友喜欢同一个事物,那么你喜欢这个事物的概率会大一些。可能对,也可能错。二者之间强相关,但不因果。

大数据最大的用途之一是预测。好的方面,它可以预测机票价格走势,为自费旅游者省钱;它能预测交通拥堵情况,帮助人们选择更好的时段和路线节省出行时间;它也可以像亚马逊做的那样,为你提供更准确的书单,帮你遇见更多好书。

《麻省理工科技创业》曾报道说,英国伯明翰大学的一个研究团队甚至开发出一种算法,可以精确地预测你未来将要去哪里。

大多数人一般有规律的行为模式,但传统的预测算法 只通过用户本身的行为模式来进行预测,解决不了人们临时变更路线的情况,导致预测人们出行的平均误差高达 1000 米。

伯明翰大学开发的算法可以通过追踪用户手机上的个人过往行为模式数据以及用户手机里的社交关系 当然,新型算法需要收集和分析大量个人信息。最后能预测用户在 24 小时之内会去什么地点,而平均误差减少到仅 20 米。

如此精准的研究结果让人惊喜 细想过后,可能给人带来更多的是惊讶,或惊恐。没有人希望自己的正常出行被别人预测 机器竟然比我自己还了解自己,我连三小时后我会干嘛都不知道呢!这提醒我们在大数据时代,我们将面临的隐私问题的严峻。

在小数据时代,数据采集者需要告知数据提供者其采集的数据用途为何;但在大数据时代,这样的信息管理方式已经失效。舍恩伯格在书中指出, 大数据 将颠覆隐私保护法当下以个人为中心的思想。比如许多公司采集用户数据时的目的与最后使用的目的往往不同,而且在未来,大数据的价值不再单纯来自它的基本用途,更多来于它的二次甚至多次利用。

但有时候即使个人不同意,也会为公众带来隐私问题。以 Google 街景项目为例,Google 采集了街道上的几乎全部信息,如果有某个人不同意 ta 的数据显示在 Google 街景中,Google 会将该信息模糊化处理。但当其他人的信息都完整呈现在街景图中时, 马赛克 (模糊化处理)的部分反倒成了焦点 本想隐藏掉的信息反倒成了此地无银三百两式的焦点。未来的个人数据采集与数据授权,需要替换掉目前的隐私保护方案。

舍恩伯格在书中举的更讽刺的案例则是,2007 年,英国报纸 London Evening Standard 一篇报道称,乔治 奥威尔曾居住过的伦敦公寓外方圆 183 米范围内,有 32 架摄像机。如果奥威尔生活到现在,看到此情此景,他会做何感想?

题图来源:Social Marketing Fella

奇葩说:“奇葩也不是一天炼成的” 问题:奇葩说:“奇葩也不是一天炼成的”
回答:...当年央视《挑战主持人》里的那个马东,这个节目也还是一群鲜活的年轻人在表达观点,只不过,他们从电视时代走过拥抱了互联网的平台。在这里,年轻人们的观点,成了更为广义的真实表达。 一个来自电视时代的团队,一...
100offer:程序员拍卖,这是个最好的时代 问题:100offer:程序员拍卖,这是个最好的时代
回答: “程序猿”是一群极有增值价值的动物。国内互联网公司的人力成本上升很快,但中国的优秀程序员究竟在哪呢? 先来看一组有关互联网技术人群流动的分析: 保守估计,中国的互联网技术人员约有 400-500 万名,很多人平均2-3 ...
物联网时代,有人做数据交换平台 问题:物联网时代,有人做数据交换平台
回答: 数据时代,公司也自然愿意为优质的数据花钱,思科和 IBM 都在利用数据的搜集和交换来孕育下一个商业模式。而一个位于美国拉斯维加斯的初创公司 Terbine 正计划搭建一个大型数据交换平台。 Terbine 刚刚获得 Inca...
25岁的杨致远改变了世界,45岁的杨致远在做什么 问题:25岁的杨致远改变了世界,45岁的杨致远在做什么
回答:... 20 年前,杨致远和好友费罗创建雅虎之前,互联网只是一群极客的玩具。1994 年两家创业公司的出现改变了一切。网景(Netscape) 在 1994 年 10 月推出的第一款浏览器让互联网走进了普通人的生活;而雅虎的提供的免费检索服务同...
一加刘作虎:我曾设想失败 大不了一群人吃饭散 问题:一加刘作虎:我曾设想失败 大不了一群人吃饭散
回答: 一加手机是个“怪胎”,在国外有很多粉丝,也有品牌知名度,在国内却成绩差一大截。 其创始人刘作虎曾就职 OPPO 副总裁,OPPO 被认为是国内少数具有品牌号召力的手机,这也许给了刘作虎不少加分。 今天上午,他在...
每个投资人心底都住着一群"前女友" 问题:每个投资人心底都住着一群"前女友"
回答: 文/袁媛 最近一家初创公司获得了巨额融资,CEO 在对员工的公开信中阐述既往种种,前尘往事,难免公开点名了几家早期投资的明星 VC,那叫一种叫你们“当初对我爱搭不理,今天让你高攀不起”的气势。昨天夜间刷朋...
相关知识:

下面内容对您也许有用

      话题:《大数据云图:如何在大数据时代寻找下一个大机遇》.

      推荐回答:《大数据云图:如何在大数据时代寻找下一个大机遇》讲述亚马逊、Google、IBM、Facebook、LinkedIn…… 超过一百家大数据公司的商业法则深度解密。教育、医疗、电子、汽车、建筑…… 十几个行业的成功企业案例全面分享。从Twitter到flix,从Bing到LinkedIn……互联网新贵如何在大数据之战中脱颖而出?从福特到宝洁,从耐克到三星……传统商业巨头如何在大数据时代再创辉煌?大数据云图清晰勾勒出大数据行业的企业分布,让你能够轻易发现大数据行业的下一个大机遇究竟在何处。

      话题:为什么大数据让我们害怕大数据时代

      问题详情:为什么大数据让我们害怕大数据时代,不小心拍得照片可让你一夜

      推荐回答:哲学上讲,没个事物都有两面性,对于大数据来讲也同样适用,大数据给人们带来好处的同时,也带来了很多的问题。那么,都有哪些

      话题:大数据时代

      推荐回答:可穿戴联网设备的普及,但他们都是被新互联网思维淘汰的昔日巨人,这些企业的没落并不是因为没有数据思维,这两个学科从诞生之日起就依赖于基于海量数据的分析方法、文化和各种策略。 不过,商户的路由器,也可能是一个单纯的工具APP,就要通过分析来挖掘资产的价值! 3)数据变现 有了数据资产;网游公司也会在运营工程中通过玩家行为数据的分析来及时调整游戏关卡及计费点等设计、冰箱,可能是一个解决刚兴需求的WEB网站。据说目前世界上90%的数据是互联网出现以后迅速产生的!所以。,如果大脑不能与时俱进。 大数据可以说是计算机和互联网结合的产物、柯达,意识到数据也是资产的公司都已经开始在各个

      话题:大数据时代,作为一个消费者我想知道产品运营商是通过什么

      推荐回答:应该有后台数据库可以收集吧。

      话题:互联网+大数据时代,让多少人一夜暴富

      推荐回答:好.积善行,物质的东西都会来的,不要多愁善感,思利他4,每个人的生活都好难的。1。不要和别人比较,作为人?在送你几句。记住一个话,何为正确.活着就要感谢5,有没有想一下是自己不够努力?确定好方向,努力学习.每天自我反省6.付出不亚于任何人的努力2.不要有感性的烦恼只要你努力干活.谦虚戒骄3,没有让人一夜暴富的提高生活质量没有捷径

      话题:大数据时代一书哪里买

      推荐回答: product " target="_blank"./22928335: product.dangdang.dangdang./22928335分享

      话题:新一轮信息革命来临

      推荐回答:”赵嘉敏说,我要给你提供一个界面和接口。 自奥巴马政府以来,这样的岗位正在成为新一代需求望族。但从另一方面看,不是简单的定义。 涂子沛认为,数据。这些企业来自搜索引擎、计算机成为政府控制社会的一个强有力的工具,随身带了一个传感器,民主社会的精髓并不在于选举权。在互联网日益普及的背景下,要建设一个历史上前所未有的开放政府。一个政府多大程度的数据开放决定着它多大程度的民主?个人隐私又该怎么办,不仅在政府的财政治理上,也是信息社会一个最大的挑战。个人隐私权的关键在于个人能够控制这种选择权?除了政府。从一方面来讲,也许智能化能够解决个人的精神焦虑,正逼全球的政府走向信息化

      话题:如何在大数据时代寻找下一个大机遇

      推荐回答:让你能够轻易发现大数据行业的下一个大机遇究竟在何处?大数据云图清晰勾勒出大数据行业的企业分布:如何在大数据时代寻找下一个大机遇》讲述亚马逊、电子、Facebook、建筑…… 十几个行业的成功企业案例全面分享、Google、IBM、汽车,从耐克到三星……传统商业巨头如何在大数据时代再创辉煌《大数据云图。教育,从Bing到LinkedIn……互联网新贵如何在大数据之战中脱颖而出、医疗。从Twitter到flix?从福特到宝洁、LinkedIn…… 超过一百家大数据公司的商业法则深度解密

      话题:大数据时代我们准备什么

      推荐回答:食品卫生,可以通过分析春节期间移动用户漫游情况,从国家层面通盘考虑我国大数据发展的战略。就政府而言。今年全国两会就有人大代表提出、社会管理的信息基础”、整合和分析,发现新的知识?有什么用,来自统计业内的动向显示。大数据的能量往往超出我们的想象,分析原因和规律,大数据时代正在向我们走来、社会管理的信息基础”——国家统计局局长马建堂的话可谓高屋建瓴,11月宏观经济数据一出来?现在提大数据是不是有些哗众取宠,构建智慧的地球”、轻定量。“谁拥有了大数据、风险的防范和预警,进而准确预测了流感的发生及传播范围、轻数据的思维惯性、国家治理,也不能充耳不闻、信息安全。通过对海量数

      话题:大数据时代需要什么样的存储

      推荐回答:可以根据工作负载去实时动态配置资源,应用级别和服务级别怎么定义需要有很好存储架构,满足应用分级。她表示,集中式存储需要的管理和维护非常困难。她认为,闪存正是针对当前网络存储速度落后的解决方案,让包括非结构化数据的大量数据快速变成信息,写入以后分散在STORAGE,在最大限度提高部署效率前提下。融合架构避免了整合的时间和网络问题判断的时间。App集群存储系统,戴尔一直通过收购,所有动态可以负载均衡,通过融合架构实现计算存储融合,同时还能够提供非常高的可靠性和管理级别,然后形成融合架构。 戴尔亚太存储技术总监许良谋则强调了SSD的利用要在成本和性能之间的平衡,降低延迟,这