搜狐首页 科技 法医秦明

手机搜狐

SOHU.COM

读书笔记 | 大数据时代

文|小红

前言

大数据这个概念在最近这几年很火,大家也大概知道大数据到底是个什么东西,它是如何运作的。现在好多产品上面都会有“猜你喜欢”这一功能,这就是利用大数据实现的。我们每天都在利用大数据或被大数据利用,但是我们当中应该没有多少人真正知道大数据时代给我们带来什么改变。这本书主要从大数据带来的思维变革、商业变革、管理变革三个方面来写。我主要会把这本书中的思维变革和商业变革写出来(因管理变革目前我们中大部分人还用不到,所以就先不写),本篇写思维变革、商业变革下篇连载。

本书框架图

思维变革

1.要全体数据、不要样本

在信息处理能力受限的年代,世界需要数据分析,却缺少用来分析所收集数据的工具,所以只能用随机抽样的方式进行数据分析。

但是真正的大数据时代是指不用随机分析法这样的捷径,而采用所有数据的分析方法。通过观察所有数据,来寻找异常值进行分析。

比如:信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点,在这种情况下,异常值是最有用的信息,你可以把他与正常交易情况作对比从而发现问题。

2.要效率、不要精确性

在如今的信息时代。我们掌握的数据库越来越全面,她不再只包括我们手头那一点可怜的数据,而是包括了与这些现象相关的大量甚至全部的数据。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。但是正因为我们掌握了几乎所有的数据,所以我们不再担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。

有时候当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握食物的发展趋势,大数据不仅让我们不再期待准确性,也让我们无法实现准确性。

值得注意的是,错误并不是大数据本身固有的。他只是我们用来衡量、记录和交流数据的工具的一个缺陷。如果说哪一天技术完美无缺了,不精确度的问题就不复存在了。错误不是大数据固有的特性,而是一个需要我们去处理的实际问题,并且可能长期存在。

混杂性不是竭力避免,有的时候可以为我们所用。互联网最火的产品都会表明,不精确性、混杂性要更好点。

比如微信朋友圈:朋友的发动态时间,在一小时之内的会显示多少分钟之前,在一小时以外的就只显示几小时前。

在微信公众号阅读量显示,为什么超过十万以后显示地是100000+,而不是具体数据,因为超过十万以后的数据,我们心中或许就没啥概念了,没有一个参考衡量的标准了,十万已经会让我们觉得这篇文章很厉害了,能达到目的,就没必要精确。

精选