搜狐首页 科技 无心法师2

手机搜狐

SOHU.COM

工业大数据的管理技术与艺术

昆仑数据CTO王晨在清华大数据思享会

分享了“工业大数据管理技术”内容

从国际技术趋势到国内应用案例

这里没有你想要的姿势

但一定有你想要的知识

以下是分享会讲话实录:

一、什么是数据管理?

数据分析应用是真正能够直接解决企业问题的,是显露在外可以直接观察的部分,但是在这之下有很大部分支撑数据分析应用的就是数据管理技术。

数据分析应用需要一整套的处理和加工过程,数据就是原材料,需要把数据有序地存储和管理起来。然后是数据的整理、清洗、集成,这个过程主要由数据工程师(DataEngineer)来完成,最后由数据科学家借助数据分体的工具和平台根据业务问题等实际需要采用不同的算法和方法等进行数据分析。

大数据的概念是由麦肯锡提出来的,后来有3V、4V、5V的解释。就像盲人摸象一样,大数据一直没有准确的定义。到底什么是大数据呢? 本质上大数据就是数据驱动的分析,大数据管理其实就是支撑数据应用的平台的管理技术。

最早数据存放在文件里,没有中间件进行数据管理,数据的存储和读取完全由应用软件完成。由此也造成用户无法专注于应用逻辑,而且还要清楚数据管理逻辑。在此过程中发现有越来越多共性的需求,从而提炼出数据管理技术,作为独立的中间件形态。从文件到数据库的技术过程最早是百花齐放的,类似网络数据库、层次数据库,到70年代突然只剩下关系型数据库了,其背后的逻辑就是应用驱动,因为在70年代只有银行愿意为数据库的技术买单,现在数据库技术的许多概念都是源于金融体系。

数据库有一个很重要概念transaction,即事务,需要保证数据的ACID,任何一个操作要保证其原子性、一致性、持久性、隔离性。同样是在应用驱动下,后面又出现了很多种类型的数据库,因为只有一种关系型数据库无法满足所有需求。如有些数据分析的时候对数据库写入操作很少,但是有大量复杂的读和查询的操作,数据仓库技术就出现了。2010年左右大数据技术的出现,因应了新的数据类型或者是数据的使用场景,各类NoSQL和NewSQL的数据库开始逐步涌现。

Wikipedia上关于大数据是用排除法做的定义,如果数据大、复杂,各方面处理的实时性高,传统的数据管理技术和传统的数据处理软件处理不了或者处理不好,需要一些新的技术来解决,这些新技术就把它统称为大数据技术。从科学研究的角度来说这是非常糟糕的定义,这个定义里面充斥了各种形容词,但这已经是我们能够找到最好的定义了。

精选