搜狐首页 科技 法医秦明

手机搜狐

SOHU.COM

深度丨实验室经理如何创建大数据项目?

大数据是现在数据分析领域的一个热词。执掌大数据项目的实验室经理完全不需要数据科学领域行家介入就可以直接操盘大数据项目。但是如果想建立契合实际目标并进行有效时间节点管理的话,实验室经理最好对大数据治理的流程有一个基本的了解。

从小数据开始,从容不迫

首先,必须明确的一点就是,大数据项目和商业智能项目存在本质上的区别。尽管这两种项目之间的差异性很复杂,但是美国知名技术与营销顾问Eric D. Brown 【1】发布的一个图片就可以简单的描述两者之间的差别。

对于实验室经理,一开始就要做得基本功课就是搞清楚关于“大数据”这个专有名词的概念。不过当你越深刻的了解其概念时,你会发现所需接触的知识面越广,有时候甚至会一头雾水。当你向来自不同行业的人请教何为大数据时,你会得到相应不同的答案。

事实证明,到底什么是大数据,真的没有一致共识。

商业智能帮助你寻找已知问题的答案。大数据帮助你寻找未知的但却想问的问题,同时为你带来问题的答案。

为何对大数据这个专业术语的解释会得到如此广泛的却很难达成一致的答案呢?因为每个机构使用大数据的目的不同。为了让大家可以很好理解这篇文章的用意,首先我们假设探讨的大数据符合以下标准:

· 数据基本上很复杂且为非结构化

· 数据夹杂很多干扰因素且需要清理

· 数据用现有工具无法治理

当你开发大数据中存在的利好因素时,请务必弄清楚,大数据解决方案只是一种技术手段,而数据仓库只是一种架构。当你和数据处理技术分包商谈论有关问题时,你会遇到有些技术人员对你说“既然你有大数据解决方案了,那么你就完全不需要数据仓库了【2】”。

有关这方面的谈判条件涉及到方方面面,实际上当你需要一个技术方案时,大可不必为此把其他已有的资源删除。数据仓库的作用就是确保机构内部人员可以从同一个资源库中进行数据读取。

大数据的创建途径不在少数。但是当你查阅有关文献资料想知道如何创建大数据项目时,你会发现几乎所有的文章给出的意见都差不多——从一点一滴做起。初期,你可以尝试从你拥有的较小规模的子数据集着手,你甚至可以尝试采用企业外部的数据集。初始阶段,你可以让你的团队熟悉有哪些可以使用的工具进行数据的处理。只有这样才能减少压力并降低误差风险。

精选