首页

科技
手机搜狐
SOHU.COM

深度丨实验室经理如何创建大数据项目?

佚名_500638
2016-12-01
+关注

大数据是现在数据分析领域的一个热词。执掌大数据项目的实验室经理完全不需要数据科学领域行家介入就可以直接操盘大数据项目。但是如果想建立契合实际目标并进行有效时间节点管理的话,实验室经理最好对大数据治理的流程有一个基本的了解。

从小数据开始,从容不迫

首先,必须明确的一点就是,大数据项目和商业智能项目存在本质上的区别。尽管这两种项目之间的差异性很复杂,但是美国知名技术与营销顾问Eric D. Brown 【1】发布的一个图片就可以简单的描述两者之间的差别。

对于实验室经理,一开始就要做得基本功课就是搞清楚关于“大数据”这个专有名词的概念。不过当你越深刻的了解其概念时,你会发现所需接触的知识面越广,有时候甚至会一头雾水。当你向来自不同行业的人请教何为大数据时,你会得到相应不同的答案。

事实证明,到底什么是大数据,真的没有一致共识。

商业智能帮助你寻找已知问题的答案。大数据帮助你寻找未知的但却想问的问题,同时为你带来问题的答案。

展开剩余91%

为何对大数据这个专业术语的解释会得到如此广泛的却很难达成一致的答案呢?因为每个机构使用大数据的目的不同。为了让大家可以很好理解这篇文章的用意,首先我们假设探讨的大数据符合以下标准:

· 数据基本上很复杂且为非结构化

· 数据夹杂很多干扰因素且需要清理

· 数据用现有工具无法治理

当你开发大数据中存在的利好因素时,请务必弄清楚,大数据解决方案只是一种技术手段,而数据仓库只是一种架构。当你和数据处理技术分包商谈论有关问题时,你会遇到有些技术人员对你说“既然你有大数据解决方案了,那么你就完全不需要数据仓库了【2】”。

有关这方面的谈判条件涉及到方方面面,实际上当你需要一个技术方案时,大可不必为此把其他已有的资源删除。数据仓库的作用就是确保机构内部人员可以从同一个资源库中进行数据读取。

大数据的创建途径不在少数。但是当你查阅有关文献资料想知道如何创建大数据项目时,你会发现几乎所有的文章给出的意见都差不多——从一点一滴做起。初期,你可以尝试从你拥有的较小规模的子数据集着手,你甚至可以尝试采用企业外部的数据集。初始阶段,你可以让你的团队熟悉有哪些可以使用的工具进行数据的处理。只有这样才能减少压力并降低误差风险。

当你为项目的实操选配人员时,最好从机构内已有的员工当中选拔。尽管我们向来觉得管理项目需要一名有扎实专业经验的人,你可能认为在计算机科学领域有造诣并熟悉统计学的人最合适管理大数据项目,但是大多数情况下你最好找一个对面手,而不是一个只精通一方面的职业人士。

当然有人会觉得这种观点让人咋舌,但事实证明,那些已经非常成功的大数据项目的运营,都是由具有哲学思想性格特征的人员掌控。正如Darin Bartik 【3】在博文中所论述的,大数据项目的应用和苏格拉教学法很像,当你知道一个问题的答案时,要继续在已知答案的基础上抛出另一个问题寻求更深层次的秘密。

根据机构规模的不同,你可能会有自己的内部IT部门或团队。如果有的话,他们的经验是无价之宝。但从另一方面,我们已经发现一些IT部门正在尝试从网上肆意捞取各种互联网信息。尽管这种团队有很牛X的计算机展业人士——他们擅长网络技术、数据库创建或者服务器支持,但他们没有起关键作用的专业领域知识,比如说化学或者制药或任何其他的临床经验。

大数据分析与治理领域所需的关键技能就是从原始数据堆当中提取有价值的洞察信息。最理想的大数据项目就是所有的团队成员为了项目的成功而聚集到一起,同时不需要从外部引进人员。

当实验室经理选择第二种组建数据处理团队的方案时,接下来面对的另外一个棘手的问题就是如何平息机构内部部门之间的纷争,这的确是无法忽视的一个具有挑战性的团队管理问题。这时作为实验室经理,需要做的就是保持团队内部有效的沟通。

相关文章丨领导、下属能否和睦相处?就看这8个字!

需要注意的是,虽然流畅的沟通是团队有效运作的润滑剂,但是作为大数据项目经理或管理人员,他们应该与实验室经理经常交流,而不是单纯指望团队去解决经常发生的各种问题,因为当实验室经理确切了解团队所面临的问题时,他们会从自己看问题的高度找到解决问题的办法,而这些问题一般都是team leader很难预见到的。

谋可寡而不可众——曾国藩

落实大数据项目的途径有很多种,最常见的三种方式为:

·与分包商签订项目外包合同

·聘请顾问与内部团队合作

·公司内部全权操作整个项目

项目外包

虽然项目外包这种方式可以避免扰乱实验室内部运行节奏,但这种方式也隐藏一些风险。其中最大的风险其实与企业内部IT部门全权接手项目所产生的风险一样:分包商里面的一些奇葩人士虽然从数据技术等方面有经验足以成功运行这个项目,但从完成实验室目标而言,其成功的可能性微乎其微。

聘请顾问

聘请顾问作为项目系统的设计和安装指导专家无疑有其好处,尤其是当实验室内部人力资源规模有限时。这种方式存在的风险就是,你可能对顾问专家过于依赖,特别是当顾问团队离开后,留给你的可能就是超出能力之外的烂摊子。为了避免这种潜在风险的发生,你需要做的就是在聘用顾问期间,让自己的员工与顾问专家保持紧密的协作关系,并尽可能向顾问学习一切有关大数据项目运营的重要技能。

内部管理

让企业内的相关部门管理项目当然是可行的。当然也包括一些需要注意的地方。最重要的还是关于人员选拔问题,尤其是负责掌管项目的领导人员,实验室经理务必要让项目领导人清楚,运营项目是本职工作,任务的执行不存在可商量的余地。换言之,他们不应该再希望自己可以做自己平时做的事务。关键就是让项目管理者全身心投入到项目运作中,并让他们免遭其他人引诱到其他的项目当中,即便是PT的项目也不可以。

by demis

相关文章丨数据时代实验室经理应该如何挖掘其中宝贵信息?

一旦你已经确定项目管理所需的人员配置,接下来你很自然就会想到需要为他们配备哪些软件并让他们熟悉这些软件工具的操作,但这种想法是错的。

当你把选择合适的信息解决方案工具放到第一位时,这种做法和仪器工具定律(The Law of the Instrument)很像,也就是说当你拥有的唯一工具是锤子时,在你的眼里一切都会变成钉子。因此不要一开始就急于寻找项目所需的各种软件工具,相反,你需要先确定你正试图解决的业务问题或者你试图解决的商业机遇。很显然这是一个不容忽视的挑战,因为大数据项目的目标之一就是确定以前没能理顺的各种关系。

如果你不存在上文提到的这个问题,那么现在就是你建立信息/数据治理政策来管理大数据的最佳时机。我们将数据治理定义为“数据的洞察并以业务驱动政策制定”。数据治理政策可以应用到大数据交付所需六大环节的每一个阶段:收集、处理、管理、衡量、消耗及储存。

通过建立处理与指导原则,可以明确围绕数据开展的各种行为方式。大数据的治理工作要以它预期的消耗方式相一致,否则会产生让当局者不满的风险,更不要说进一步的投资问题【4】。

数据治理计划描述的是数据的收集、处理、管理、消耗以及储存的方式问题。在另外一些方面,治理计划也涉及到允许哪些人可以获取数据的问题。尽管公司内部拥有涵盖了数据技术方面的知识产权,但是各种道德约束【5】明文规定的法律法规也和数据有关,其中最主要的就是有关隐私问题。现在全球大约有80个国家出台了数据隐私法律。比如说在美国,人们不仅要必须关注联邦法规,如《萨班斯-奥克斯利法案》和《医疗保险可携性和责任法案》,还需要注意各个州出台的法规。

当把项目与大数据治理政策结合时,你应该确保项目团队的相关人员尽可能浏览最新的数据动态,以降低无用数据的产生量。我希望这个行为不会招来非议,但是如果你已经开始删除或者清除数据的话,请对数据手下留情。你的数据所具备的价值远超你所能看到的表象。因为大数据一般都是非结构化,再不济,也是以半结构化的形式存在,最可靠的做法就是保留数据当中包含了每一个与你需要的核心数据有关的元数据(换句话讲就是关于数据的数据)。尤其是当你从各种资源,比如说从卫星实验室提取数据时。

慢慢地,你就会发现自己需要采用哪些工具并培训你的团队使用工具的方法。幸运的是这个做起来还是比想象中简单很多,因为现在有很多关于数据分析的网络在线课程以及各种可以利用的大数据数软件工具。很多培训课程都是免费的,即使是付费的,其价格也很便宜。尽管很多培训课程介绍的分析环境是Linux/Unix,并使用Apache的Hadoop软件,但是,Russell Jurney的Agile Data Science【6】一书提供很多关于处理大数据以及建立所需软件环境手段的指导性意见

当你不知道选择使用哪种数据处理软件工具时,大可不必为此感到彷徨。很多软件商都有试用版软件,因此你和你的团队可以比较不同的软件,并对其进行评估,找到最适合自己项目的软件。在某些项目案例中,软件是预先集成的并配备可以直接安装和运行的虚拟机。在其他案例中,软件商会提供有关下载、配置以及运行软件的指导说明书。大多数的云服务提供商还具备在线获取系统并对其进行评估的功能。而大部分的情况就是软件商会为你提供视频协助你软件包的评估和使用。

尽管有些软件商会极力暗示你说不需要为大数据项目的筹建感到压力,他们有时也会说数据的分析在半小时内就可以搞定。而对于团队来说,不幸的就是尽管软件的使用学习经历看似是一条平缓的曲线,但是仍旧有陡坡需要克服。评估哪一款软件是你的最佳拍档的确会消耗大量时间。就以往经验来看,实验室的大数据项目大约需要经过一年半的时间才能在最后得知你的项目是成功还是失败。

by Graham Erwin

参考文献

Brown, Eric D., “What’s the difference between Business Intelligence and Big Data?,”

Torr, Mark, “Three ways to use a Hadoop data platform without throwing out your data warehouse.”

Bartik, Darin, “How Data Analytics and the Socratic Method Can Help Take Your Business to the Next Level.”

The Intersection of Big Data, Data Governance and MDM | SAS. SAS Inst.

A Unified Ethical Frame for Big Data Analysis.

Jurney, Russell, “Agile Data Science: Building Data Analytics Applications with Hadoop,”

撰稿丨John Joyce, PhD

原创翻译丨丑灿

原文标题丨Launching a Big Data Project

往期精彩内容

实验室主任不会轻易告诉你的37条潜规则化学实验室常用仪器的维护与清洗预算紧缩时如何提升实验室运营效率?

免责声明: 本文内容目的在于传递更多信息,并不代表本平台赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本平台下载使用,自负版权等法律责任。如涉及作品内容、版权和其它问题,请在30日内与本平台联系,我们将在第一时间删除内容!

帅哥为什么要拒绝美女的微信?

声明:本文由入驻搜狐号作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。

网站地图

用户反馈 合作
Copyright © 2018 Sohu.com