搜狐首页 科技 宫主大人2

手机搜狐

SOHU.COM

数据科学家与数据工程师

数据科学家和数据工程师的主要区别,可以用ETL和DAD的区别来解释。

ETL(提取/变换/载入)是数据工程师,还有数据架构师或数据库管理员(DBA)的职责。DAD(发现/获取/提炼)是数据科学家的职责。

数据工程师往往把重点放在软件工程、数据库设计、生产环境代码上,并确保数据在来源(在那里它被收集)和目的地之间平稳地流动(在目的地那里通过统计摘要提取和处理,或通过数据科学算法产生结果,并最终转移到源或其他地方)。数据科学家却需要了解数据的流动和如何优化(尤其是使用Hadoop时)。实际上不是优化数据流本身,而是数据处理的步骤,从数据中提取出价值。数据科学家与工程师和商业人员一起工作,定义指标、设计数据收集方案,并确保数据科学流程与企业数据系统(存储、数据流)有效地集成。对于在小公司工作的数据科学家,尤其如此,这也是数据科学家应该能编写可被工程师重复使用的代码的原因。

有时数据工程师也操作DAD,有时数据科学家也操作ETL,但这并不常见,且他们通常是在公司内部才这么做。例如,数据工程师可以做一些统计分析,以优化一些数据库流程,而数据科学家可以做一些数据库管理,以管理一个保存汇总信息的、小型的、本地的私有数据库。

DAD包含以下内容。

发现:识别良好的数据源和指标。有时(与数据工程师和业务分析师一起工作),对应该创建的数据提出需求。获取:获取数据,有时通过API、网络爬虫、互联网下载或数据库,有时是从内存数据库获取数据。提炼:从数据中提取信息,做出决策,增加投资回报率,并采取行动(比如,在自动投标系统中,确定最佳的投标价格)。它包括以下内容。

— 通过创建数据字典和进行探索性分析,对数据进行探索。

— 清洗数据杂质。

— 通过数据汇总进一步提炼数据,有时是通过多层汇总或分层汇总来实现的。

— 对数据进行统计分析(有时会采取像实验设计这样的做法,所以在前面的“获取”阶段也可以进行),自动和手动都可以。可能需要设计统计模型,也可能不需要。

— 在某些自动过程中呈现结果或集成结果。

数据科学是计算机科学、商业工程、统计学、数据挖掘、机器学习、运筹学、六西格玛、自动化和行业知识的交叉点。这些不同的领域,加上业务的愿景和行动,汇集了一系列的技术、流程和方法。数据科学是连接不同组件的过程,有助于业务优化,并消除那些降低业务效率的孤岛。它也有自己独特的核心,(例如)包括以下主题。

精选