搜狐首页 科技 法医秦明

手机搜狐

SOHU.COM

大数据除了Hadoop,还有Scrapy

作者:佚名

链接:http://www.thebigdata.cn/Hadoop/31539.html

来源:zoues

一、先来扯扯大数据

互联网+概念的兴起,中国的创业者几乎把互联网+这趟车开进了所有领域,传统领域的商家人心惶惶,言必谈互联网+,仿佛不套点互联网的概念都不好意思宣传自家产品;而赶在这波潮流之前的正是燥热至今的“ 大数据 ”。

在这个上到各界研究机构、管理部门、企业,下到各大论坛、媒体、甚至商贩都能跟你聊“大数据”,你是不是觉得不拽点词儿都不敢出门。

可谁真正解析大数据背后的含义?从早期依赖结构化数据库的挖掘分析发展到现今海量、多源、非结构数据需要依赖并行算法才能解决数据的处理瓶颈,也事实上铸就了Hadoop、Spark这些技术脱颖而出;然而大数据所带来的数据噪声、真实性、完整性、解释性、误导性、合法性等等却都是不可忽视的挑战。

我们谈大数据,就像男人谈那玩意,似乎不加一个“大”就显得不够用似的,但骚年你要明白啊,科学证明,管不管用,还真不靠大。大固然可以吹嘘,但重点你还得问问家里的媳妇儿那啥感受呐( 污了… )。

小编觉得企业利用好数据修炼好内功才是重点,大数据是,小数据也可以是,深度学习是,普通数据分析也可以是。

那么不得不说的一个最核心的问题来了,在这个信息通达到任意一个生活碎片都可能产生海量交互数据的环境,除了Hadoop、除了机器学习,回归到数据的本源,你是不是可以和别人侃侃爬虫、侃侃Scrapy(读音:[ skre?p ])

除了你的产品外,你真的拥有大数据么?

如何获取更广泛的外部数据?

是开放数据API接口?

还是几个半死不活的所谓数据交易市场?

显然太过局限,那么下面就来介绍下这个可以自定义获取几乎所有能被访问到的网站、APP数据的python爬虫框架-Scrapy。

目前,除了搜索引擎爬虫外,主流的被普遍大众所使用的技术有:

精选