搜狐首页 财经 生活大爆炸11

手机搜狐

SOHU.COM

鲸SHARE丨爬虫基金:比CEO还先知道上市公司数据

JINGDATASHARE

全球金融市场正在演化为一个数据战场。

————————————

分享一篇文章,来自:阿尔法工场

作者丨疯狂药师

如我们所知,在金融市场中,谁有数据信息优势,谁就具备收获超额收益的可能。

问题是,该如何提前获得数据呢?恐怕多数人首先想到的是内幕信息。

殊不知,通过对公开数据的收集和加工,并应用于投资,也是可以获得这种优势的。

迄今,在以华尔街为中心的全球股票市场中,机构投资者通过网络爬虫技术获取领先数据,进而赢得收益战争的现象已越来越普遍。

就中国市场而言,通过我们的走访调研得知,中国私募机构们运用爬虫技术的现象亦正日趋增多。其中主力,则多为那些此前率先涉事量化交易的私募机构们。

这类爬虫私募是如何运作的,今天就为你揭示。

. 01 .

爬虫:我只是信息的搬运工

所谓爬虫,是一种能自动获取网页内容,并可以按照指定规则提取相应内容的程序。

用大白话来说,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,把看到的信息背回来。

作为一种常用的收集数据手段,爬虫往往会被数据采集公司,用来搜索出现在公共网站、社交媒体、在线社区、邮件插件上可能有价值的信息。

例如从应用程序和用户评论的下载,到航空公司和酒店通过票务网站接收预订的信息。

爬虫可以跟踪很多东西,从杂货到汽车销售的价格趋势。

分析师可以通过抓取消费者网站上产品的评论,来评估新产品的推出和产品生命周期。

下图展示的一家数据公司,不仅提供多家在美上市公司的领先数据,还提供相关的投资分析服务。

包括特斯拉(NASDAQ:TSLA)的库存数据,以及各社交网络上和用户的交互数据。

以及,不久前在香港上市的小米(HK:01810)的社交网站的数据。

当然,这是免费版的界面,相信付费版中提供的内容会更加丰富。

下面这家数据分析公司,更是覆盖多家已经上市的中概股,其中就包括刚刚登陆美股的拼多多(NASDAQ:PDD)的数据。

在一位匿名业内人士看来:“对于爬虫技术而言,难点主要在于反抓取上,被爬取方可能会针对IP、频次、请求习惯等方面做一些分析和限制,也会有图形验证码等人机验证手段防止爬取。”

他进一步表示:“其次的难点就不是爬虫的问题了,而在于庞大数据的分析和清洗上,怎么从看似杂乱的数据中分析出自己想要的内容,也是很需要技术含量的。”

精选