在投資行業(yè),大家普遍認為另類數(shù)據(jù)是一種新出現(xiàn)的數(shù)據(jù)類型,但事實上,另類數(shù)據(jù)的“新”只是對于投資行業(yè)的,這是因為它在初期被沉淀下來的目的并非為了服務投資者,而是為了實際業(yè)務的需要而產(chǎn)生的。這樣的數(shù)據(jù)隨著時間的推移,積累到一定量的時候,就會產(chǎn)生出對公司、行業(yè)甚至宏觀經(jīng)濟都能起到一定監(jiān)測作用的數(shù)據(jù)集。
舉個例子,目前全球最大的投資行業(yè)另類數(shù)據(jù)提供商-YipitData起初收集Groupon(美國一家團購網(wǎng)站)的數(shù)據(jù)其實不是為了賣給投資人。這家公司最初期的業(yè)務是給Yipit的會員發(fā)送他們所關注的Groupon商品的打折信息。為了收集Groupon上的打折信息,Yipit用爬蟲程序獲取了絕大部分Groupon的商品銷售信息。碰巧Groupon正好是一家美股上市公司,當一些對沖基金知道了有這樣的數(shù)據(jù)后,就找到了YipitData并花大價錢買下了Groupon的數(shù)據(jù),因為個別的對沖基金分析師在當時就發(fā)現(xiàn)這樣的數(shù)據(jù)可以幫助他們更好的預測Groupon下一個季度的財務情況。YipitData管理層得到了這樣的啟發(fā)后,便把公司轉(zhuǎn)型成了一家專注為投資行業(yè)提供各種另類數(shù)據(jù)的公司。
所以,筆者認為另類數(shù)據(jù)其實并不是一種“新”的數(shù)據(jù),大部分情況下這樣的數(shù)據(jù)并不新,它只是還沒有被投資行業(yè)所廣泛運用或者是沒有被人整理成投資行業(yè)能夠使用的形式。正是這樣的特性,使得另類數(shù)據(jù)比普通的財務和宏觀數(shù)據(jù)更難于發(fā)現(xiàn)和使用,但一旦被發(fā)現(xiàn)并被分析師研究出了合理的使用方法,另類數(shù)據(jù)將為投資帶來不錯的Alpha。
接下來我們從分類上對主要的兩種另類數(shù)據(jù)進行拆分,更好的理解這兩種主流的另類數(shù)據(jù)。
按照獲取方式來分:
?可以通過爬蟲從公開渠道獲取的數(shù)據(jù);
?存放于商家、政府部門或第三方機構(gòu)的數(shù)據(jù);
爬蟲數(shù)據(jù)
先從爬蟲數(shù)據(jù)說起,爬蟲數(shù)據(jù)對于監(jiān)測互聯(lián)網(wǎng)以及高度依賴互聯(lián)網(wǎng)做為渠道的公司都可以起到一定的監(jiān)測效果。
大家可以看到,數(shù)據(jù)從網(wǎng)站上被收集下來后,呈現(xiàn)的狀態(tài)是處于原始狀態(tài)的,投資行業(yè)的大部分分析師是沒有能力對這種形式的數(shù)據(jù)進行處理的。所以這樣的數(shù)據(jù)是需要大量的數(shù)據(jù)分析員和工程師進行清洗和整合的。
以上只是一個非常簡單的舉例,但實際的爬蟲會面臨很多問題,是需要專業(yè)的工程師進行開發(fā)和維護的,并且高質(zhì)量的數(shù)據(jù)庫架構(gòu),維護和數(shù)據(jù)清洗也是需要非常專業(yè)的技術人員與設備的。對于分析師來說,不可能掌握所有的細節(jié),但對于數(shù)據(jù)獲取和清洗有一定的認知對于用好另類數(shù)據(jù)是必不可少的知識。在應用層面,我們可以通過分析某貓的數(shù)據(jù)監(jiān)測到幾百家上市公司的部分終端消費情況以及某貓的母公司的GMV情況,對于投資研究來說,是很有意義的。
爬蟲可以獲取的信息其實除了天貓這樣平臺,我們還可以通過收集某些單個公司頁面上的數(shù)據(jù)對公司的基本面進行跟蹤。比如美股上市公司好未來,由于其報名渠道已經(jīng)基本在線上了,也就意味著絕大部分開班信息都會展示在其官方頁面上。
我們可以提取出課程名,價格,地址,科目,是否滿班,學習中心數(shù)量等信息。這樣我們可以測算出課程滿課率和公司的產(chǎn)能擴張進度等關鍵運營信息。
我們可以通過數(shù)據(jù)分析,提前半年知道學而思產(chǎn)能忽然從春季的同比40%+增長降到了暑假的20%以下(暑期4月開始報名,公司10月下旬披露暑期業(yè)績)。
通過爬蟲能監(jiān)測的公司有很多,我們這次就不展開寫了。接下來再介紹一種常見的另類數(shù)據(jù)源-信用卡數(shù)據(jù)。
信用卡數(shù)據(jù)
在美國,在信用卡數(shù)據(jù)做的比較大的一家是大家熟知的萬事達。主要產(chǎn)品為-MasterCardSpendingPulse。主要覆蓋行業(yè)在汽車零售,百貨商場,超市,餐館,酒店等消費渠道數(shù)據(jù)。因為像萬事達這樣的公司在支付行業(yè)是清算中心的角色,他們所拿到的數(shù)據(jù)一般只能看到每一單交易的金額,所以他們的數(shù)據(jù)通常無法跟蹤到具體的商品,但這種數(shù)據(jù)能跟蹤到某個渠道在銷售總額和訂單數(shù)。所以信用卡數(shù)據(jù)通常是用于研究消費類的渠道,商旅或休閑產(chǎn)業(yè)等非剛需消費板塊。
除了MasterCard的數(shù)據(jù),其實很多像Mint這種提供PersonalFinance服務的App也把自己的數(shù)據(jù)做成了產(chǎn)品在投資行業(yè)里面銷售。由于所有的數(shù)據(jù)都是總量的子集,并且沒有一個數(shù)據(jù)源是百分之百無偏差的,所以不少的投資機構(gòu)會購買幾種相似作用的數(shù)據(jù)源,來進行交叉驗證,以保證判斷的準確性。
在中國,信用卡數(shù)據(jù)在2016年之前是一種非常優(yōu)質(zhì)的數(shù)據(jù)源,但之后由于手機支付的迅速普及,國內(nèi)的信用卡數(shù)據(jù)就在大部分類型的渠道監(jiān)測上失去了作用,只在奢侈品店和高級酒店等客單價非常高的渠道上還有不錯的監(jiān)測效果。
由此可見,數(shù)據(jù)質(zhì)量跟數(shù)據(jù)的收集方式有很大關系,如果收集數(shù)據(jù)的渠道出現(xiàn)了變動,此數(shù)據(jù)源將會出現(xiàn)巨大的變化,預測效果也會變差。這也是為什么筆者一直強調(diào)深度理解數(shù)據(jù)源對于后期分析的重要性。
另外需要強調(diào)的是,數(shù)據(jù)本身并不能預測任何股價走勢,但數(shù)據(jù)能幫助我們在一個新的角度去理解公司和行業(yè),能補充我們認知的不足。數(shù)據(jù)也不能代替嚴格的基本面研究,因為缺乏了對公司和行業(yè)的基本認知,使用者并不能理解數(shù)據(jù)背后的含義。數(shù)據(jù)本身沒有太大的意義,只有經(jīng)過了分析師處理和理解的數(shù)才會帶來價值。