據相關資料顯示,在中國至少有10萬的全職數據標注員以及達到100萬的兼職數據標注員。
看到這個數據,不禁想問數據標注到底是一個怎樣的行業?
其實早在1998年第一家標注公司成立的時候,該行業就已經出現,只是那時人工智能尚未興起,數據應用相對較少,直到2011年以后針對人工智能的數據標注才逐漸出現。
人工智能行業離不開數據標注行業。為什么這么說呢?
因為對于人工智能企業來說,優質的數據是不可或缺的。換而言之,數據的真正價值不在于數據本身,而在于數據背后所反映出的真實性與科學性。能夠對數據進行分析、開發和利用,從中創造新的價值,取得實際應用效果這才實現了數據的價值,而數據標注就是體現數據價值的過程。
最初,由于數據標注的需求量不是太多,基本是由公司內部的工程師或者算法團隊自己完成。
但隨著人工智能的廣泛應用和普及,計算機機器深度學習的不斷深入,對數據的需求與日俱增,那大量的數據從何而來呢?
于是專業的數據標注員產生了。數據標注員相當于互聯網上的“編輯師”,用一些數據標注工具,對大量文本、圖片、語音、視頻等數據進行歸類、整理、糾錯和批注等工作。
任何一家為人工智能企業提供數據標注服務的公司都離不開“編輯師”這樣的角色。畢竟人類的認知一直領先于機器智慧一段距離,目前的AI還無法勝任數據標注員的工作,機器學習依賴人類“喂食”,而填飽機器的“美味佳肴”則需要標注員們烹飪。
在大數據時代下,各行業都面臨著新的機遇與挑戰,作為與人工智能密切相關的數據標注行業更是如此。關于數據標注行業還有更多未知等待我們去探索。
大數據的基礎,離不開人工標注
這么多的平臺,這么大的數據量,但是,中國人口太多了,14億人口,一年多點的時間內,融入這個行業的公司,團體,多達幾千上萬家。
大的公司,全職幾百人,兼職幾萬人,小的公司,全職十幾人甚至幾十人,兼職也能多達幾百上千。
于是很多人就喊,數據標注的冬天已經到了,現在是數據的枯竭期,確不想一下,一開始加入這個行業的是什么人?微商,刷單團體,網游工作室,打碼人士,稍微懂點技術的廣告聯盟轉來的人,百度SSP過來的人,自媒體人士。擴張的手段更惡劣,虛假宣傳,無限拉下線,造謠有關系,具體點說,就是傳銷模式。
傳銷模式就是一傳十,十傳百
他們不是靠自己投入去賺錢,而是靠拿到數據,然后招募下線,轉包出去,收代理費去賺錢,他們的下線一旦快賠了,重新轉移風險,在找下一級;或者第二種模式,拿到數據,吃提成,往下放。
這不是數據標注行業的冬天,而是數據標注行業正規團體的冬天,是傳銷式擴張團體的春天。
行業的冬天,整個團體只能尋找新出路
平臺本身就沒問題了嗎?各大數據平臺規章制度不完善,用人年輕化的,承受不住馬屁攻勢;用人中年化的,承受不住金錢攻勢;用人穩妥化的,承受不住人情攻勢。