今日頭條是怎么去辨別你的文章是原創還是偽原創的?
首先要明確什么叫原創和非原創的界限。
原創:按傳統出版行業行規,長篇文章,在內容核心有獨創性,文字表述上,引用他人內容的比例不超過30%,也就是說,70%的內容得是自己寫的,這是判斷原創的前提,否則有可能被判定為抄襲。
非原創:主要內容直接使用他人的內容,內容核心沒用獨創性,東拼西湊。
如何判斷原創與非原創?
在沒用人工智能的機器判斷之前,判斷方式有兩種,一是人工判斷,限于判斷者的記憶和經驗,多見于比較專業的領域,判斷者多為該領域專家,可利用行業資源協同判斷。這種判斷方式過于依賴人員的個人知識儲備,比較片面,遺漏率比較高。二是互聯網出現后的網絡查重,原理比較簡單,摘取內容中的片段(一句話,衣一個段落等),在互聯網檢索查詢,如果跟互聯網已有內容重合度比較高的,可能判斷為非原創。這種判斷機制的缺陷在于簡單粗暴,對摘取檢索的內容的依賴度高,容易出現誤判。
頭條的內容原創判斷機制。
在目前大數據和人工智能自然語言深度學習技術兩項熱門技術的基礎上,實現機器自動判斷。
具體的算法不變探知,技術原理比較開源:一是大數據,即判斷內容是否在互聯網存在過的對比數據,除頭條自己儲備的數據外,主要是對比公網的開放數據,可以理解為頭條要做一次類似內外部數據之間的“百度”搜索查重。
二是內容指紋構建。大家都知道每個人的指紋是不同的,有獨特性的,一篇文章、一本書也存在獨特性,將其中的獨特性記錄下來,這就是內容指紋構建。實現這一目標,依賴于自然語言技術的成熟,機器會對內容中的關鍵字詞先做拆分處理,再通過前后調換順序等多種組合(可以理解為算法模型),讓機器理解有效的組合,再與其他內容對比。
這種技術的原創判斷準確度會高一些,但自然語言處理技術是人工智能領域難度最大的,頭條的技術并非無懈可擊,也有很多疏漏,存在較大的優化空間。