今日頭條進階手冊之消除重復

今日頭條進階手冊之消除重復

ID:35208631

大?。?1.08 KB

頁數:12頁

時間:2019-03-21

今日頭條進階手冊之消除重復_第1頁
今日頭條進階手冊之消除重復_第2頁
今日頭條進階手冊之消除重復_第3頁
今日頭條進階手冊之消除重復_第4頁
今日頭條進階手冊之消除重復_第5頁
資源描述:

《今日頭條進階手冊之消除重復》由會員上傳分享,免費在線閱讀,更多相關內容在應用文檔-天天文庫。

1、今日頭條取消重復篇頭條號發(fā)布的內容,在通過審核和進入推薦系統(tǒng)之間,還有一道「難關」,那就是「消重機制」,數據表明,被「消重」是頭條號所發(fā)布內容無推薦量的最常見的原因。一.什么是消重?我們都知道,在互聯(lián)網上,同樣的文章、圖片、視頻被多個媒體刊登,是很常見的情況。無論是網站,還是各種媒體平臺上,原創(chuàng)內容除了原創(chuàng)來源之外,往往還會被很多其他媒體轉載或復制。如果我們用搜索引擎搜索一篇內容,經常會得到多個網址。在過去,我們只要自己篩選和判斷,哪個網址更權威,更有價值,再點擊去訪問就可以了。但是想象一下,如果這樣的景象是出現在你今日頭條的信息流里——系統(tǒng)連續(xù)給你推薦了幾篇相似的內容

2、,會怎么樣呢?你可能會覺得:為什么要給我推薦一樣的內容呢?系統(tǒng)應該選擇最好的那個來源,給我推薦一次就夠了——如果我想看,看一篇就夠了,如果我不想看,那么重復推薦也沒有意義??!沒錯,所以今日頭條在推薦某篇內容之前,必須確定這篇內容:在系統(tǒng)里是否存在相同或者高度相似的內容?如果存在,那么這篇內容的來源是否是最權威、最有價值、最有可能是原創(chuàng)的來源呢?消重就是指對重復、相似、相關的文章進行分類和比對,使其不會同時或重復出現在用戶信息流中的過程。頭條號平臺首先會通過消重機制來決定同樣主題或內容的文章是否有機會被推薦給更多用戶。二.消重的種種好處你可能會覺得,消重對原創(chuàng)發(fā)布者有利,

3、但對于那些善于發(fā)現和再加工優(yōu)質內容的媒體不太有利,但是綜合看來,我們覺得消重的好處是很多的,尤其對于用戶來說:優(yōu)化用戶的體驗。對用戶來說,同樣主題的文章看一篇就夠了;鼓勵原創(chuàng)!在文章相似的情況下,申明「原創(chuàng)」文章是后續(xù)獲得推薦的重要指標;給更多內容以曝光機會。因為用戶的興趣是確定的,如果每次刷新都反復推薦類似的內容,你發(fā)布的其他內容不就沒有曝光機會了嗎?當然,總體來說,這是一個有利于原創(chuàng)者的機制,這也和頭條號平臺鼓勵原創(chuàng)內容生產的目標一致。三.頭條號算法中的消重過程如何判斷兩個內容是否相同呢?如果讓人來判斷,可能就要逐字逐句地把文章讀完才能判斷得出來。通過計算機這樣去判

4、斷當然也是可以的,不過,當每天需要處理的內容達到十多萬篇次的時候,這么做即使對于計算機來也太麻煩了。有沒有更簡單的方法呢?有的,通過系統(tǒng)的計算,一篇文章的文本、標題、圖片等都是可以轉換成一串數字代碼,這就像我們每個人的身份證,如果兩個人的身份證號碼一模一樣,那么就可以肯定這是兩個一樣的人了,并不一定要仔細去看他們的長相。文字信息的「身份證」也能起到類似的作用,對于圖片、視頻等信息形式,原理也是類似的。延伸閱讀:注意:此處介紹的只是計算原理,并非實際發(fā)生的計算過程。信息的「身份證」,一種更常見的稱呼是「信息指紋」,是計算機應用領域里經常用以判斷信息重復性的方法?!感畔⒅讣y

5、」的計算方法有很多種,但原理是相似的:你可能知道,不管是中文、外文還是數字,在計算機系統(tǒng)里,實際上都是以0或1的代碼形式存儲的,例如大寫字母A的ASCII編碼就是01000001,而小寫字母z的ASCII編碼是01111010(實際上也存在很多種編碼標準,ASCII是一種常見的英語編碼標準,采用8位二進制數字編碼)。這實際上就相當于,每個字符都有一個自己專屬的信息指紋。簡單來說,計算會對文本中出現的不同字符的信息指紋,結合它們各自在內容中出現的次數,反復進行算術運算,最終得到一篇內容的信息指紋。理論上說,如果運算足夠多的次數,就會產生足夠獨一無二的數字結果。信息指紋的重

6、復概率有多低呢?假設我們通過上面的計算,得到一串128位的二進制數字,這在計算機系統(tǒng)里只需要占用很小的空間,但是根據「抽屜原理」,這樣的數字重復一千八百億次才能重復一次!這對于一般的信息消重來說,已經非常足夠了??偠灾?,相同文章具有不同信息指紋,或者不同文章具有相同信息指紋的概率都幾乎是0,對于“消重”機制,不必擔心誤判,也不能心存僥幸!原理上說,不同內容的身份證是不一樣的,而相同內容的身份證是一樣的。并且,相似的內容會具有相似的身份證。這是頭條號的系統(tǒng)對內容進行消重的基礎。每一篇文章都有屬于自己的「身份證」,用來與平臺中的其他文章進行比對。通常有以下幾種不同的消重機

7、制:1.內容消重與「關鍵項」在計算一篇內容的「身份證」之后,基本上有兩種情況。其一,這是一個系統(tǒng)中獨一無二的身份證,換言之,同樣的內容在系統(tǒng)里只有這樣一篇。對于內容發(fā)布者來說,這恐怕是最理想的情況了,這種情況下,在向讀者推薦相同內容時,系統(tǒng)除了推薦這一篇外,別無選擇。第二種就要復雜得多了,同時也是非常常見的情況:系統(tǒng)里存在多篇不同內容,都具有同一張身份證。這時,系統(tǒng)就需要從這些相同內容中選擇一篇“關鍵項”向用戶推薦。進行選擇的最終目的是保證向用戶推薦的內容來自更權威、更有可能是原創(chuàng)來源的頭條號。如何判斷哪個頭條號更權威、更有可能是原創(chuàng)呢?

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。