今日頭條進階手冊之消除重復(fù)

ID:35208631

大?。?1.08 KB

頁數(shù):12頁

時間:2019-03-21

今日頭條進階手冊之消除重復(fù)_第1頁
今日頭條進階手冊之消除重復(fù)_第2頁
今日頭條進階手冊之消除重復(fù)_第3頁
今日頭條進階手冊之消除重復(fù)_第4頁
今日頭條進階手冊之消除重復(fù)_第5頁
資源描述:

《今日頭條進階手冊之消除重復(fù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、今日頭條取消重復(fù)篇頭條號發(fā)布的內(nèi)容,在通過審核和進入推薦系統(tǒng)之間,還有一道「難關(guān)」,那就是「消重機制」,數(shù)據(jù)表明,被「消重」是頭條號所發(fā)布內(nèi)容無推薦量的最常見的原因。一.什么是消重?我們都知道,在互聯(lián)網(wǎng)上,同樣的文章、圖片、視頻被多個媒體刊登,是很常見的情況。無論是網(wǎng)站,還是各種媒體平臺上,原創(chuàng)內(nèi)容除了原創(chuàng)來源之外,往往還會被很多其他媒體轉(zhuǎn)載或復(fù)制。如果我們用搜索引擎搜索一篇內(nèi)容,經(jīng)常會得到多個網(wǎng)址。在過去,我們只要自己篩選和判斷,哪個網(wǎng)址更權(quán)威,更有價值,再點擊去訪問就可以了。但是想象一下,如果這樣的景象是出現(xiàn)在你今日頭條的信息流里——系統(tǒng)連續(xù)給你推薦了幾篇相似的內(nèi)容

2、,會怎么樣呢?你可能會覺得:為什么要給我推薦一樣的內(nèi)容呢?系統(tǒng)應(yīng)該選擇最好的那個來源,給我推薦一次就夠了——如果我想看,看一篇就夠了,如果我不想看,那么重復(fù)推薦也沒有意義??!沒錯,所以今日頭條在推薦某篇內(nèi)容之前,必須確定這篇內(nèi)容:在系統(tǒng)里是否存在相同或者高度相似的內(nèi)容?如果存在,那么這篇內(nèi)容的來源是否是最權(quán)威、最有價值、最有可能是原創(chuàng)的來源呢?消重就是指對重復(fù)、相似、相關(guān)的文章進行分類和比對,使其不會同時或重復(fù)出現(xiàn)在用戶信息流中的過程。頭條號平臺首先會通過消重機制來決定同樣主題或內(nèi)容的文章是否有機會被推薦給更多用戶。二.消重的種種好處你可能會覺得,消重對原創(chuàng)發(fā)布者有利,

3、但對于那些善于發(fā)現(xiàn)和再加工優(yōu)質(zhì)內(nèi)容的媒體不太有利,但是綜合看來,我們覺得消重的好處是很多的,尤其對于用戶來說:優(yōu)化用戶的體驗。對用戶來說,同樣主題的文章看一篇就夠了;鼓勵原創(chuàng)!在文章相似的情況下,申明「原創(chuàng)」文章是后續(xù)獲得推薦的重要指標;給更多內(nèi)容以曝光機會。因為用戶的興趣是確定的,如果每次刷新都反復(fù)推薦類似的內(nèi)容,你發(fā)布的其他內(nèi)容不就沒有曝光機會了嗎?當(dāng)然,總體來說,這是一個有利于原創(chuàng)者的機制,這也和頭條號平臺鼓勵原創(chuàng)內(nèi)容生產(chǎn)的目標一致。三.頭條號算法中的消重過程如何判斷兩個內(nèi)容是否相同呢?如果讓人來判斷,可能就要逐字逐句地把文章讀完才能判斷得出來。通過計算機這樣去判

4、斷當(dāng)然也是可以的,不過,當(dāng)每天需要處理的內(nèi)容達到十多萬篇次的時候,這么做即使對于計算機來也太麻煩了。有沒有更簡單的方法呢?有的,通過系統(tǒng)的計算,一篇文章的文本、標題、圖片等都是可以轉(zhuǎn)換成一串?dāng)?shù)字代碼,這就像我們每個人的身份證,如果兩個人的身份證號碼一模一樣,那么就可以肯定這是兩個一樣的人了,并不一定要仔細去看他們的長相。文字信息的「身份證」也能起到類似的作用,對于圖片、視頻等信息形式,原理也是類似的。延伸閱讀:注意:此處介紹的只是計算原理,并非實際發(fā)生的計算過程。信息的「身份證」,一種更常見的稱呼是「信息指紋」,是計算機應(yīng)用領(lǐng)域里經(jīng)常用以判斷信息重復(fù)性的方法。「信息指紋

5、」的計算方法有很多種,但原理是相似的:你可能知道,不管是中文、外文還是數(shù)字,在計算機系統(tǒng)里,實際上都是以0或1的代碼形式存儲的,例如大寫字母A的ASCII編碼就是01000001,而小寫字母z的ASCII編碼是01111010(實際上也存在很多種編碼標準,ASCII是一種常見的英語編碼標準,采用8位二進制數(shù)字編碼)。這實際上就相當(dāng)于,每個字符都有一個自己專屬的信息指紋。簡單來說,計算會對文本中出現(xiàn)的不同字符的信息指紋,結(jié)合它們各自在內(nèi)容中出現(xiàn)的次數(shù),反復(fù)進行算術(shù)運算,最終得到一篇內(nèi)容的信息指紋。理論上說,如果運算足夠多的次數(shù),就會產(chǎn)生足夠獨一無二的數(shù)字結(jié)果。信息指紋的重

6、復(fù)概率有多低呢?假設(shè)我們通過上面的計算,得到一串128位的二進制數(shù)字,這在計算機系統(tǒng)里只需要占用很小的空間,但是根據(jù)「抽屜原理」,這樣的數(shù)字重復(fù)一千八百億次才能重復(fù)一次!這對于一般的信息消重來說,已經(jīng)非常足夠了??偠灾?,相同文章具有不同信息指紋,或者不同文章具有相同信息指紋的概率都幾乎是0,對于“消重”機制,不必擔(dān)心誤判,也不能心存僥幸!原理上說,不同內(nèi)容的身份證是不一樣的,而相同內(nèi)容的身份證是一樣的。并且,相似的內(nèi)容會具有相似的身份證。這是頭條號的系統(tǒng)對內(nèi)容進行消重的基礎(chǔ)。每一篇文章都有屬于自己的「身份證」,用來與平臺中的其他文章進行比對。通常有以下幾種不同的消重機

7、制:1.內(nèi)容消重與「關(guān)鍵項」在計算一篇內(nèi)容的「身份證」之后,基本上有兩種情況。其一,這是一個系統(tǒng)中獨一無二的身份證,換言之,同樣的內(nèi)容在系統(tǒng)里只有這樣一篇。對于內(nèi)容發(fā)布者來說,這恐怕是最理想的情況了,這種情況下,在向讀者推薦相同內(nèi)容時,系統(tǒng)除了推薦這一篇外,別無選擇。第二種就要復(fù)雜得多了,同時也是非常常見的情況:系統(tǒng)里存在多篇不同內(nèi)容,都具有同一張身份證。這時,系統(tǒng)就需要從這些相同內(nèi)容中選擇一篇“關(guān)鍵項”向用戶推薦。進行選擇的最終目的是保證向用戶推薦的內(nèi)容來自更權(quán)威、更有可能是原創(chuàng)來源的頭條號。如何判斷哪個頭條號更權(quán)威、更有可能是原創(chuàng)呢?

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。
关闭