資源描述:
《【移動(dòng)互聯(lián)網(wǎng)必讀】手機(jī)上的大數(shù)據(jù)(三):手機(jī)上的閱讀》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、【編者按】本文由百分點(diǎn)信息無(wú)線業(yè)務(wù)部高級(jí)總監(jiān)李曉東、TalkingDataCOO徐懿以及成都電子科大的龔亮聯(lián)合撰寫?! ≡谝苿?dòng)互聯(lián)網(wǎng)所覆蓋的日常生活中,用戶隨時(shí)隨地都在產(chǎn)生數(shù)據(jù),數(shù)據(jù)的產(chǎn)生以及獲取在現(xiàn)在的移動(dòng)互聯(lián)網(wǎng)上已經(jīng)不是什么難以攻破的難題。需要我們面對(duì)的是從海量數(shù)據(jù)的分析中得到我們所需要的真正信息。 手機(jī)大數(shù)據(jù)的組織與應(yīng)用 手機(jī)上的大數(shù)據(jù)對(duì)于移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)早期無(wú)疑具有非常大的指導(dǎo)意義,但并不是所有的手機(jī)上產(chǎn)生的大數(shù)據(jù)都會(huì)那么有意義。比如說(shuō)社會(huì)媒體—微博,每天也會(huì)產(chǎn)生大量的數(shù)據(jù),但多數(shù)都是沒有意義的?! ?/p>
2、手機(jī)大數(shù)據(jù)的組織與應(yīng)用 手機(jī)上產(chǎn)生的大數(shù)據(jù)需要重新組織方能揭示出有意義的信息?! ≡诂F(xiàn)今的時(shí)代,大數(shù)據(jù)本身不是問(wèn)題,你從各個(gè)渠道都可能獲得海量的數(shù)據(jù);我們每個(gè)人每天都要生產(chǎn)很大量的數(shù)據(jù),關(guān)鍵的問(wèn)題是如何處理、分析這些數(shù)據(jù)。數(shù)據(jù)不處理、不分析,就像Mary舉的例子一樣,就是一堆稻草,毫無(wú)價(jià)值。一些事 稻草堆里尋針 數(shù)據(jù)處理、分析就是要從一大垛稻草堆里面挑出一根針?! ∵@句話有兩層含義: 無(wú)論我們從何種渠道,通過(guò)何種方式獲得的數(shù)據(jù),大量的數(shù)據(jù)是沒有意義的,這其中只有少量的數(shù)據(jù)是有效地,可以從中得出一些有規(guī)律
3、、有價(jià)值的信息的,原始數(shù)據(jù)需要清洗、整理;(這一點(diǎn)對(duì)于移動(dòng)互聯(lián)網(wǎng)更為明顯,一般來(lái)說(shuō),幾乎80%-90%的移動(dòng)應(yīng)用數(shù)據(jù)都是毫無(wú)價(jià)值的,只有不到10%-20%左右的數(shù)據(jù)才包含后續(xù)分析所需要的信息)i 我們需要通過(guò)后續(xù)的數(shù)據(jù)挖掘的工作,從雜亂無(wú)章的稻草堆里找出遺落在層層表象下面的一根針,而非一根稻草!這顯然,不是簡(jiǎn)單通過(guò)統(tǒng)計(jì)就可以得出的;是比統(tǒng)計(jì)分析更為復(fù)雜的算法,去從簡(jiǎn)單關(guān)聯(lián)過(guò)度復(fù)雜邏輯的層面。 從上一章中,我們知道手機(jī)上的大數(shù)據(jù)的來(lái)源多種多樣,不同的移動(dòng)互聯(lián)入口、不同的應(yīng)用都會(huì)導(dǎo)致不同數(shù)據(jù)的產(chǎn)生,而這些不同的
4、數(shù)據(jù)又支撐不同的業(yè)務(wù),并且不同的業(yè)務(wù)之間還可能存在一些交叉應(yīng)用。所以針對(duì)這些特點(diǎn),下面我們根據(jù)這些特點(diǎn)來(lái)對(duì)大數(shù)據(jù)的組織做一個(gè)簡(jiǎn)單介紹,手機(jī)大數(shù)據(jù)的組織方式可以采用如下圖的結(jié)構(gòu)?! ∈謾C(jī)大數(shù)據(jù)的組織方式 從上面的結(jié)構(gòu)可以看出,手機(jī)大數(shù)據(jù)的組織主要分為以下三個(gè)部分:原始數(shù)據(jù)存儲(chǔ)層,計(jì)算層和業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層 原始數(shù)據(jù)存儲(chǔ)層 主要存儲(chǔ)不同入口產(chǎn)生的數(shù)據(jù),而不同入口不同數(shù)據(jù)域也分開并存此時(shí)各個(gè)數(shù)據(jù)集是彼此獨(dú)立,數(shù)據(jù)集之間沒有任何聯(lián)系方式。這樣做的好處就是能最大限度的保證原始數(shù)據(jù)的完善性,正確性。 計(jì)算層互聯(lián)網(wǎng)的一些
5、事 該層的主要任務(wù)是對(duì)原始數(shù)據(jù)存儲(chǔ)層存取的數(shù)據(jù)進(jìn)行挖掘處理,并將挖掘結(jié)果按照不同業(yè)務(wù)進(jìn)行分類。挖掘處理的大致分為以下兩點(diǎn):①對(duì)不同數(shù)據(jù)域進(jìn)行內(nèi)部分析,挖掘。②對(duì)不同數(shù)據(jù)域之間進(jìn)行關(guān)聯(lián)分析挖掘。結(jié)果分類主要是將挖掘出的結(jié)果進(jìn)行分類,比如音樂、餐飲、廣告等應(yīng)用。i 業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層一些事 業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層主要是對(duì)計(jì)算層產(chǎn)出的數(shù)據(jù)進(jìn)行分開存儲(chǔ),以為上層應(yīng)用提供更明確的數(shù)據(jù)接口?! ‘?dāng)我們對(duì)數(shù)據(jù)進(jìn)行有效地存儲(chǔ)管理后,我們就可以利用這些大數(shù)據(jù)進(jìn)行一些有意義的工作,尤其是對(duì)于移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)早期無(wú)疑具有非常大的指導(dǎo)意義,下
6、面我們以手機(jī)閱讀為例,對(duì)手機(jī)上的大數(shù)據(jù)如何應(yīng)用做一個(gè)說(shuō)明?! ∈謾C(jī)上的閱讀 手機(jī)閱讀作為移動(dòng)互聯(lián)網(wǎng)目前為數(shù)不多還算有一定共性和沉淀應(yīng)用之一,是我們?cè)缙谑謾C(jī)應(yīng)用研究的對(duì)象。所謂“共性”和“沉淀”,就是針對(duì)手機(jī)應(yīng)用“碎片化”而言。手機(jī)閱讀雖然也有大量的碎片時(shí)間,但已經(jīng)逐漸形成了一早一晚寶貴的“床上”連片時(shí)間,有相對(duì)比較完整時(shí)間片上呈現(xiàn)的行為習(xí)慣,有相對(duì)比較完整的用戶在移動(dòng)互聯(lián)網(wǎng)上體現(xiàn)出來(lái)的偏好信息?! ”M管很多報(bào)告都顯示,用戶在互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)上的表征有著巨大的差異,但我依然相信,人們?cè)诿鎸?duì)一段文字,一個(gè)圖片上
7、的喜好、感覺是不會(huì)變的。因?yàn)槿诵允遣粫?huì)輕易改變的?;ヂ?lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的用戶行為之所以不同,那是因?yàn)閼?yīng)用本身使用場(chǎng)景的不同,解決問(wèn)題的不同所導(dǎo)致的。并不是一個(gè)人在互聯(lián)網(wǎng)上是一個(gè)性格,而到了移動(dòng)互聯(lián)網(wǎng)上就是另外一個(gè)人生了?;ヂ?lián)網(wǎng)的一些事 這是我們研究手機(jī)閱讀上大數(shù)據(jù)的初衷?! ∠旅妫覀円砸粋€(gè)曾經(jīng)做過(guò)的手機(jī)閱讀項(xiàng)目為例,主要從發(fā)現(xiàn)問(wèn)題、解決問(wèn)題、結(jié)果驗(yàn)證三個(gè)方面來(lái)為大家展開?! “l(fā)現(xiàn)問(wèn)題 通過(guò)對(duì)手機(jī)閱讀數(shù)據(jù)的挖掘分析,我們發(fā)現(xiàn)了如下幾個(gè)問(wèn)題: (1)城市與城市之間的閱讀行為相似 我們統(tǒng)計(jì)過(guò)杭州、廣州、深圳在
8、某一時(shí)間段內(nèi)用戶的閱讀數(shù)據(jù),得到了這三個(gè)城市這三個(gè)月熱門前二十的數(shù)據(jù)?! ∠卤斫y(tǒng)計(jì)的是杭州與廣州深圳這兩個(gè)城市在該時(shí)間段內(nèi)的熱門閱讀圖書重合數(shù)數(shù)?! 谋碇?,我們可以猜測(cè),杭州與深圳、廣州這兩個(gè)城市之間確實(shí)存在著一定程度上的閱讀相似性?! ∮?jì)算公式為:Sim(A,B)=Same(A,B)*2/[Count(A)+Count(B)] Sim(A,B)表示的是城市A,B的閱讀相似性。Sa