資源描述:
《社會(huì)論壇用戶識(shí)別論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、西安電子科技大學(xué)第二十二屆“星火杯”大學(xué)生課外學(xué)術(shù)科技作品競(jìng)賽社會(huì)科學(xué)類論文互聯(lián)網(wǎng)論壇用戶識(shí)別的研究摘要木文針對(duì)論壇用戶識(shí)別這個(gè)實(shí)際問題進(jìn)行研究,識(shí)別中需要達(dá)到如下四個(gè)結(jié)果:發(fā)現(xiàn)論壇言論領(lǐng)袖,即最具影響力的論壇人物;精確定位關(guān)注某一特定話題的用戶;識(shí)別論壇活躍用戶;發(fā)掘論壇人際關(guān)系圈。具體研究中,以數(shù)據(jù)挖掘分析理論和圖論知識(shí)為基礎(chǔ),分析不同情況,分別建立了:逼近理想點(diǎn)的排序模型、逐步篩選定位模型、基于BP?神經(jīng)網(wǎng)絡(luò)的用戶識(shí)別模型、基于圖聚類的關(guān)系圈發(fā)掘模型。在研究言論領(lǐng)袖問題中,我們對(duì)55BBS論壇的言論領(lǐng)袖進(jìn)行識(shí)別??紤]到對(duì)所有用戶進(jìn)行各項(xiàng)指標(biāo)的信息提取的不可
2、行與不必要性,以及總積分對(duì)用戶是否為言論領(lǐng)袖有一定的說服性,我們首先搜索岀該論壇的積分排名,抓取岀排位在前1%的的所有用戶。針對(duì)這些用戶,根據(jù)頁面訪問量、帖子數(shù)、積分、發(fā)帖得分、威望、平均日發(fā)帖、精華帖數(shù)這七項(xiàng)指標(biāo),我們采用了基于主成分的屬性指標(biāo)確定權(quán)重,利用SPSS軟件實(shí)現(xiàn)主成分分析,確定權(quán)垂。在此基礎(chǔ)上,我們利用逼近理想解模型對(duì)這些用戶實(shí)現(xiàn)排序,選取排名前五的用戶作為該論壇的論壇領(lǐng)袖,依次為:小教授VIVI,黑色誘力,小丸子粉絲團(tuán),shenli83,小妞月月。在研究話題用戶問題中,我們對(duì)汽車之家論壇關(guān)注樂風(fēng)汽車這一特定話題的用戶進(jìn)行定位,選取這一話題版塊前五
3、十頁的所有帖子,通過網(wǎng)絡(luò)采集器對(duì)發(fā)帖人信息進(jìn)行抓取和頻數(shù)統(tǒng)計(jì),選取前15%的用戶作為關(guān)注這一話題的用戶候選人,實(shí)現(xiàn)第一輪篩選。引入活躍專一度G的概念,分別計(jì)算每個(gè)用戶的活躍專一度值,選c取值大于的用戶,認(rèn)為是該話題的話題用戶。可得到汽車之家論壇關(guān)注樂風(fēng)汽車這一特定話題的用戶為18184354>開樂風(fēng)去西藏、杜深德、bassk>buliqi、gpclove2010>風(fēng)20088>fengghl975o在研究活躍用戶問題中,我們對(duì)DIY燒友會(huì)論壇設(shè)計(jì)活躍用戶識(shí)別系統(tǒng)。首先隨機(jī)選取100個(gè)用戶作為樣本,根據(jù)活躍積分、平均口發(fā)帖數(shù)、登錄頻率、在線時(shí)間四項(xiàng)指標(biāo)對(duì)其進(jìn)行二聚
4、類,即分成活躍用戶和非活躍用戶兩類。針對(duì)這兩類樣本使用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而得到論壇的活躍用戶識(shí)別系統(tǒng)。我們抽取了該論壇五名用戶對(duì)該系統(tǒng)進(jìn)行驗(yàn)證,得到:Travel(屬于活躍用戶),TERESA47>young263>wangjimin2718>殺手8888(屬于非活躍用戶)。在研究關(guān)系圈問題中,我們對(duì)PChome論壇進(jìn)行論壇人際關(guān)系圈的發(fā)掘,首先根據(jù)用戶之間由發(fā)帖回復(fù)確立的關(guān)系生成論壇網(wǎng)絡(luò)關(guān)系圖,再對(duì)論壇網(wǎng)絡(luò)關(guān)系圖進(jìn)行聚類,找到隱藏在圖中的用戶社區(qū)。關(guān)鍵字:逼于理想解的排序主成分分析逐步篩選神經(jīng)網(wǎng)絡(luò)聚類屮國互聯(lián)網(wǎng)發(fā)展經(jīng)歷了10年的快速增長(zhǎng)期,已經(jīng)形成較為成
5、熟的應(yīng)用。現(xiàn)在的互聯(lián)網(wǎng)正從信息單向推送模式向互動(dòng)模式轉(zhuǎn)型,互聯(lián)網(wǎng)論壇已經(jīng)成為互聯(lián)網(wǎng)企業(yè)與用戶、用戶與用戶之間重要的互動(dòng)平臺(tái)。在這樣的互動(dòng)氛圍中衍牛出了很多商業(yè)機(jī)會(huì)和運(yùn)營(yíng)難題。比如,企業(yè)如何通過論壇發(fā)掘出有商業(yè)價(jià)值的用戶?互聯(lián)網(wǎng)公司如何通過激勵(lì)用戶來維持論壇熱度??jī)沾疬@些問題和解決運(yùn)營(yíng)難題的首要條件是,企業(yè)能夠?qū)φ搲瘍?nèi)的用戶進(jìn)行有效識(shí)別。要能識(shí)別我們需要對(duì)以下四個(gè)方面進(jìn)行研究:1、言論領(lǐng)袖:發(fā)現(xiàn)論壇言論領(lǐng)袖,即最具影響力的論壇人物。2、話題用戶:精確定位關(guān)注某一特定話題的用戶3、活躍用戶:識(shí)別論壇活躍用戶。4^關(guān)系圈:發(fā)掘論壇人際關(guān)系圈。研究這四個(gè)方面時(shí)分別從不同
6、角度出發(fā):言論領(lǐng)袖的發(fā)現(xiàn)可以從其所發(fā)帖子的跟帖數(shù)量、精華貼數(shù)、置頂時(shí)間、發(fā)帖總數(shù)等變量切入,并進(jìn)行綜合評(píng)價(jià)。話題用戶的定位可從其主要跟帖主題、談?wù)搩?nèi)容判斷。不需要完全準(zhǔn)確,大概識(shí)別出范圍即可。例如,diybbs.itl68.com論壇中對(duì)游戲話題非常關(guān)注的用戶?;钴S用戶可從登錄頻率、參與話題數(shù)量等方面綜合評(píng)價(jià)。關(guān)系圈可從帖子關(guān)聯(lián)關(guān)系等方面綜合評(píng)價(jià)影響力。下面是對(duì)這四個(gè)關(guān)鍵的內(nèi)容進(jìn)行具體分析:研究網(wǎng)絡(luò)論壇中的言論領(lǐng)袖,即對(duì)最具影響力的論壇人物進(jìn)行識(shí)別。首先,從該論壇所有注冊(cè)用戶中依據(jù)積分或金幣數(shù)排名取排位靠前的用戶,再對(duì)這些用戶根據(jù)各項(xiàng)指標(biāo)進(jìn)行綜合評(píng)價(jià),由綜合評(píng)價(jià)
7、值對(duì)這些用戶進(jìn)行排序,根據(jù)實(shí)際需要選擇前一或前二名即為該論壇的論壇領(lǐng)袖。綜合評(píng)價(jià)的方法有多種,諸如模糊綜合評(píng)判、灰色關(guān)聯(lián)等,這里評(píng)價(jià)一個(gè)用戶是否為領(lǐng)袖人物的各項(xiàng)指標(biāo)包括:跟帖數(shù)量、精華貼數(shù)、置頂時(shí)間、發(fā)帖總數(shù)、影響力、威望、響應(yīng)率(回復(fù)數(shù)與點(diǎn)擊數(shù)的比值,所有帖子求平均)、認(rèn)同值(正響應(yīng)值占相應(yīng)總數(shù)的比例如投票結(jié)果、頂、拍磚之類的)、頁面訪問量等,根據(jù)不同論壇的實(shí)際不同設(shè)置可以任意選擇可以實(shí)現(xiàn)的指標(biāo)作為其評(píng)判標(biāo)準(zhǔn)。對(duì)于此種多屬性問題,可以從借助“空間距離”概念的角度來解決,這樣就可以用“逼近理想解的排序模型”,即TOPSIS法。其過程為:對(duì)評(píng)價(jià)對(duì)象的各指標(biāo)均找出最
8、優(yōu)值,設(shè)成理想解;對(duì)評(píng)價(jià)