資源描述:
《房?jī)r(jià)的未來走勢(shì)分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、2011年商丘師范學(xué)院數(shù)學(xué)建模模擬練習(xí)承諾書我們仔細(xì)閱讀了商丘師范學(xué)院數(shù)學(xué)建模模擬練習(xí)的競(jìng)賽規(guī)則。我們完全明白,在競(jìng)賽開始后參賽隊(duì)員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與本隊(duì)以外的任何人(包括指導(dǎo)教師)研究、討論與賽題有關(guān)的問題。我們知道,抄襲別人的成果是違反競(jìng)賽規(guī)則的,如果引用別人的成果或其他公開的資料(包括網(wǎng)上查到的資料),必須按照規(guī)定的參考文獻(xiàn)的表述方式在正文引用處和參考文獻(xiàn)中明確列出。我們鄭重承諾,嚴(yán)格遵守競(jìng)賽規(guī)則,以保證競(jìng)賽的公正、公平性。如有違反競(jìng)賽規(guī)則的行為,我們?cè)敢獬袚?dān)由此引起的一切后果。我們的參賽報(bào)名號(hào)為:12參賽組別(本科或?qū)??/p>
2、):本科參賽隊(duì)員(簽名):隊(duì)員1:丁維隊(duì)員2:劉明明隊(duì)員3:賈淑丹122011年商丘師范學(xué)院建模模擬練習(xí)編號(hào)專用頁(yè)參賽隊(duì)伍的參賽號(hào)碼:(請(qǐng)各個(gè)參賽隊(duì)提前填寫好):競(jìng)賽統(tǒng)一編號(hào)(由競(jìng)賽組委會(huì)送至評(píng)委團(tuán)前編號(hào)):競(jìng)賽評(píng)閱編號(hào)(由競(jìng)賽評(píng)委團(tuán)評(píng)閱前進(jìn)行編號(hào)):122011年商丘師范學(xué)院數(shù)學(xué)建模模擬練習(xí)題目搜索引擎與PageRank算法的改進(jìn)摘要在網(wǎng)絡(luò)發(fā)達(dá)的今天,上網(wǎng)的用戶和網(wǎng)上的信息呈指數(shù)形式飛速增長(zhǎng),然而當(dāng)單個(gè)用戶面對(duì)整個(gè)Internet的海量信息時(shí),用戶往往感到很難找到他真正需要的有用信息。搜索引擎是當(dāng)前廣泛被采用的一項(xiàng)技術(shù),每天都要無數(shù)的Internet用戶通過
3、搜索引擎查詢他們所需要的信息,它對(duì)互聯(lián)網(wǎng)的普及尤為重要,只有一個(gè)合理的搜索引擎排序算法才可為互聯(lián)網(wǎng)營(yíng)造一個(gè)公平的競(jìng)爭(zhēng)環(huán)境。在問題一中,考察Google的PageRank算法,應(yīng)用隨機(jī)沖浪模型,引入阻尼系數(shù),給出了比較合理的PageRank算法模型,并假設(shè)在一個(gè)封閉的有限的網(wǎng)頁(yè)鏈接中,運(yùn)用牛頓迭代法,求出各個(gè)網(wǎng)頁(yè)的PageRank值,并對(duì)他們進(jìn)行網(wǎng)頁(yè)排名。在問題二中,通過網(wǎng)上大量資料查詢,作為搜索引擎的建設(shè)者,我們采用了ClusterRank算法,用K-means算法對(duì)搜索引擎搜索到的網(wǎng)頁(yè)進(jìn)行聚類,分為r個(gè)聚簇,結(jié)合PageRank算法和網(wǎng)頁(yè)點(diǎn)擊率對(duì)聚簇后的網(wǎng)頁(yè)
4、進(jìn)行排序,盡量為用戶提供較權(quán)威的網(wǎng)頁(yè),并通過瀏覽這些網(wǎng)頁(yè)使用戶易于明確自己的檢索需求。經(jīng)過問題一和問題二的分析,在問題三中我們可以從鏈接量、鏈接質(zhì)量、關(guān)鍵字等方面提出如何提高網(wǎng)站排名的方法,并根據(jù)實(shí)際對(duì)所提出的方法進(jìn)行完善。關(guān)鍵字:PageRank算法、搜索引擎、隨機(jī)沖浪模型、網(wǎng)頁(yè)排名、K-means算法12一、問題重述隨著信息技術(shù)的不斷發(fā)展,特別是互聯(lián)網(wǎng)應(yīng)用的迅速普及,網(wǎng)絡(luò)規(guī)模的爆炸性增長(zhǎng),網(wǎng)上的信息正以幾何級(jí)的速度在增加。如何在茫?;ヂ?lián)網(wǎng)中找到用戶所關(guān)心的網(wǎng)頁(yè),是各個(gè)搜索引擎的主要職能。因此搜索引擎已成為互聯(lián)網(wǎng)應(yīng)用的重要組成部分,它對(duì)互聯(lián)網(wǎng)的普及正產(chǎn)生著極
5、大的影響。而其中搜索引擎的核心技術(shù)——排序算法也變得極為重要,只有一個(gè)合理的搜索引擎排序算法才可為互聯(lián)網(wǎng)營(yíng)造一個(gè)公平的競(jìng)爭(zhēng)環(huán)境。通常一個(gè)搜索引擎的算法,要考慮很多的方面。例如:域名、密度、內(nèi)鏈、外鏈、相關(guān)度、服務(wù)器穩(wěn)定、內(nèi)容更新、域名時(shí)間、內(nèi)容數(shù)量等。我們就搜索引擎與Google的重要排名指數(shù)Pagerank提出以下問題:?jiǎn)栴}一:針對(duì)Google的Pagerank算法,建立數(shù)學(xué)模型,給出比較合理的Pagerank的計(jì)算方法;問題二:若作為搜索引擎的建設(shè)者,我們應(yīng)該側(cè)重考慮搜索網(wǎng)頁(yè)的哪些因素,根據(jù)用戶的需求,合理而公平的對(duì)上億的網(wǎng)頁(yè)進(jìn)行有選擇性的,根據(jù)其相關(guān)性緊
6、密程度排序。問題三:若想要建立一個(gè)新的網(wǎng)站,由第2題中建立的搜索引擎中排名的方法,怎樣使網(wǎng)頁(yè)在各大搜索引擎中排名比較靠前。二、問題假設(shè)與符號(hào)說明2.1問題假設(shè)在問題一的模型求解中,假設(shè)HTML文件間的鏈接關(guān)系只閉合于五個(gè)文件中。2.2符號(hào)說明l……………………網(wǎng)頁(yè)b頁(yè)的值;l……………………鏈接到b頁(yè)的網(wǎng)頁(yè)p的值;l……………………網(wǎng)頁(yè)p的出站鏈接數(shù)量;l……………………阻尼系數(shù),,;lA……………………表示所有指向網(wǎng)頁(yè)b的網(wǎng)頁(yè)集合;三、問題分析3.1問題一分析PageRank算法是由Google公司兩個(gè)創(chuàng)始人Sergey及LarryPage提出的一種搜索引擎
7、排序算法。網(wǎng)頁(yè)的PageRank值決定了隨機(jī)訪問到這個(gè)頁(yè)面的概率,PageRank算法采用的是隨機(jī)沖浪網(wǎng)上沖浪模型,即假設(shè)沖浪者跟隨超鏈接進(jìn)行了若干步瀏覽后轉(zhuǎn)向一個(gè)隨機(jī)的網(wǎng)頁(yè),沖浪者又重新跟隨超鏈接瀏覽,那么這個(gè)網(wǎng)頁(yè)的價(jià)值程度就由該網(wǎng)頁(yè)被隨機(jī)沖浪者訪問到的頻率所決定。阻尼系數(shù)d的引入,是因PageRank為用戶不可能無限的點(diǎn)擊鏈接,常常因無聊而隨機(jī)跳入另一個(gè)頁(yè)面。通過PageRank模型,對(duì)各個(gè)網(wǎng)頁(yè)的PageRank值進(jìn)行排序。3.2問題二分析對(duì)網(wǎng)頁(yè)排名的問題中,采用ClusterRank算法,對(duì)搜索引擎搜索到的網(wǎng)頁(yè)進(jìn)行聚類,通過PageRank值和點(diǎn)擊率對(duì)網(wǎng)
8、頁(yè)進(jìn)行排名。通過瀏覽這些網(wǎng)頁(yè)使用戶易于