資源描述:
《大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)和機(jī)遇》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)和機(jī)遇相關(guān)合集:統(tǒng)計(jì)學(xué)論文相關(guān)熱搜:統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)教學(xué)統(tǒng)計(jì)學(xué)應(yīng)用大數(shù)據(jù)給統(tǒng)計(jì)學(xué)提供了機(jī)遇、挑戰(zhàn)和緊迫感。本文闡述著大數(shù)據(jù)的環(huán)境利用大數(shù)據(jù)的目的和大數(shù)據(jù)帶來的整個(gè)變革;介紹著有關(guān)大數(shù)據(jù)的研究動(dòng)向;探討著大數(shù)據(jù)包含的信息,大數(shù)據(jù)的準(zhǔn)備處理、抽樣和分析方法。當(dāng)今社會(huì),一方面人們?cè)诿總€(gè)的獲取數(shù)據(jù)。各個(gè)科學(xué)領(lǐng)域都在大量的獲取數(shù)據(jù)。自然科學(xué)領(lǐng)域收集著從宏觀的天文數(shù)據(jù)到微觀的基因數(shù)據(jù)。從經(jīng)濟(jì)、金融和人文社會(huì)科學(xué)收集著大量的數(shù)據(jù)。一些人們?cè)诓粩嗟刂圃旌褪占鴶?shù)據(jù),相信著這些數(shù)據(jù)也許會(huì)對(duì)人有用。當(dāng)然,也有人們不再
2、繼續(xù)呆在實(shí)驗(yàn)室里考核著研究,僅僅依靠著強(qiáng)大的X絡(luò)數(shù)據(jù)來進(jìn)行研究。而人們也在很被動(dòng)著積累著數(shù)據(jù)。隨著互聯(lián)X這樣的大時(shí)代到來,各種方法也涌現(xiàn)出來。各式各樣的數(shù)據(jù)如滔滔江水連綿不絕的涌現(xiàn)出來?,F(xiàn)如今數(shù)據(jù)這樣的大體系也在悄悄進(jìn)行著變化。統(tǒng)計(jì)學(xué)又面臨著新的機(jī)遇和挑戰(zhàn),這當(dāng)然需要在方法論上有所突破和改變。一、大數(shù)據(jù)及其目的大數(shù)據(jù)是一個(gè)大樣本和高維變量的數(shù)據(jù)集合。針對(duì)這樣的問題,用于統(tǒng)計(jì)學(xué)上來說就是采用抽樣減少樣本量,最后達(dá)到需要的精度。關(guān)于這樣的問題,急需要變量選擇、降維、壓縮、分解。廣義的說,大數(shù)據(jù)涵蓋了許多種領(lǐng)域,像多源
3、、混合的數(shù)據(jù),自然科學(xué)、人文社會(huì)、經(jīng)濟(jì)學(xué)、X絡(luò)、通訊、商業(yè)和娛樂各樣的領(lǐng)域。這其中大數(shù)據(jù)涉及了各種數(shù)據(jù)類型,包括文本和語言、錄像和圖像、時(shí)空X絡(luò)與圖形。大數(shù)據(jù)的目的就是將數(shù)據(jù)轉(zhuǎn)化為知識(shí),探索著數(shù)據(jù)將會(huì)產(chǎn)生的機(jī)制。并且大數(shù)據(jù)有著記錄保存自然和社會(huì)現(xiàn)狀的作用?,F(xiàn)在的人收集著許多大量的數(shù)據(jù)。雖然還不是那樣的了解。但是依然相信需要保存現(xiàn)在這個(gè)社會(huì)經(jīng)濟(jì)發(fā)展的整個(gè)過程,滿心期待在今后的歲月長河中不斷地分析和解釋著。大數(shù)據(jù)將形成自然和人文社會(huì)的歷史長河,不僅用于當(dāng)今時(shí)代的研究。甚至對(duì)于轉(zhuǎn)基因食品對(duì)子孫后代的影響來繼續(xù)深究問題,
4、為未來的人留下先今的歷史材料。二、大數(shù)據(jù)的處理、抽樣與分析(一)數(shù)據(jù)的預(yù)處理。大數(shù)據(jù)的預(yù)處理包含數(shù)據(jù)清洗、不完全數(shù)據(jù)填補(bǔ)、數(shù)據(jù)糾偏和矯正。統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù)是經(jīng)過嚴(yán)格的抽樣設(shè)計(jì)所得到的[1]。有著代表性和系統(tǒng)誤差小的優(yōu)勢?;ヂ?lián)X的數(shù)據(jù)速度更快、量大、項(xiàng)目繁瑣,但是難以避免一些這樣的問題。將統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù)作為標(biāo)準(zhǔn)來對(duì)互聯(lián)X進(jìn)行校正。從而將互聯(lián)X數(shù)據(jù)作為補(bǔ)充資源對(duì)統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù)進(jìn)行隨時(shí)隨地的更新。這或許是解決問題的一個(gè)思路。(二)大數(shù)據(jù)環(huán)境的抽樣。大數(shù)據(jù)的抽樣方法有待研究。不管鍋有多大。只要可以充分的均勻攪拌。知道其中的
5、滋味就可以了。針對(duì)大數(shù)據(jù)流環(huán)境,需要探索從源源不斷的數(shù)據(jù)流中抽取可以滿足統(tǒng)計(jì)目的和精度的樣本[2]。需要研究新的抽樣方法??梢杂羞m應(yīng)性、序貫性以及動(dòng)態(tài)的抽樣方法。盡力數(shù)據(jù)流的緩沖區(qū),記錄著數(shù)據(jù)所發(fā)生的一切變化。利用其他各種抽樣技術(shù)。比如滾雪球這樣的方法,從種子開始逐步擴(kuò)大著樣本。從各種隨機(jī)種子出發(fā)。不斷加入新鮮的種子,了解當(dāng)代X絡(luò)性質(zhì)和結(jié)構(gòu)。(三)大數(shù)據(jù)的分析和整合。針對(duì)大數(shù)據(jù)的高維問題,需要研究降維和分解的方法。探討壓縮大數(shù)據(jù)的方法,直接對(duì)壓縮的數(shù)據(jù)進(jìn)行傳輸、運(yùn)算和操作。除了常規(guī)的統(tǒng)計(jì)分析方法,包括高維矩陣、降
6、維方法、變量選擇之外,需要研究大數(shù)據(jù)的實(shí)時(shí)分析、數(shù)據(jù)流算法。(四)數(shù)據(jù)不需要保存,只是需要掃描一遍數(shù)據(jù)的數(shù)據(jù)流算法。只是考慮計(jì)算機(jī)內(nèi)存和外存的數(shù)據(jù)傳送問題。分布數(shù)據(jù)和并行計(jì)算的方法。針對(duì)多種不同數(shù)據(jù)庫的環(huán)境,利用關(guān)系數(shù)據(jù)庫技術(shù),根據(jù)關(guān)鍵字將很多小數(shù)據(jù)庫連接成一個(gè)大數(shù)據(jù)。并且,在這些大的數(shù)據(jù)庫中還可以分解出許多的小數(shù)據(jù)庫。組合出不同的東西,更可以做出許多有創(chuàng)意的東西。在大數(shù)據(jù)環(huán)境,很多的數(shù)據(jù)集不再有標(biāo)識(shí)個(gè)體的關(guān)鍵字,傳統(tǒng)的關(guān)鍵數(shù)據(jù)庫連接方法不再適用。探索不必經(jīng)過整合多數(shù)據(jù)庫,直接利用局部數(shù)據(jù)進(jìn)行推斷結(jié)果傳播的方法。
7、利用統(tǒng)計(jì)性質(zhì)信息損失地分解和壓縮大數(shù)據(jù)。(四)X絡(luò)圖模型。X絡(luò)圖模型用圖的結(jié)構(gòu)描述高維變量之間的相互關(guān)系,包括貝葉斯X絡(luò)、無向圖概率模型、因果X絡(luò)等。X絡(luò)模型是處理和分析高維大數(shù)據(jù)和多源數(shù)據(jù)庫的有效工具。目前已經(jīng)有豐富的圖模型的軟件系統(tǒng)。X絡(luò)圖模型可以用于分解大數(shù)據(jù)集合,處理多源數(shù)據(jù)庫,來進(jìn)行計(jì)算。它還可以引入隱變量簡化復(fù)雜的關(guān)聯(lián)聯(lián)系。最終確定并能區(qū)分該目標(biāo)節(jié)點(diǎn)的原因與結(jié)果。結(jié)論:一個(gè)新生事物的出現(xiàn)會(huì)導(dǎo)致傳統(tǒng)觀念和技術(shù)的革命。數(shù)碼照相機(jī)的出現(xiàn)導(dǎo)致傳統(tǒng)相片膠卷和影像業(yè)的己近消亡。模型不再重要,當(dāng)年統(tǒng)計(jì)學(xué)最得意的回歸
8、預(yù)測方法將被淘汰。大數(shù)據(jù)的到來將對(duì)傳統(tǒng)的統(tǒng)計(jì)方法進(jìn)行考驗(yàn)。統(tǒng)計(jì)學(xué)會(huì)不會(huì)像科學(xué)哲學(xué)那樣,只佩戴著歷史的光環(huán),而不再主導(dǎo)和引領(lǐng)人們分析和利用大數(shù)據(jù)資源。大數(shù)據(jù)充滿了許多的隨機(jī)性?,F(xiàn)在看到的大數(shù)據(jù)也給統(tǒng)計(jì)學(xué)帶來了機(jī)遇。現(xiàn)在其他學(xué)科和行業(yè)的涌入大數(shù)據(jù)的熱潮,如果統(tǒng)計(jì)學(xué)不抓緊參與的話,將面臨著被邊緣化的危險(xiǎn)。分布式的大數(shù)據(jù)和數(shù)據(jù)流的環(huán)境給統(tǒng)計(jì)學(xué)帶來了挑戰(zhàn)。統(tǒng)計(jì)學(xué)家不應(yīng)該固守傳統(tǒng)數(shù)據(jù)