資源描述:
《從A—Z 歸納常見的大數(shù)據(jù)術語表.docx》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、從A——Z歸納常見的大數(shù)據(jù)術語表2015-02-26BDA1213中關村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟一個常見的大數(shù)據(jù)術語表大數(shù)據(jù)的出現(xiàn)帶來了許多新的術語,但這些術語往往比較難以理解。因此,我們通過本文給出一個常用的大數(shù)據(jù)術語表,拋磚引玉,供大家深入了解。其中部分定義參考了相應的博客文章。當然,這份術語表并沒有100%包含所有的術語,如果你認為有任何遺漏之處,請告之我們。A·聚合(Aggregation)–搜索、合并、顯示數(shù)據(jù)的過程·算法(Algorithms)–可以完成某種數(shù)據(jù)分析的數(shù)學公式·分析法(Analytics)–用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義·異
2、常檢測(Anomalydetection)–在數(shù)據(jù)集中搜索與預期模式或行為不匹配的數(shù)據(jù)項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers,exceptions,surprises,contaminants.他們通??商峁╆P鍵的可執(zhí)行信息·匿名化(Anonymization)–使數(shù)據(jù)匿名,即移除所有與個人隱私相關的數(shù)據(jù)·應用(Application)–實現(xiàn)某種特定功能的計算機軟件·人工智能(ArtificialIntelligence)–研發(fā)智能機器和智能軟件,這些智能設備能夠感知周遭的環(huán)境,并根據(jù)要求作出相應
3、的反應,甚至能自我學習B·行為分析法(BehaviouralAnalytics)–這種分析法是根據(jù)用戶的行為如“怎么做”,“為什么這么做”,以及“做了什么”來得出結(jié)論,而不是僅僅針對人物和時間的一門分析學科,它著眼于數(shù)據(jù)中的人性化模式·大數(shù)據(jù)科學家(BigDataScientist)–能夠設計大數(shù)據(jù)算法使得大數(shù)據(jù)變得有用的人·大數(shù)據(jù)創(chuàng)業(yè)公司(Bigdatastartup)–指研發(fā)最新大數(shù)據(jù)技術的新興公司·生物測定術(Biometrics)–根據(jù)個人的特征進行身份識別·B字節(jié)(BB:Brontobytes)–約等于1000YB(Yott
4、abytes),相當于未來數(shù)字化宇宙的大小。1B字節(jié)包含了27個0!·商業(yè)智能(BusinessIntelligence)–是一系列理論、方法學和過程,使得數(shù)據(jù)更容易被理解C·分類分析(Classificationanalysis)–從數(shù)據(jù)中獲得重要的相關性信息的系統(tǒng)化過程;這類數(shù)據(jù)也被稱為元數(shù)據(jù)(metadata),是描述數(shù)據(jù)的數(shù)據(jù)·云計算(Cloudcomputing)–構(gòu)建在網(wǎng)絡上的分布式計算系統(tǒng),數(shù)據(jù)是存儲于機房外的(即云端)·聚類分析(Clusteringanalysis)–它是將相似的對象聚合在一起,每類相似的對象組合成一
5、個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性·冷數(shù)據(jù)存儲(Colddatastorage)–在低功耗服務器上存儲那些幾乎不被使用的舊數(shù)據(jù)。但這些數(shù)據(jù)檢索起來將會很耗時·對比分析(Comparativeanalysis)–在非常大的數(shù)據(jù)集中進行模式匹配時,進行一步步的對比和計算過程得到分析結(jié)果·復雜結(jié)構(gòu)的數(shù)據(jù)(Complexstructureddata)–由兩個或多個復雜而相互關聯(lián)部分組成的數(shù)據(jù),這類數(shù)據(jù)不能簡單地由結(jié)構(gòu)化查詢語言或工具(SQL)解析·計算機產(chǎn)生的數(shù)據(jù)(Computergenerateddat
6、a)–如日志文件這類由計算機生成的數(shù)據(jù)·并發(fā)(Concurrency)–同時執(zhí)行多個任務或運行多個進程·相關性分析(Correlationanalysis)–是一種數(shù)據(jù)分析方法,用于分析變量之間是否存在正相關,或者負相關·客戶關系管理(CRM:CustomerRelationshipManagement)–用于管理銷售、業(yè)務過程的一種技術,大數(shù)據(jù)將影響公司的客戶關系管理的策略D·儀表板(Dashboard)–使用算法分析數(shù)據(jù),并將結(jié)果用圖表方式顯示于儀表板中·數(shù)據(jù)聚合工具(Dataaggregationtools)-將分散于眾多數(shù)據(jù)源
7、的數(shù)據(jù)轉(zhuǎn)化成一個全新數(shù)據(jù)源的過程·數(shù)據(jù)分析師(Dataanalyst)–從事數(shù)據(jù)分析、建模、清理、處理的專業(yè)人員·數(shù)據(jù)庫(Database)–一個以某種特定的技術來存儲數(shù)據(jù)集合的倉庫·數(shù)據(jù)庫即服務(Database-as-a-Service)–部署在云端的數(shù)據(jù)庫,即用即付,例如亞馬遜云服務(AWS:AmazonWebServices)·數(shù)據(jù)庫管理系統(tǒng)(DBMS:DatabaseManagementSystem)–收集、存儲數(shù)據(jù),并提供數(shù)據(jù)的訪問·數(shù)據(jù)中心(Datacentre)–一個實體地點,放置了用來存儲數(shù)據(jù)的服務器·數(shù)據(jù)清洗(Da
8、tacleansing)–對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性·數(shù)據(jù)管理員(Datacustodian)–負責維護數(shù)據(jù)存儲所需技術環(huán)境的專業(yè)技術人員·數(shù)據(jù)道德準則(Dat