資源描述:
《教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究【摘要】基于教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)應(yīng)用,從試題表征、知識(shí)點(diǎn)標(biāo)注、試題難度預(yù)測(cè)、學(xué)生認(rèn)知診斷和個(gè)性化推薦5個(gè)方面的應(yīng)用進(jìn)行闡述,分析它們?cè)谀壳笆褂弥械年P(guān)鍵技術(shù)、優(yōu)勢(shì)和不足,并對(duì)教育數(shù)據(jù)挖掘領(lǐng)域發(fā)展趨勢(shì)進(jìn)行展望?!娟P(guān)鍵詞】教育數(shù)據(jù)挖掘;知識(shí)點(diǎn)標(biāo)注;試題難度預(yù)測(cè);學(xué)生認(rèn)知診斷;個(gè)性化推薦隨著教育信息化進(jìn)程不斷深入推進(jìn),人們的學(xué)習(xí)方式從線下轉(zhuǎn)到線上,由此產(chǎn)生的教育數(shù)據(jù)量非常巨大,如何利用海量的教育數(shù)據(jù)資源,已然成為當(dāng)前亟需解決的重要課題。教育數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而成,旨在有效幫助學(xué)生學(xué)習(xí)[1],然而教育數(shù)據(jù)資源
2、具有異構(gòu)性、隱含性和不可比性,導(dǎo)致數(shù)據(jù)挖掘非常困難,因而,對(duì)教育數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究具有重要意義?,F(xiàn)從試題表征、知識(shí)點(diǎn)標(biāo)注、試題難度預(yù)測(cè)、學(xué)生認(rèn)知診斷和個(gè)性化推薦5個(gè)方面的關(guān)鍵技術(shù)應(yīng)用進(jìn)行介紹,分析它們目前使用的關(guān)鍵技術(shù)、優(yōu)缺點(diǎn)和發(fā)展趨勢(shì)。1關(guān)鍵技術(shù)應(yīng)用4學(xué)海無(wú)涯1.1試題表征相關(guān)技術(shù)。對(duì)于學(xué)習(xí),試題永遠(yuǎn)是最常見(jiàn),也是非常重要的一種表現(xiàn)形式,對(duì)教育數(shù)據(jù)進(jìn)行挖掘的第一件事情就是需要對(duì)試題進(jìn)行表征,目前試題主要由文本、圖片、視頻等多種異構(gòu)數(shù)據(jù)形式組成,不同的數(shù)據(jù)形式,采用的表征技術(shù)也各不相同。文本資源主要采用詞袋和詞向量
3、兩種模型。典型模型有word2vec、ELMo和BERT等。針對(duì)知識(shí)點(diǎn)資源主要采用One-hot表征、知識(shí)圖譜表征技術(shù)。針對(duì)圖片資源主要采用基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)框架。1.2知識(shí)點(diǎn)標(biāo)注。試題的知識(shí)點(diǎn)是描述試題用到的知識(shí),知識(shí)點(diǎn)的標(biāo)注是構(gòu)建題庫(kù)和個(gè)性化推薦的基礎(chǔ)。試題知識(shí)點(diǎn)標(biāo)注常用方法:一是人工標(biāo)注,對(duì)標(biāo)注人員的專業(yè)知識(shí)背景要求較高,耗時(shí)費(fèi)力。二是傳統(tǒng)機(jī)器學(xué)習(xí)方法,常用多標(biāo)簽分類(lèi)方法,沒(méi)有考慮文本的深層語(yǔ)義,預(yù)測(cè)效果欠佳,對(duì)標(biāo)注語(yǔ)料少的知識(shí)點(diǎn)的表現(xiàn)不好。三是深度學(xué)習(xí)
4、,雖然能夠很好地提取文本的深層次語(yǔ)義特征,但沒(méi)有加入先驗(yàn)知識(shí),不同專業(yè)領(lǐng)域的知識(shí)無(wú)法融合,數(shù)據(jù)不平衡問(wèn)題嚴(yán)重。1.3試題難度預(yù)測(cè)。試題難度的評(píng)估和預(yù)測(cè)是教育數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要的研究課題,其思路是讓學(xué)生做題,對(duì)于某道試題來(lái)說(shuō),答錯(cuò)的學(xué)生越多,該試題越難。該做法需要學(xué)生事先做完試題,事后針對(duì)答題情況進(jìn)行計(jì)算分析得出該試題難度。然而,有的時(shí)候需要提前對(duì)試題的難度進(jìn)行評(píng)估。例如,對(duì)于標(biāo)準(zhǔn)化測(cè)試(如:高考、CET等),需要考試之前對(duì)試題進(jìn)行難度的初步預(yù)測(cè)。傳統(tǒng)的方法多數(shù)采取人工評(píng)估,該方法存在專家主觀性強(qiáng)、費(fèi)時(shí)費(fèi)力的問(wèn)題,沒(méi)有
5、利用試題的文本特征?;诖?,黃振亞[2]等人提出基于試題文本的難度預(yù)測(cè)框架(Test-AwareAttention-BasedConvolutionalNeuralNetwork,TACNN)。1.4學(xué)生認(rèn)知診斷。認(rèn)知診斷模型是通過(guò)對(duì)學(xué)生作答情況,了解學(xué)生對(duì)知識(shí)水平掌握的情況,由此進(jìn)行個(gè)性化學(xué)習(xí)和資源推薦。常見(jiàn)的認(rèn)知診斷模型包括IRT(ItemResponseTheory)和DINA(deterministicinputs,noisy“and”gate)模型。傳統(tǒng)DINA模型只適用于客觀題,不能對(duì)主觀題的答題情況進(jìn)行分析
6、。如果作答學(xué)生存在游戲心理,通過(guò)該模型診斷出來(lái)的學(xué)生能力就不夠客觀和準(zhǔn)確。隨后,Wu[3]等人在此基礎(chǔ)上,又提出知識(shí)加猜測(cè)反應(yīng)模型(KnowledgePlusGamingResponseModel,KPGRM),該模型通過(guò)基于聚合P值的方法多次對(duì)作答學(xué)生的游戲心理進(jìn)行認(rèn)知診斷,診斷準(zhǔn)確性明顯提高。在大數(shù)據(jù)時(shí)代,需要處理大規(guī)模數(shù)據(jù),傳統(tǒng)DINA模型計(jì)算效率很差。針對(duì)DINA模型計(jì)算時(shí)間過(guò)長(zhǎng)的問(wèn)題,王超[4]等人對(duì)原始DINA模型中的EM算法進(jìn)行了改進(jìn),提出了基于增量DINA模型,有效提高了計(jì)算效率。1.5個(gè)性化推薦。個(gè)性化
7、推薦是實(shí)現(xiàn)個(gè)性化教育的第一步,是教育數(shù)據(jù)挖掘領(lǐng)域非常重要的應(yīng)用之一。近年來(lái),有學(xué)者將基于協(xié)同過(guò)濾推薦技術(shù)應(yīng)用到試題推薦當(dāng)中,取得了一定的效果,但該方法只關(guān)注分?jǐn)?shù)相近學(xué)生間的相似度和試題間的相似度,沒(méi)有涉及知識(shí)點(diǎn)信息,由此推薦的結(jié)果解釋性不強(qiáng),合理性欠缺。為了解決以上問(wèn)題,朱天宇[5]等人提出了一種結(jié)合概率矩陣分解(PMF)和認(rèn)知診斷的個(gè)性化試題推薦方法PMF-CD,該方法通過(guò)對(duì)學(xué)生掌握的知識(shí)點(diǎn)與試題考察的知識(shí)點(diǎn)進(jìn)行聯(lián)合分析來(lái)進(jìn)行試題推薦。2問(wèn)題與發(fā)展趨勢(shì)4學(xué)海無(wú)涯教育數(shù)據(jù)挖掘領(lǐng)域發(fā)展至今,雖然在某些領(lǐng)域取得了較大的進(jìn)步,
8、但是仍然有很多沒(méi)有解決的問(wèn)題,現(xiàn)就主要的問(wèn)題及未來(lái)發(fā)展趨勢(shì)總結(jié)如下。2.1問(wèn)題。2.1.1大量未標(biāo)記的資源沒(méi)有被利用。近年來(lái)產(chǎn)生了大量的教育資源數(shù)據(jù),然而教育資源數(shù)據(jù)的屬性標(biāo)注較少,大量未標(biāo)記的資源沒(méi)有得到充分的利用。因此,如何有效利用這些未標(biāo)記的資源,是機(jī)器學(xué)習(xí)方法在教育數(shù)據(jù)挖掘中不可避免的問(wèn)題。2.1.2知識(shí)點(diǎn)標(biāo)