資源描述:
《漢語(yǔ)組塊計(jì)算的若干研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、漢語(yǔ)組塊計(jì)算的若干研究李素建北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所2003.3.111企業(yè)資料課題的提出、意義和現(xiàn)狀本文主要工作總結(jié)提綱2企業(yè)資料課題的提出、意義和現(xiàn)狀提出:認(rèn)知理論、AI(Soar)內(nèi)容:組塊分析+組塊相似度計(jì)算意義簡(jiǎn)化句子結(jié)構(gòu)信息檢索信息抽取文本聚類/分類機(jī)器翻譯3企業(yè)資料語(yǔ)言學(xué)的研究?jī)?nèi)容詞法分析:句法分析:一個(gè)語(yǔ)句的可能句法結(jié)構(gòu)語(yǔ)義分析:將語(yǔ)句的意義形式化表達(dá)出來(lái)語(yǔ)用分析:上下文對(duì)語(yǔ)句理解的作用4企業(yè)資料中文處理生語(yǔ)料分詞語(yǔ)法標(biāo)注句法分析語(yǔ)用,語(yǔ)義分析5企業(yè)資料組塊分析--淺層分析,部分分析不要求得到完整的句法樹(shù)標(biāo)示出基本的組塊可以利用完全分析的各項(xiàng)技術(shù)6企業(yè)資料語(yǔ)言學(xué)中的研究方
2、法理性主義研究方法基于規(guī)則的方法經(jīng)驗(yàn)主義研究方法基于統(tǒng)計(jì)和實(shí)例的方法,語(yǔ)言建模兩種方式相結(jié)合7企業(yè)資料兩種方法的比較8企業(yè)資料組塊分析--規(guī)則方法FiniteStateCascade:有限狀態(tài)疊9企業(yè)資料例句分析thewomaninthelabcoatthoughtyouaresleepingDNPDNNVtnsPronAuxVingL0T1L1T2L2NPPNPVPNPVPNPPPVPNPVPT3L3SS10企業(yè)資料組塊分析--統(tǒng)計(jì)方法隱馬爾科夫模型11企業(yè)資料組塊分析--統(tǒng)計(jì)方法12企業(yè)資料組塊分析--conll2000評(píng)測(cè)標(biāo)準(zhǔn)13企業(yè)資料組塊分析--conll2000會(huì)議結(jié)果14企
3、業(yè)資料中文處理的組塊分析研究baseNP的識(shí)別漢語(yǔ)短語(yǔ)邊界的界定命名實(shí)體的識(shí)別15企業(yè)資料提綱課題的提出、現(xiàn)狀和意義本文主要工作總結(jié)16企業(yè)資料本文主要工作組塊組塊分析技術(shù)組塊相似度的計(jì)算最大熵模型有限自動(dòng)機(jī)技術(shù)混合模型17企業(yè)資料組塊定義組塊:(漢語(yǔ))符合一定句法功能的非遞歸短語(yǔ)。每個(gè)組塊都有一個(gè)核心詞,組塊圍繞核心詞展開(kāi),以核心詞作為組塊的開(kāi)始或結(jié)束。嚴(yán)格按照語(yǔ)法規(guī)則所有組塊是平等的,非遞歸不重疊覆蓋18企業(yè)資料(而/CC)(是/VC)(借鑒/VV)(發(fā)達(dá)/JJ國(guó)家/NN的/DEG)(經(jīng)驗(yàn)/NN教訓(xùn)/NN)VCCNCDNCVCCNOC19企業(yè)資料組塊標(biāo)注集合NCVCCPCQCLCCO
4、NOCNC$VC$DVCDNCADJCADVCLST組塊類型20企業(yè)資料組塊庫(kù)的獲取樹(shù)庫(kù)到組塊庫(kù)的轉(zhuǎn)化組塊分析器加工手工校對(duì)21企業(yè)資料最大熵模型的組塊分析技術(shù)最大熵模型的介紹相關(guān)的參數(shù)估計(jì)算法和特征選擇算法基于該模型的組塊分析22企業(yè)資料最大熵模型介紹訓(xùn)練樣本集合{(x,y)}概率分布:p(y
5、x)?引入特征:fi∈{0,1}23企業(yè)資料特征限制條件下的模型分布滿足了以下三個(gè)條件:24企業(yè)資料引入拉格朗日函數(shù):25企業(yè)資料影響組塊分析的語(yǔ)言特征詞性特定詞句法:組塊標(biāo)注韻律:詞音節(jié)數(shù)26企業(yè)資料原子特征模板CurPOSTagPOSTag-1POSTag-2POSTag+1POSTag+2
6、PrevPOSNextPOSCurWordWord-1Word-2Word+1Word+2PrevWordNextWordChunkTag-1ChunkTag-2CurRhythmRhythm-1Rhythm+127企業(yè)資料特征實(shí)例CurPOSTag_NN,Word+1_的=DNCCurPOSTag_NT,POSTag-1_VC=NCCurPOSTag_P,POSTag+1_PN=PCChunkTag-1_NC,CurPOSTag_VV=VCCChunkTag-1_NC,CurPOSTag_NN=NCCurRhythm_2,CurPOSTag_NN,Rhythm-1_1=NCPrevWo
7、rd_被,CurPOSTag_VV=VCC28企業(yè)資料ME模型的特征選取粗選出現(xiàn)頻數(shù)細(xì)選Kullback-Leibler(KL)距離手工加入29企業(yè)資料選用4個(gè)特征模板作自動(dòng)特征選取實(shí)驗(yàn):(1)CurPOSTag;(2)CurPOSTag,POSTag+1;(3)POSTag-1,CurPosTag;(4)POSTag-1,CurPOSTag,POSTag+130企業(yè)資料最大熵模型相關(guān)算法參數(shù)估計(jì)算法:G.I.S(Generalizediterativescaling)迭代時(shí)間O(NPA)N:訓(xùn)練集大小;P:預(yù)測(cè)數(shù)目;A:每個(gè)事件的平均特征數(shù)目特征的選擇:FieldInductionAl
8、gorithm選擇對(duì)模型具有最大增益值的特征(KL)31企業(yè)資料32企業(yè)資料訓(xùn)練文本語(yǔ)料格式(每一個(gè)詞為一行)第1列表示:組塊所在的文件號(hào)第2列表示:組塊所在的語(yǔ)句號(hào)第3列表示:當(dāng)前詞在所在句中的號(hào)第4列表示:當(dāng)前詞的組塊標(biāo)注第5列表示:當(dāng)前詞的詞性標(biāo)注第6列表示:當(dāng)前詞的內(nèi)容輸入文件格式33企業(yè)資料輸出文件格式測(cè)試語(yǔ)料文件格式第1列表示:組塊所在的文件號(hào)第2列表示:組塊所在的語(yǔ)句號(hào)第3列表示:當(dāng)前詞在所在句中的號(hào)第4列表示