資源描述:
《語言的電子資料庫》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、ElectronicDatabaseforLinguisticandLanguageResearch語言的電子資料庫和語言研究一、機(jī)器語言可處理的文件快速增加原因1.電子出版2.線上資料庫及紀(jì)錄二、基本語言分析↓基本語言資料庫研究三、機(jī)器語言可處理的文件來源1.易取得與使用的大型資料庫2.可解決讀者、學(xué)者、學(xué)生的基本需求Dictionaries字辭典事實(shí)上,現(xiàn)代字典都是電子化生產(chǎn),並且可以以機(jī)器呈現(xiàn)、輸出。二十年前,第一部可以機(jī)器閱讀的電子字典是1968年約翰歐尼的webster’s第七版字典。電子字彙資料庫的發(fā)
2、展可以回溯到那時(shí)期。AmericanHeritageElectronicDictionary美國遺產(chǎn)電子字典LongmanDictionaryofContemporary朗文電子字典CD-ROMoftheOxfordEnglishDictionary牛津唯讀電子字典LanguagesoftheWorld語言世界一種名為”語言世界”的字典可以辨認(rèn)十八種世界上的語言,其系統(tǒng)資源使用者收尋或選擇跨語言的複合字詞。TEXTDATABASES文本資料庫語言資料的資料庫是源自於紙本,而紙本有分為書籍、報(bào)紙和期刊…等,根據(jù)全文
3、本身,資料庫給予個(gè)別辭典的細(xì)目,可能包含逐字索引和合乎文法的口頭禪。1960年,BrownUniversity集合由美國辭典編撰的資料庫。CELEX詞彙資料庫-英式英語資料庫,1950年代到1980年間,十萬個(gè)單字。COBUILD(CollinsBirminghamUniversityInternationalLanguageDatabase)-1960年後,兩億字。DCI(DataCollectionInitiative)-1989年,超過30億個(gè)單字。OverfiftyscholarsfromEurope,t
4、heMiddleEast,andNorthAmericaareparticipatingintheTEIeffortstodefinesetsoftagsformarkingfeaturesoftextsandtocodethetagsetswithintheframeworkoftheStandardGeneralizedMarkupLanguage(SGML).SPEECHDATABASES語音資料庫InstructionSpeechrecognitionandsynthesiseffortsinthe198
5、0splusadvancesinstoragetechnologyhaveledtoestablishmentofsharedspeechdatabasesthatcanbeusedforalgorithmdevelopmentandsystemevaluationandtesting.Suchdatabasesalsoprovideacommonreferenceforevaluationacrosssystemsandtechniques.Speechdatadifferconsiderablyfromtex
6、tdata.TheDARPA-supportedspokenlanguagesystemsresearchhasresultedinseveralspeechdatabases,includingthelargeTIMITdatabasedevelopedbyTexasInstrumentsandMIT.TheJEIDAJapaneselanguagedatabaseAsimilardatabaseforFrenchisGRECO,representingspeechfromthirty-twospeakers.
7、Itisclearthattheavailabilityofspeechdatabasesisnotasadvancedasthatoftextdatabasesbecauseofthelogisticsandresourcesassociatedwithspeechrecordingundercontrolledconditions.NetworkResourcesandothersourcesTheavailabilityofinternationalelectronicnetworks,suchasBit
8、net,Internet.ElectronicbulletinboardSponsors:theAssociationforComputationalLinguisticstheAssociationforComputersHumanitiesAresearchconsortiumhasbeenestablished,fromNewMexicoStateUnversity