資源描述:
《試論語言測試中的信度和效度》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、http://www.paper.edu.cn試論語言測試中的信度和效度11范金平,鄒曉玲1重慶大學(xué)外國語學(xué)院,重慶(400044)摘要:語言測試是語言教學(xué)的重要環(huán)節(jié),本文就語言測試的兩個(gè)重要標(biāo)準(zhǔn)信度和效度進(jìn)行了較詳盡的闡述,以期對語言教師的命題及評價(jià)測試更具有科學(xué)性有所裨益。關(guān)鍵字:語言測試;標(biāo)準(zhǔn);信度;效度中圖分類號:H0-01.引言語言測試在教學(xué)中的主要目的是對學(xué)生所掌握的知識和所具有的能力進(jìn)行評價(jià)。然而,測試能否是客觀的、公正的、甚至是權(quán)威的評估,卻取決于測試的質(zhì)量。談到測試的質(zhì)量,必然涉及到測試的標(biāo)準(zhǔn)。那么,測試的標(biāo)準(zhǔn)是什么呢?國內(nèi)外有許多語言學(xué)家都作過論述。他們認(rèn)為,評估語言測試的
2、主要標(biāo)準(zhǔn)有:信度、效度、區(qū)分度和可行性,其中信度和效度是測試最重要、最基本的要求。換言之,一個(gè)測試如果失去了信度與效度,其它標(biāo)準(zhǔn)便無從談起。本文擬就信度與效度作一闡述,以便對語言測試有較深入的了解。2.信度(Reliability)2.1信度的概念[6]信度也稱可靠性,即當(dāng)被測試對象本身發(fā)生變化,用同樣的“尺子”去重復(fù)測試時(shí),總是獲得類似的結(jié)果。因此,信度也被稱為一致性(consistency)。如果說一個(gè)測試的信度高,便是指一個(gè)考生的成績序列經(jīng)反復(fù)測試都大致相同。如果說某次測試完全可靠,那便是指這次測試排除了一切誤差、絕對的準(zhǔn)確。即一個(gè)考生的成績經(jīng)反復(fù)測試后完全保持一致,一組考生經(jīng)反復(fù)測試后
3、,其成績序列完全相同。其實(shí),絕對的準(zhǔn)確是不可能的,因?yàn)槿说囊蛩厥遣环€(wěn)定的。2.2信度的評估[1]信度的評估一般用考試結(jié)果的相關(guān)系數(shù)來表示。相關(guān)系數(shù)等于1表示該卷完全可靠,相關(guān)系數(shù)等于0則說明該試卷完全不可靠。在實(shí)踐中,人們往往根據(jù)具體情況對試卷的信度提出不同的要求。通常是客觀題的信度高于主觀題。客觀題的信度系數(shù)一般定在0.99以上。如果一份試卷既有客觀題又有主觀題,信度系數(shù)最好不低于0.80。在英語測試中,一份好的試卷,其詞匯、結(jié)構(gòu)和閱讀部分的信度系數(shù)一般應(yīng)在0.80-0.89之間,口試的信度系數(shù)一般在0.70-0.79之間。[7]對信度系數(shù)的評估方法主要有三種:再測信度、平行試卷信度和內(nèi)部一
4、致信度。(1)再測信度(Test-Retest)。這種方法是指用同一份試卷在相同的條件下對同一批考生在不同的時(shí)間內(nèi)進(jìn)行兩次測試。兩次考試的相關(guān)系數(shù)則是再測信度。[5](2)平行試卷信度(ParallelForms)。平行試卷信度(也可譯為復(fù)本信度)是對再測信度的改進(jìn),它是指用兩份或幾份在格式、內(nèi)容、難度和題目數(shù)量等方面都平行、一致或等值的試卷,在不同的時(shí)間內(nèi)對同一批考生進(jìn)行測試。兩次測試結(jié)果的相關(guān)系數(shù)便是平行試卷信度。這種計(jì)算信度的方法與計(jì)算再測信度的公式相同。這種方法雖然不是前一次測試的重復(fù),其測試的內(nèi)容不同,并且兩次測試的時(shí)間間隔可以很短(一般在兩周內(nèi)),但在命題時(shí)要使兩套試卷完全等值是非
5、常困難的。(3)內(nèi)部一致信度(InternalConsistencyReliability)。這種方法使用的最廣泛。它是指應(yīng)-1-http://www.paper.edu.cn用每個(gè)題目的方差來評估整份試卷的信度。2.3影響信度的因素[10]影響信度的主要因素有:(1)考生水平的差異??忌皆浇咏?,試卷信度越低;考生水平差異越大(標(biāo)準(zhǔn)差也往往很大),信度越高。(2)題目數(shù)量。試題數(shù)量越少,信度越低;數(shù)量越多,信度越高。(3)題目的區(qū)分度。區(qū)分能力強(qiáng)的題目越多,信度越高,反之亦然。通常,命題人員用提高試題題目的區(qū)分度和增加試題題目的數(shù)量提高信度。當(dāng)然,試題題目數(shù)量也不能無限的增加,因考試時(shí)間是
6、有限的。所以,為了提高試卷的信度,還必須考慮測試質(zhì)量的另一個(gè)及其重要的標(biāo)準(zhǔn)—效度。3.效度(Validity)3.1效度的概念[2]考試的效度(有效性)指考試是否測量了它所要測量的東西,是否達(dá)到了它所預(yù)定的目的。效度是一個(gè)相對的概念。換言之,一個(gè)考試的效度可有高低之分,但不能簡單地說全部有效或全部無效。除非給有效與無效規(guī)定效度系數(shù)的界限。這主要是因?yàn)閭€(gè)人或群體的語言能力特征,只能通過其行為樣本間接推測,而不是絕對有效。從這個(gè)意義上講,效度也可以說是一個(gè)程度上的概念,它反映根據(jù)考試分?jǐn)?shù)作出推論或預(yù)測的準(zhǔn)確程度。3.2效度的評估一般地說,效度可以從以下幾個(gè)方面評估。[12](1)內(nèi)容效度(Cont
7、entValidity)。內(nèi)容效度是指考試的內(nèi)容是否具有代表性和綜合性,或者說是否考了應(yīng)考的內(nèi)容。一份試卷不可能包括所有要考的內(nèi)容,所以,選擇內(nèi)容的方法非常關(guān)鍵。例如:有30個(gè)題目是考英語語法的,而有20個(gè)題目是考主謂一致性方面的,這就很難完全反映出考生的語法能力。因?yàn)橛⒄Z語法覆蓋面很廣,還包括動(dòng)詞時(shí)態(tài)、動(dòng)詞短語、介詞短語、不定式短語、分詞短語,等等。所以這樣的考試,其內(nèi)容效度必然很低。(2)效標(biāo)