資源描述:
《統(tǒng)計過程中遇到刪失數(shù)據(jù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、Censoreddata刪失數(shù)據(jù)這兩天看MPLUS統(tǒng)計手冊,總看見censoreddata這個概念,censored的原意是“審查過的”,在網(wǎng)絡(luò)用語上是“屏蔽的”,通俗的理解就是敏感詞的意思。但什么是“審查過的數(shù)據(jù)”呢?又查了一下censoreddata,統(tǒng)計術(shù)語上稱作“刪失數(shù)據(jù)”,解釋為:就是在數(shù)據(jù)收集過程中,某些在檢測線下的數(shù)據(jù)被檢測線的值或是0值代替了。這一解釋,稍微能理解點意思,但仍是沒有概念。后來,查到下面這段話,是Amos7.0可以處理censoreddata,并且給出了一個具體例子,才總算明白了啥叫censore
2、ddata。英文和翻譯如下:Censoreddataoccurswhenyouknowthatameasurementexceedssomethreshold,butyoudon’tknowbyhowmuch.(Thereisalesscommonkindofcensoreddatawhereyouknowthatameasurementfallsbelowsomethreshold,butdonotknowbyhowmuch.)Asanexampleofcensoreddata,supposeyouwatchpeopleas
3、theytrytosolveaproblemandrecordhowlongeachpersontakestosolveit.Supposethatyoudon’twanttospendmorethan10minuteswaitingforapersontoreachasolution,sothatifapersonhasnotsolvedtheproblemin10minutes,youcallahaltandrecordthefactthat“timetosolve”wasgreaterthan10minutes.??If
4、fivepeoplesolvetheproblemandtwodon’t,thedatafromsevenpeoplemightlooklikethis:當(dāng)你知道一個測量值超過了臨界值,但又不知道具體超過了多少,就叫“刪失數(shù)據(jù)”(較少出現(xiàn)那種低于臨界值,但又不知道具體低多少的刪失數(shù)據(jù))。舉個例子,假設(shè)你想要進行一個關(guān)于問題解決的研究,記錄下被試進行問題解決所花的時間。假如有的被試花了10分鐘還沒有答完題,而你又不想繼續(xù)等待,到10分鐘的時候你就讓被試停止答題,然后記錄這名被試的答題時間為“大于10分鐘”。假設(shè)7名被試中有2名沒
5、答完,那么數(shù)據(jù)記錄如下表:?CaseTimetosolve1622394>1054697>10InAmos6.0,youcouldeithertreattheobservationforcases4and7asmissing,orsubstituteanarbitrarynumberlike10or11or12forcases4and7.Treatingcases4and7asmissinghastheeffectofbiasingthesamplebyexcludingpoorproblemsolvers.Substitut
6、inganarbitrarynumberforacensoredvalueisalsoundesirable,althoughtheexacteffectofsubstitutinganarbitrarynumberisimpossibletoknow.在Amos6.0中,你可以把被試4和被試7的數(shù)據(jù)作為缺失數(shù)據(jù)處理,也可以人為地給他們賦值為10、11或12等。作為缺失值處理的話,有可能會因為刪去了一些問題解決較差者而出現(xiàn)樣本偏差。雖然賦其他值的效果還不能確切知道,但這個做法同樣也不是個好辦法。InAmos7.0youcant
7、akeadvantageofalltheinformationyouhaveaboutcases4and7withoutmakingassumptionsotherthantheassumptionofnormality.在Amos7.0中,研究者就可以利用被試4和被試7的數(shù)據(jù)信息,而不用作正態(tài)假設(shè)之外的其他假設(shè)。?總結(jié)起來,所謂censoreddata,就是那些在研究中被掐頭(當(dāng)然也有的是去尾)的數(shù)據(jù),知道是被掐了頭,但不知道掐了多少。以前很多研究都是當(dāng)缺失值處理了,但這樣做容易導(dǎo)致樣本有偏差(即差的都被去掉了,不能反映數(shù)據(jù)
8、全貌)??梢?,統(tǒng)計軟件的更新和升級是多么的重要。缺失值是指在數(shù)據(jù)采集與整理過程中丟失的內(nèi)容。一般情況下,數(shù)據(jù)都是以關(guān)系型表的方式采集的,如下表是某次調(diào)查中一些受訪者的基本情況見本文最后的表格。?如果在表格中,某一個數(shù)據(jù)采集時無法獲得,就會出現(xiàn)缺失值,例如在上表中“張三”的性別