資源描述:
《最新找春天(1)教學講義ppt課件.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、找春天(1)春天到了,風和日麗,萬物復蘇,大家和我一塊去找春天吧..迎春花兒開了。。預示春天的正式到來美麗的天鵝在湖里覓食。。小朋友們脫下厚重的冬衣,放飛歡樂。。讓我為春天增添一點綠色吧。。謝謝大家!第九章資料整理專業(yè)的五步資料整理與分析過程資料的確認與編輯編碼數(shù)據(jù)錄入數(shù)據(jù)自動清理制表和統(tǒng)計分析9.1資料的確認9.1.1目的:確認問卷為有效問卷--指得是確定訪談已經(jīng)按照適當?shù)姆绞竭M行,目的是查明訪問員有沒有造假,和在訪談時是否遵循了特定的關(guān)鍵程序。9.1.2方法和內(nèi)容通常采用電話確認方法:復查比例一般為1
2、0-20%,內(nèi)容包括:確認此人是否真的接受了調(diào)查被調(diào)查者是否符合條件:如收入是否達到規(guī)定標準確認調(diào)查是否按要求的方式進行如是否按照規(guī)定是在購物中心接受的調(diào)查確認調(diào)查是否完整其他:訪問員是否彬彬有禮,是否明確介紹了委托人的身份和調(diào)查目的,是否衣冠整齊,被訪問者對訪問有什么意見等9.2編輯所謂編輯是檢查訪問員謬誤的過程,在數(shù)據(jù)錄入之前,至少應該經(jīng)過兩次編輯處理。一次是執(zhí)行調(diào)查的公司進行編輯,然后再由雇傭這些實地服務(wù)企業(yè)的調(diào)研公司編輯整理。編輯由人工操作,內(nèi)容:確定訪問員是否沒有問某些問題。如在一份收集調(diào)查中,
3、所有的人都應該回答性別,但問卷沒有表明,可以通過電話聯(lián)系,但很多情況下,時間不允許,因此很有可能問卷要被放棄。核實問卷,以保證能夠遵循了規(guī)定的跳答模式檢查開放式問題的答案。開放式問題要求逐字記錄答案,不以任何形式的訪問員工作重新解釋、表達和插入自己的語言,同時也要求對回答進行進一步的“探查”。例如:記錄不當?shù)睦樱簽槭裁丛诒姸嗟目旖莺头奖愕牟宛^中經(jīng)常選擇去漢堡王?回答:顧客似乎覺得漢堡王有更加美味的事務(wù)和一流的服務(wù)環(huán)境沒有進一步探查例如問題同上記錄:因為我喜歡正確的記錄和探查問題同上答案:因為我喜歡它――
4、我喜歡并經(jīng)常去那里,――探查:因為那是離我工作的地方最近的餐館,還有其他原因嗎?沒有了9.3編碼1、封閉式問題編碼2、開放式問題編碼見教材P3209.4數(shù)據(jù)整理見:03營銷各組整理資料9.5數(shù)據(jù)預處理9.5.1缺失值處理缺失值是指在數(shù)據(jù)采集與整理過程中丟失的內(nèi)容。一般情況下,數(shù)據(jù)都是以關(guān)系型表的方式采集的,如下表是某次調(diào)查中一些受訪者的基本情況:姓名年齡性別職業(yè)收入張三20-護士1500李四30女醫(yī)生2000王五35男醫(yī)生3000趙六-女護士1000如果在表格中,某一個數(shù)據(jù)采集時無法獲得,就會出現(xiàn)缺失值,
5、例如在上表中“張三”的性別和“趙六”的年齡就出現(xiàn)了缺失。缺失值的處理一般有兩種方式:一是刪除對應的記錄。如在上例中,如果張三的性別沒有記錄,出現(xiàn)缺失,則將張三的所有信息全部從數(shù)據(jù)庫中刪掉。這種方式在數(shù)據(jù)缺失非常少的情況下是可行的,但如果各個項目中都有少數(shù)的數(shù)據(jù)缺失存在,對所有缺失的記錄都進行刪除可能就會使總樣本量變得非常小,從而損失許多有用信息缺失值處理的第二種方式是進行插值處理,所謂插值,是指人為地用一個數(shù)值去替代缺失的數(shù)值。插值處理根據(jù)插值的不同,有如下一些方法:1.隨機插值根據(jù)缺失值的各種可能情況,
6、等概率地進行插值。例如在上例中,“張三”的性別有兩種可能性,一是“男”,二是“女”,可以簡單地擲一枚硬幣,如果正面朝上,則賦值為“男”,如果反面朝上,則賦值為“女”。2、依概率插值隨機插值是假定各種一個變量取各種值的可能性是相等的,但有些情況下,我們可以事先知道一個變量取各種值的概率,例如,我們知道在上述的單位中,女性占的比例是75%,男性的比例是25%,則在對“張三”的性別進行賦值時,不是按50%概率賦為“女”,而是按75%概率賦為“女”。3.就近插值就近插值是指根據(jù)缺失記錄附近的其他記錄的情況對缺失值
7、進行插值,例如在上例中,“張三”的性別出現(xiàn)缺失,此時可以用其鄰近的“李四”的性別數(shù)據(jù)替代“張三”的性別數(shù)據(jù),由于“李四”的性別為“女”,所以將“張三”的性別也賦為“女”。就近插值是依概率插值的一種簡化處理,設(shè)想在整個單位的職工中,女性占的比例是75%,則在一般情況下,與張三鄰近的記錄性別為“女”的概率也應當為75%,就近插值實際上就是依概率插值。4.分類插值依概率插值是將記錄置于總體的背景上進行插值,沒有充分利用記錄的其他信息。如果在記錄的其他信息中有某些項目與缺失項目存在相關(guān)性,則可以根據(jù)這些輔助信息對
8、總體進行分類,在每一類內(nèi)部進行插值處理。例如在上例中,“張三”的職業(yè)是“護士”,假定該單位中95%的“護士”性別為“女”,則在進行插值是,就不是使用全單位的女性比例75%,而是使用“護士”中的女性比例95%對“張三”的性別進行賦值。本章小結(jié)