研究方法期末報告-陳智揚-信度與效度
指導教授:吳統雄老師
班別:資管所碩一
學生:陳智揚
學號:M88660013
一、信度的意義
信度即指測量工具本身的準確程度。信度可以從以下兩個角度來了解,一是測量工具穩定一致的程度,二是從測量的誤差情形。首先,如果測量工具的測量結果具有高的穩定一致程度,那我們可以這樣說,這個測量具有可預測性、可靠性、及區別能力,所以今天如有一個人使用一把信度高的尺量身高為一百七十公分,我們相信隔天他使用同一把尺再來量身高,必不會變成一百八十公分。而如果從測量誤差的角度觀之,信度就是指測驗或測驗的分數,反映出真實測量值(true measure)的程度或沒有誤差的程度,易言之,信度高,就表示包含的誤差成份很少;而信度低,就表示包含了很多的誤差成份。
二、信度的特性
人文社會科學測驗的信度都比自然科學為低。因為自然科學可以直接測量,而人文社會科學只能間接測量而推論之,其次,自然科學使用的測量工具準確性相當高,人文社會科學還常需要將抽象的狀態給數量,如此才能推論分析,另外,自然科學測量的特徵相當穩定,人文社會科學很容易有大幅的變化。
信度不是一種普遍的特質,所以測驗分數不可能在任何情境下都是可靠的或一致的。在某種情境下,分數可能很可靠,但在另一種情況下,卻未必如此。各種不同的信度,總是代表某種特殊類型的一致性或可靠性,因此,信度的考慮須視測驗分數的用途而定。例如,欲瞭解學生智力的未來發展情形,測驗的穩定性便非常重要,如果是要瞭解創造能力測驗分數的可靠性,就須要考慮到測驗分數在評分上的一致性。
在本質上,信度是一種統計的概念。採用邏輯的分析,無法提供信度有效的證據。要確定測驗的信度主要就是使用公式對測量做信度的推求。
測驗的信度愈高愈好。但是,沒有測驗是完全可靠的,所有測驗都有某些程度的不可靠,因為測量誤差是無法避免的。
三、信度的類型
◎再測信度或重測信度(test-retest reliability)、外在信度(external reliability)
估計測驗分數是否穩定,最直接的方法是重測方法,此種方法是採用同一個測驗在不同的時間,重複測量相同的一群受詴者兩次,根據這兩次分數求得的相關,稱為重測信度係數(test-retest reliability coefficient),或稱再測信度。此係數可以表明測驗結果經過一段期間後的穩定性,故又稱穩定係數(coefficient of
stability)。如果測驗結果穩定性很高,那就是表示在第一次測驗時得到高分的,第二次測驗時也得到高分,而在第一次測驗得到低分的,第二次測驗也得到低分。換言之,受詴著的兩次測驗分數,除了少數例外,在團體中均保持同樣的相對位置。例如,有五位學生,他們前後兩次測驗分數的地位,完全維持一致不變,依這兩次分數所得的相關一定是1.00的完全相關。
如果兩次測驗分數的相關不高或很低,表示測驗結果不穩定,分數受到非系統因素的影響。導致這種變異的誤差,主要是受詴者本身情況的改變,如生病、疲勞、情緒緊張、焦慮、動機等,以及測驗情境的變化,如天、吵雜、燈光等。重測信度愈高,分數受到這兩大因素的影響就愈小。不過,因為重測信度是相同的測驗重測,測驗內容的取樣維持恆定不變,故無法反映出測驗工具的內容所導致的測量誤差,其所估計的信度傾向於過高,通常比複本信度高。
再測信度的高低和兩次間隔時間的長短有密切的關係。一般而言,間隔時間愈長,信度愈低,間隔時間愈短,信度愈高。因此,在解釋重測信度時,兩次間隔時間的長短宜列入考慮的重要因素。究竟間
隔時間要多長比較適當?這個問題的答案,應視測驗結果的使用而定。如果我們想以國小學生的測驗預測他們未來國中的學習成績,間隔幾年的穩定性就非常重要。但是,如只想預測今年的數學成就,短時間的間隔所得到的穩定性就足夠了。當分數缺乏穩定性時,以測驗分數做為未來成就的預測,其效度將大為降低。
在大多數情況下,適當的間隔時間是一週或兩週。不過,並沒有廣為大家所接受的單一標準,這完全要視測驗的種類、用途及受詴者年齡而定。測驗年齡幼小的兒童,其間隔時間要比年齡大的短,因為年幼兒童的發展速度很快,短時間內就有明顯的生長。動作與人格測驗較不受重測的影響,故重測信度適合用之,但認知測驗受的影響較大,此種信度則不十分適當。
再測信度並不是一種令人滿意的信度估計方法,因為有若干缺點。第一,易受到練習與記慮的影響。如果間隔時間太短,(一天或兩天),因記憶前次的反應情形,答案的對錯可能重現,而導致兩次分數變為假性的高相關。第二,測驗題目的性質因重測而改變,尤以推理與思考的題目為然。在第一次思考而貫通的原則或解決問題方法,到第二次測驗時便不需要再思考,題目因而由推理變成記憶性。第三,兩次測驗時難以有相同的測驗情境。
總之,在做重測信度的分析時,必須選擇一個適當的間隔時間,以減少記憶和練習的影響,以及測量的特質本身所產生的改變之影響。
◎複本信度(alternate-forms reliability)、穩定等值信度(stability and equivalence)
測驗應該被視為從詴題的母群體(population or univer)所抽出的樣本,因此,每一個測驗都可以有許多複本測驗(alternate-form test)(題目不同但內容相
似)。例如,從一本國語詞典(教育部編)中,可以隨機抽出20個字而編成相當多的字彙測驗。在這些字彙測驗上所得分數的平均數,就是前面所述及的真實分數。如果一位受詴著在其中一份的得分是16分,我們主要的興趣並非在於他所得到的16分,而是希望從這個分數推論到他的真實分數。易言之,我們不關心他在測驗中究竟認識幾個字,而關心他在整個字彙母群體中的字彙能力有多少,這就是所謂的測驗分數的概括性(generalizability)(Cronbach, et al., 1972),也就是測驗分數能夠推論的範圍。
採用複本方法所估計的信度,稱為複本信度(alternate-forms reliability)。此種信度旨在確定我們有多少信心能夠從個人在測驗上的得分,推論到其他相等複本測驗上的得分。估計複本信度,必須有真正的複本測驗,否則無法估計。所謂複本測驗(parallel or equivalent forms).,就是指兩份測驗在內容、型式、題數、難度、指導說明、時間限制與例題等方面,必須類似或相等。此種測驗通常是根據相同的設計說明表(table of specification)分別獨立編製而成。兩個複本測驗實施於一群相同的受詴者,依據所測量到的分數求相關,即為複本信度。此信度係數可以說明兩個複本測驗測量相同行為或內容的程度。因此,信度愈高,表示所測量的詴題樣本愈可靠,愈能以之代表所欲測量內容的範圍。
實施兩個複本測驗的方式有兩種:一種是在同一個時間連續實施,另一種是間隔一段期間實施。從前者所得到的複本信度,可以反映出測驗工具的內容所造成的誤差有多少,但無法反映出受詴者本身狀況所造成的誤差,此種複本信度又稱為等值係數(coefficient of equivalence);從後者所得到的複本信度,不但可以反映出測驗內容的誤差,而且,也可以反映出受詴著狀況所造成的誤差,此種信度又稱為穩定與等值係數(coefficient of stability and equivalence)。因為它可以同時反映測驗內容與時間所導致的誤差,所以,是估計測驗信度的最好方法(Karmel & Karmel,1978,p114)。
雖然如此,複本信度仍有其缺點。第一,複本測驗的編製不易,不但費時,且成本較高,因此,多數的測驗都沒有複本。第二,易受練習影響的測量行為,即使採用複本方法,影響只能減少,但無法完全避免。複本信度與重測信度有很大的不同,究竟應該使用那一種?這須視實施測驗的目的而定。如果希望用測驗分數做長時間的預測,就需要重測信度。例如,採用學業性向測驗要預測高中生的大學成績,這個測驗須具有相當的穩定性。但是,測驗的目的只想推論個人在某一學科領域中具有的知識程度,則只須考慮測驗是否具備適當的複本信度。
◎內在一致信度、內在信度(internal reliability)
上述兩種信度的估計方法,均須實施兩次的測驗,受詴者的合作、動機、疲勞和厭煩等可能影響測驗的實施。因此,只根據一次測驗結果就可以估計信度的方法,較受歡迎,內部一致性方法就是屬於這種的估計方法。此種方法包括有: