研究方法期末报告-陈智扬-信度与效度

更新时间:2023-05-11 12:40:45 阅读：评论：0

研究方法期末報告－陳智揚-信度與效度

指導教授：吳統雄老師

班別：資管所碩一

學生：陳智揚

學號：M88660013

一、信度的意義

信度即指測量工具本身的準確程度。信度可以從以下兩個角度來了解，一是測量工具穩定一致的程度，二是從測量的誤差情形。首先，如果測量工具的測量結果具有高的穩定一致程度，那我們可以這樣說，這個測量具有可預測性、可靠性、及區別能力，所以今天如有一個人使用一把信度高的尺量身高為一百七十公分，我們相信隔天他使用同一把尺再來量身高，必不會變成一百八十公分。而如果從測量誤差的角度觀之，信度就是指測驗或測驗的分數，反映出真實測量值(true measure)的程度或沒有誤差的程度，易言之，信度高，就表示包含的誤差成份很少；而信度低，就表示包含了很多的誤差成份。

二、信度的特性

人文社會科學測驗的信度都比自然科學為低。因為自然科學可以直接測量，而人文社會科學只能間接測量而推論之，其次，自然科學使用的測量工具準確性相當高，人文社會科學還常需要將抽象的狀態給數量，如此才能推論分析，另外，自然科學測量的特徵相當穩定，人文社會科學很容易有大幅的變化。

信度不是一種普遍的特質，所以測驗分數不可能在任何情境下都是可靠的或一致的。在某種情境下，分數可能很可靠，但在另一種情況下，卻未必如此。各種不同的信度，總是代表某種特殊類型的一致性或可靠性，因此，信度的考慮須視測驗分數的用途而定。例如，欲瞭解學生智力的未來發展情形，測驗的穩定性便非常重要，如果是要瞭解創造能力測驗分數的可靠性，就須要考慮到測驗分數在評分上的一致性。

在本質上，信度是一種統計的概念。採用邏輯的分析，無法提供信度有效的證據。要確定測驗的信度主要就是使用公式對測量做信度的推求。

測驗的信度愈高愈好。但是，沒有測驗是完全可靠的，所有測驗都有某些程度的不可靠，因為測量誤差是無法避免的。

三、信度的類型

◎再測信度或重測信度(test-retest reliability)、外在信度(external reliability)

估計測驗分數是否穩定，最直接的方法是重測方法，此種方法是採用同一個測驗在不同的時間，重複測量相同的一群受詴者兩次，根據這兩次分數求得的相關，稱為重測信度係數(test-retest reliability coefficient)，或稱再測信度。此係數可以表明測驗結果經過一段期間後的穩定性，故又稱穩定係數(coefficient of

stability)。如果測驗結果穩定性很高，那就是表示在第一次測驗時得到高分的，第二次測驗時也得到高分，而在第一次測驗得到低分的，第二次測驗也得到低分。換言之，受詴著的兩次測驗分數，除了少數例外，在團體中均保持同樣的相對位置。例如，有五位學生，他們前後兩次測驗分數的地位，完全維持一致不變，依這兩次分數所得的相關一定是1.00的完全相關。

如果兩次測驗分數的相關不高或很低，表示測驗結果不穩定，分數受到非系統因素的影響。導致這種變異的誤差，主要是受詴者本身情況的改變，如生病、疲勞、情緒緊張、焦慮、動機等，以及測驗情境的變化，如天、吵雜、燈光等。重測信度愈高，分數受到這兩大因素的影響就愈小。不過，因為重測信度是相同的測驗重測，測驗內容的取樣維持恆定不變，故無法反映出測驗工具的內容所導致的測量誤差，其所估計的信度傾向於過高，通常比複本信度高。

再測信度的高低和兩次間隔時間的長短有密切的關係。一般而言，間隔時間愈長，信度愈低，間隔時間愈短，信度愈高。因此，在解釋重測信度時，兩次間隔時間的長短宜列入考慮的重要因素。究竟間

隔時間要多長比較適當？這個問題的答案，應視測驗結果的使用而定。如果我們想以國小學生的測驗預測他們未來國中的學習成績，間隔幾年的穩定性就非常重要。但是，如只想預測今年的數學成就，短時間的間隔所得到的穩定性就足夠了。當分數缺乏穩定性時，以測驗分數做為未來成就的預測，其效度將大為降低。

在大多數情況下，適當的間隔時間是一週或兩週。不過，並沒有廣為大家所接受的單一標準，這完全要視測驗的種類、用途及受詴者年齡而定。測驗年齡幼小的兒童，其間隔時間要比年齡大的短，因為年幼兒童的發展速度很快，短時間內就有明顯的生長。動作與人格測驗較不受重測的影響，故重測信度適合用之，但認知測驗受的影響較大，此種信度則不十分適當。

再測信度並不是一種令人滿意的信度估計方法，因為有若干缺點。第一，易受到練習與記慮的影響。如果間隔時間太短，(一天或兩天)，因記憶前次的反應情形，答案的對錯可能重現，而導致兩次分數變為假性的高相關。第二，測驗題目的性質因重測而改變，尤以推理與思考的題目為然。在第一次思考而貫通的原則或解決問題方法，到第二次測驗時便不需要再思考，題目因而由推理變成記憶性。第三，兩次測驗時難以有相同的測驗情境。

總之，在做重測信度的分析時，必須選擇一個適當的間隔時間，以減少記憶和練習的影響，以及測量的特質本身所產生的改變之影響。

◎複本信度(alternate-forms reliability)、穩定等值信度(stability and equivalence)

測驗應該被視為從詴題的母群體(population or univer)所抽出的樣本，因此，每一個測驗都可以有許多複本測驗(alternate-form test)(題目不同但內容相

似)。例如，從一本國語詞典(教育部編)中，可以隨機抽出20個字而編成相當多的字彙測驗。在這些字彙測驗上所得分數的平均數，就是前面所述及的真實分數。如果一位受詴著在其中一份的得分是16分，我們主要的興趣並非在於他所得到的16分，而是希望從這個分數推論到他的真實分數。易言之，我們不關心他在測驗中究竟認識幾個字，而關心他在整個字彙母群體中的字彙能力有多少，這就是所謂的測驗分數的概括性(generalizability)(Cronbach, et al., 1972)，也就是測驗分數能夠推論的範圍。

採用複本方法所估計的信度，稱為複本信度(alternate-forms reliability)。此種信度旨在確定我們有多少信心能夠從個人在測驗上的得分，推論到其他相等複本測驗上的得分。估計複本信度，必須有真正的複本測驗，否則無法估計。所謂複本測驗(parallel or equivalent forms).，就是指兩份測驗在內容、型式、題數、難度、指導說明、時間限制與例題等方面，必須類似或相等。此種測驗通常是根據相同的設計說明表(table of specification)分別獨立編製而成。兩個複本測驗實施於一群相同的受詴者，依據所測量到的分數求相關，即為複本信度。此信度係數可以說明兩個複本測驗測量相同行為或內容的程度。因此，信度愈高，表示所測量的詴題樣本愈可靠，愈能以之代表所欲測量內容的範圍。

實施兩個複本測驗的方式有兩種：一種是在同一個時間連續實施，另一種是間隔一段期間實施。從前者所得到的複本信度，可以反映出測驗工具的內容所造成的誤差有多少，但無法反映出受詴者本身狀況所造成的誤差，此種複本信度又稱為等值係數(coefficient of equivalence)；從後者所得到的複本信度，不但可以反映出測驗內容的誤差，而且，也可以反映出受詴著狀況所造成的誤差，此種信度又稱為穩定與等值係數(coefficient of stability and equivalence)。因為它可以同時反映測驗內容與時間所導致的誤差，所以，是估計測驗信度的最好方法(Karmel & Karmel，1978，p114)。

雖然如此，複本信度仍有其缺點。第一，複本測驗的編製不易，不但費時，且成本較高，因此，多數的測驗都沒有複本。第二，易受練習影響的測量行為，即使採用複本方法，影響只能減少，但無法完全避免。複本信度與重測信度有很大的不同，究竟應該使用那一種?這須視實施測驗的目的而定。如果希望用測驗分數做長時間的預測，就需要重測信度。例如，採用學業性向測驗要預測高中生的大學成績，這個測驗須具有相當的穩定性。但是，測驗的目的只想推論個人在某一學科領域中具有的知識程度，則只須考慮測驗是否具備適當的複本信度。

◎內在一致信度、內在信度(internal reliability)

上述兩種信度的估計方法，均須實施兩次的測驗，受詴者的合作、動機、疲勞和厭煩等可能影響測驗的實施。因此，只根據一次測驗結果就可以估計信度的方法，較受歡迎，內部一致性方法就是屬於這種的估計方法。此種方法包括有:

本文发布于:2023-05-11 12:40:45，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/78/585394.html

上一篇：无差异点分析法名词解释

下一篇：(完整word版)t检验、F检验和P值的区别