雙向表中變量獨(dú)立的自由度

兩個分類變量獨(dú)立的自由度數(shù)由一個簡單的公式給出:(r-1)(c-1)。這里r是行數(shù),c是分類變量值的雙向表中的列數(shù)。繼續(xù)閱讀以了解有關(guān)此主題的更多信息并了解為什么此公式給出正確的數(shù)字。

Background

許多假設(shè)檢驗(yàn)過程中的一個步驟是確定自由度數(shù)。這個數(shù)字很重要,因?yàn)閷τ谏婕耙幌盗蟹植嫉母怕史植?,例如卡方分布,自由度?shù)確定了我們在假設(shè)檢驗(yàn)中應(yīng)使用的家庭的確切分布。

自由度代表我們在特定情況下可以做出的自由選擇的數(shù)量。要求我們確定自由度的假設(shè)檢驗(yàn)之一是兩個分類變量的獨(dú)立性卡方檢驗(yàn)。

獨(dú)立性測試和雙向表

獨(dú)立性的卡方檢驗(yàn)要求我們構(gòu)建一個雙向表,也稱為列聯(lián)表。這種類型的表具有r行和c列,表示一個分類變量的r水平和另一個分類變量的c水平。因此,如果我們不計算記錄總數(shù)的行和列,則雙向表中總共有rc個單元格。

卡方檢驗(yàn)的獨(dú)立性使我們能夠檢驗(yàn)分類變量彼此獨(dú)立的假設(shè)。如上所述,表中的r行和c列給出我們(r-1)(c-1))自由度。但可能不清楚為什么這是正確的自由度數(shù)量。

De的數(shù)量自由之家

為了查看為什么(r-1)(c-1)是正確的數(shù)字,我們將更詳細(xì)地檢查這種情況。假設(shè)我們知道分類變量的每個級別的邊際總數(shù)。換句話說,我們知道每行的總數(shù)和每列的總數(shù)。對于第一行,我們表中有c列,因此有c個單元格。一旦我們知道這些單元中除了一個單元之外的所有單元的值,那么因?yàn)槲覀冎浪袉卧目倲?shù),所以確定剩余單元的值是一個簡單的代數(shù)問題。如果我們填寫表格中的這些單元格,我們可以自由輸入其中的c-1,但其余單元格由行的總數(shù)確定。因此,第一行有c-1個自由度。

我們在下一行繼續(xù)以這種方式,再次有c-1個自由度。這個過程一直持續(xù)到我們倒數(shù)第二行。除**一行外,每行對總數(shù)貢獻(xiàn)c-1個自由度。到我們擁有**一行以外的所有內(nèi)容時,因?yàn)槲覀冎懒锌偤?,所以我們可以確定**一行的所有條目。這給了我們r-1行,每行c-1自由度,總共(r-1)(c-1)自由度。

示例

我們通過以下示例看到這一點(diǎn)。假設(shè)我們有一個帶有兩個分類變量的雙向表。一個變量有三個級別,另一個變量有兩個級別。此外,假設(shè)我們知道該表的行和列總數(shù):

114 A級115116級B 117132級133142級3級143
Total
1級100
200
300
總計200400600

該公式預(yù)測有(3-1)(2-1)=2個自由度。我們看到如下。假設(shè)我們用數(shù)字80填充左上角的單元格。這將自動確定整個第一行條目:

186 A級187188級B 189級194級1 195198 20 199204級2 205
總計
80100
200
3級300
總計200400600

現(xiàn)在,如果我們知道第二行中的第一個條目是50,那么表格的其余部分將被填寫,因?yàn)槲覀冎烂啃泻土械目倲?shù):

258 A級259286級3 287
B級總計
Level 18020100
Level 250150200
70230300
Total200400600

311該表完全填寫,但我們只有兩個自由選擇。一旦知道這些值,表的其余部分就完全確定了。

雖然我們通常不需要知道為什么有這么多的自由度,但很高興知道我們真的只是將自由度的概念應(yīng)用于新的情況。

科普星

科普_1