卡方擬合優(yōu)度檢驗(yàn)的例子

卡方擬合優(yōu)度檢驗(yàn)可用于將理論模型與觀察數(shù)據(jù)進(jìn)行比較。該測試是一種更一般的卡方檢驗(yàn)。與數(shù)學(xué)或統(tǒng)計(jì)學(xué)中的任何主題一樣,通過卡方擬合優(yōu)度檢驗(yàn)的例子,通過一個(gè)例子來理解發(fā)生了什么可能會(huì)有所幫助。

考慮一個(gè)標(biāo)準(zhǔn)的牛奶巧克力M&包裝;女士。有六種不同的顏色:紅色,橙色,黃色,綠色,藍(lán)色和棕色。假設(shè)我們對這些顏色的分布很好奇,問,所有六種顏色是否以相等的比例出現(xiàn)?這是可以通過擬合優(yōu)度測試來回答的問題類型。

Setting

我們首先注意設(shè)置以及為什么適合擬合優(yōu)度測試。我們的顏色變量是**的。這個(gè)變量有六個(gè)級別,對應(yīng)于可能的六種顏色。我們將假設(shè)我們計(jì)數(shù)的M&Ms將是來自所有M&Ms群體的簡單隨機(jī)樣本。

Null and Alternative hypothesis

我們擬合優(yōu)度檢驗(yàn)的零假設(shè)和替代假設(shè)反映了我們對人口做出的假設(shè)。由于我們正在測試顏色是否以相等的比例出現(xiàn),我們的零假設(shè)是所有顏色都以相同的比例出現(xiàn)。更正式地說,如果p是紅色念珠菌的種群比例,p是橙色念珠菌的種群比例,依此類推,那么零假設(shè)是p=p=。=p=1/6。

另一種假設(shè)是,至少一個(gè)人口比例不等于1/6。

實(shí)際和預(yù)期計(jì)數(shù)

實(shí)際計(jì)數(shù)是六種顏色中每種顏色的糖果數(shù)量。預(yù)期數(shù)量是指如果零假設(shè)是真的,我們會(huì)期待什么。我們將讓n成為我們樣本的大小。紅色糖果的預(yù)期數(shù)量為p nn/6。實(shí)際上,在這個(gè)例子中,六種顏色中每種顏色的預(yù)期糖果數(shù)量僅為npn/6。

擬合優(yōu)度的卡方統(tǒng)計(jì)量

現(xiàn)在,我們將為特定示例計(jì)算卡方統(tǒng)計(jì)量。假設(shè)我們有一個(gè)600 M&M糖果的簡單隨機(jī)樣本,分布如下:

  • 212的糖果是藍(lán)色的。
  • 147的糖果是橙色的。
  • 103的糖果是綠色的。
  • 50的糖果是紅色的。
  • 46的糖果是黃色的。
  • 42的糖果是棕色的。

如果零假設(shè)是真的,那么每種顏色的預(yù)期計(jì)數(shù)將是(1/6)×600=100。我們現(xiàn)在在計(jì)算卡方統(tǒng)計(jì)量時(shí)使用它。

我們根據(jù)每種顏色計(jì)算對統(tǒng)計(jì)數(shù)據(jù)的貢獻(xiàn)。每個(gè)都是(實(shí)際-預(yù)期)2/預(yù)期的形式:

    對于藍(lán)色,我們有(212-100)95 95 2 96/100 125.44 97 97 98對于橙色,我們有(147-100)99 2 100/100 22.09 101 102對于綠色,我們有(103-100)103 2 104/100/100 0.09 105/105/106對于藍(lán)色,我們有(50-100)107 2 108/100 25 109/110 110對于藍(lán)色,我們有(212-100)9595 2 96/96/100 125.44/100 125.44 97 97/98 98對于橙色,我們有(147-100)
  • 對于棕色,我們有(42–-100)22/100/100=100=在100)2/100=33.64

然后,我們將所有這些貢獻(xiàn)相加,并確定我們的卡方統(tǒng)計(jì)量為125.44+22.09+0.09+25+29.16+33.64=235.42。

自由度

擬合優(yōu)度測試的自由度數(shù)僅比我們變量的等級數(shù)少一個(gè)。由于有六種顏色禮儀常識(shí),我們有6-1=5個(gè)自由度。

133 134卡方表和P值135 136

我們計(jì)算的235.42的卡方統(tǒng)計(jì)量對應(yīng)于具有五個(gè)自由度的卡方分布上的特定位置。現(xiàn)在,我們需要一個(gè)p值來確定在假設(shè)零假設(shè)為真的情況下,獲得至少與235.42一樣極端的檢驗(yàn)統(tǒng)計(jì)量的概率。

Microsoft的Excel可以用于此計(jì)算。我們發(fā)現(xiàn)具有五個(gè)自由度的檢驗(yàn)統(tǒng)計(jì)量的p值為7.29 x 10-49。這是一個(gè)非常小的p值。

決策規(guī)則

我們根據(jù)p值的大小決定是否拒絕零假設(shè)。由于我們有一個(gè)非常小的p值,我們拒絕零假設(shè)。我們得出結(jié)論,M&Ms在六種不同顏色中分布不均勻。后續(xù)分析可用于確定一種特定顏色的人口比例的置信區(qū)間。