歡迎各位來到第七課: 多組SEM分析(multiple-group structural equation modelling) 多組分析multiple-group analysis分兩類: 第一類是多組驗証性因素分折multiple-group CFA (multiple-group path analysis) 舉例我們想知道男生組、女生組或高年班組、低年班組的因子結構factor structure是否相同 例如某些工具:某性格因子的工具、某學習動機的工具,是否題目與因子的從屬關係 男生組的從屬關係是否跟女生組的從屬關係相同、相似? 第二個問題是:各組的因子均值是否相同? 例如男、女生組某個性格特質的均值是否相同? 如男生的外向性和女生的外向性 又如男生的親和性和女生的親和性,是否(水平、均值)相同? 就像做ANOVA的方差分析, 比較兩組的均值,看看哪組分數較高或較低 通常我們會先做第一類分析, 證明兩組或多組組別的因子結構是相同 做多組分別時,大致上分以下幾個步驟 先是多組multiple-group的驗証性因素分析CFA,即第一大類 檢查模型的結構,再檢查其均值的分別 我們會先探討多組驗証性因素分析再探究均值的分別 首先我們會檢查模型的形態(分類法)是否相同 即模型內題目與因子的從屬關係 在不同組別當中(男、女生組或高、低年班組)是否相同 這就是分類法的異同 第二就是檢查因子負荷。 例如在這題目中男生組得出0.4,
在女生組當中又是否0.4? 這就是檢查它們的因子負荷LX是否相等 然後就檢查它們的獨特性TD是否相等, 即獨特性是否相等 另外就是因子方差(factor variance)和因子協方差(factor covariance), 這兩個方差又是否相等 例如在女生組的第一和第二個因子的相關是0.3, 在男生組的相關又是否0.3? 螢幕中顯示的就是從多組驗證性因子分析得出的結果 首先會做男生單獨組,並得出其自由度及卡方 然後做女生單獨組,同樣得出其自由度及卡方 首先檢查男生組及女生組各自的吻合度 如果發現男生組或女生組放進這模型後吻合度非常低 就接近不能再繼續做下去的情況 例如在男生組內,把其中四題歸第一個因子 另外五題歸第二個因子,另外三題歸第三個因子 最後四題歸第四個因子,如此類推 這結構套入男生組得出RMSEA、NNFI、CFI 但如果這結構套入男生組已經得出一個很差的擬合優指數 就代表男生組用這種架構(分類法)是不可行的、不合理的 如果這架構只乎合女生組而不乎合男生組,或只乎合其中一組 就代表這兩組的形態不同 但如果這模型套入各自兩組都吻合得很好 就代表這因子結構在男生組和女生組都符合, 然後再同時估計兩組 我們不提出限制相同(不變)條件invariance,只合併兩組同時估計 就是把兩組的自由度加起來、把它們的卡方加起來 但RMSEA、NNFI、CFI卻不能如此相加, 只是自由度和卡方才能這樣做 接下來就要限制其負荷爲相同(不變)invariant 即把男生組的負荷限定相等於女生組的負荷 於是它們的自由度由48變成54, 這就代表賺取了一些自由度 由M1的48轉成M2的54,節省了更多自由度 為甚麽是節省呢? 因為剛才兩組的負荷不同,
如今兩組的負荷却被限制成相等 這使模型變得簡單並節省出更多自由度,使模型的自由度增多 模型的自由度越大,它就越簡單 因爲兩組的負荷被限制成相等,卡方自然增多,由94.5變成107.18 但RMSEA、NNFI、CFI卻沒有改變太多 除了限制負荷相等以外,還對它們某個相關correlation(如PH 3 1)感到興趣 因為我們相信有些相關correlation兩組應該是不相等的 然而把PH 3 1 限定為一樣後,擬合優指數等亦找不到太大問題 於是就限定它們的因子協方差factor covariance為相同 然後我們發現這新模型的卡方上升至109.32,而自由度升至60 即是我們把男、女生組某些地方限定爲相同後,其自由度不斷上升 但如果兩組都共用一套答案,就能得出一個很節省的模型 而一個很節省的模型的自由度自然是較高 只要卡方不是太差(增加不多),就可以說這兩個模型是相同的 但如果卡方變得太差 就代表把兩個模型强逼爲一樣(相同)以後的新模型是不成立的 會使卡方增大得太多 再看看M-5,它的因子負荷、因子差factor covariance和獨特性都是限定為相同 M-6跟M-5一樣,但連截距intercept(y=mx+c, c為constant)都被限定為相同 M-7先容許每組的因子平均自由估計,但M8卻強逼兩組的因子平均值為相同 即男生組的平均數要相等於女生組的平均數 假如强逼了兩組的因子平均爲相同後,M-8相對於M-7的卡方變得很大 就代表兩組的因子平均並不一樣 但如果强逼了兩組的因子平均爲相同後 M8相對於M7的卡方仍然相近(增加不多) 就代表男、女生組或不同的組別的的因子平均是相等 至於M7內,亦可以看到每組的因子平均是多少 簡單來說,如今正在做的是逐步調高我們對模型的要求 開始時我們沒有要求兩個組別有任何相同,及後就逐步限定相同的內容 但每當限定一個相同的內容時 例如兩組的因子負荷、因子協方差factor covariance、因子平均 每加一個要求,就要跟上一個未加該要求的模型比較 如果加上要求讓兩組用同一套參數 例如女生組的負荷是0.6,男生組的負荷又是0.6 大家用上同一套參數,這是較節省、較簡單的模型並節省更多自由度 但如果這模型的卡方沒有變化太大,就代表這個要求是合理的、可接納的 即是如果它們的因子負荷被限制爲相同後,卡方沒有太大改變,只是多了一點 我們就總結它們的因子負荷實際上是相同的 但如果它們的因子負荷被限制爲相同後,卡方有太大改變(增加太多) 我們就總結:它們的因子負荷實際上是不相同的 所以我們由始至終都用同一套原則 開始時男、女生組各自做分析(各自的分類法) 接著把兩組合併一起分析,如此逐步增加要求 使兩個模型每次有多一個相同的地方 然後參考其卡方,看看有沒有改變(增大)太多 如果沒有改變太多,就總結它倆是一樣的; 如果改變太多,就總結它倆是不一樣 現在看看相關的編程方式: 先看看男生組的編程方式 先寫DA NI=9 NO=600; 但因為我們將輸入兩組不同的數據進行分析,因此NG=2 KM 代表即將輸入男生組的矩陣 然後寫上SD,因為我們必須用上協方差矩陣及其平均數 所以必須寫相關KM標準差 SD而不可單獨使用KM 輸入矩陣後就輸入MO NX=9 (9個題目) NK=3 (3個因子) 然後就是設定因子負荷自由估計 VA 1(賦值為1)則用上固定負荷法把每個因子其中一題固定為1 ND = 3 代表報告時展示3個小數位 因為DA裡NG=2,電腦會讀入再多一個DA才做分析 以下的DA不用提出NI,電腦就會自動使用早前的相關設定 NO=700 女生組有700人, 因此男、女生兩組可以用上不同的人數 (樣本數) 接著到MO,LX = PS 即式樣pattern和開始值starting value一樣 這代表我們期望電腦用上一組別的形態(fix and free pattern固定及自由式樣) 即固定和自由的位置要跟上一組別的形態 換句說話,在M1當中我們把兩組別合併 但只限於合併它們的形態,固定及自由的位置是一樣 即是兩組的分類法被強逼為相等 除此之外再沒有其他限制 這編程就會生出M1的擬合優度指數; M2的擬合優度指數的編程如螢幕顯示 同樣道理,NG=2; 然後輸入男生組的相關、標準差KM,SD;
其餘都是一樣 但女生組的LX不再是PS,這次負荷LX (loading) 的值需相同, 所以寫LX=IN,即代表不變invariant 電腦就會做一套跟男生一樣的負荷loading 別誤會電腦先做男生組再把其結果套入女生組 電腦估計男生組的負荷λ,會同時估計女生組的負荷 把兩個λ調節著並使它們相同 結果電腦會找出一套負荷λ,使男生組的Σ和S的距離最短 同時又令女生組的Σ和S的距離最短 即是電腦同時估計男生組、女生組的負荷λ (LX) 然後同時套進兩組的數據,同時把兩組Σ和S的總距離縮到最短 並不是先找出男生組的負荷LX和矩陣間的距離再套進女生組 而是男女兩組互相遷就來找出一套數值 兩組間找出的λ不但相同 兩組的矩陣間的距離加起來更是多個相同的λ當中最小的 切記第一,電腦不是先找出男生組的LX和矩陣間的距離再套進女生組 第二如果兩組人數相差太遠就得要留意 因為當電腦嘗試估計一套共用的數值時,它會考慮Σ和S的距離 如果兩組人數相差太多,電腦會遷就人多的一組,讓偏差小一點 換句說話,如果一組人數很多,一組人數很少 得出的LX是比較遷就人數多的一組 如果M2找出來的卡方沒有太大改變,而自由度又節省了 因為如今兩套LX被限定為一套LX,模型自然簡單很多 如果它的卡方比M1的卡方沒有增加太大,我們就結論它倆的負荷是相等 如今我們想檢查男生組某個相關correlation (PH 3 1)跟女生組相關correlation (PH 3 1)是否相同 檢查方法就是:男生組自由估計,女生組先寫MO LX=IN (loading是不變invariance) PH和TD都是pattern(及始值)一樣,所以PH=PS TD=PS 但我們多加一句:EQ PH 1 3 1 PH 3 1(即PH 1 3 1 等於equal to PH 3 1) PH 1 3 1 即第1組的PH 3 1 PH 3 1 卻沒有指明它從屬的組別,所以預設為本組的3 1 本組的PH 3 1跟第一組的PH 3 1一樣 所以我們可以把這兒的PH 3 1寫成PH 2 3 1亦同樣意思 如果加上相等指令EQ statement後 若果原本兩組的PH 3 1相似,它們的卡方就不會增加太多 如果兩組的PH 3 1的相關correlation並不相同 它們的卡方就會增加很多,代表兩者是不一樣的 所以這方法就能檢查男生組的PH 3 1和女生組的PH 3 1是否相同 至於M4,不但LX相同,連因子協方差PH (factor correlation covariance)都相同 因此在第二組內,LX=IN PH=IN (IN代表不變invariance) TD暫時要相同的式樣pattern 同樣道理,如果M4的卡方不是增加太多,這兩組的LX和PH就是相同 至於M5,就連獨特性TD都是相同。再檢查它的卡方有否增加太多 如果沒有增加太多,就代表兩組的TD都是相同 完成以上步驟後,就可以進入第二類分析 如果有需要,就可以比較兩組的因子均值factor mean是否相同 因子均值factor mean是甚麽? 舉例說,第一個是內、外向性因子 我們就想知道內、外向性因子 在男生組的均值跟內、外向性因子在女生組的均值有否相同 做因子均值mean structure前,我們一般會做因子負荷factor loading及因子協方差factor covariance 最好當然是男生組、女生組的所有上述參數都一致,才做因子均值比較 例如獨特性、因子負荷、factor covariance等全部一致 但大部份時候,獨特性或factor covariance (因子之間的correlation)都是不同的,這是比較難以達到的 這情況下,嚴格來說一些研究不一定可以繼續進行分析 但很多研究員在這情況下,還會繼續進行分析 檢查它們的因子均值mean structure是否相同 有一項早前很少提及的就是TX (截距),它是y = mx + c內的c (constant) 我們先讓第一組的截距TX自由估計,再要其他組的TX跟第一組的TX一致 (TX=IN) 如此來檢查它們的TX是否相同 再重溫一遍,早前的已經明白 這兒就要增多一個要求,就是檢查模型的截距intercept是否相同 要檢查模型的截距intercept是否相同,就得在第一組的MO statement上輸入TX=FR 然後在第二組的MO輸入TX=IN,使第二組的TX跟第一組的TX一致 如果有三組,做法都一樣。就是第一組輸入TX=FR,第二、三組輸入TX=IN 電腦運算時是否先在第一組自由估計,然後把結果套入第二組? 根據我們剛才的編程,第一、二組已經掛勾,兩組會共享一套估計參數 這套參數使第一、二組輸出的Σ跟S總距離最小 然後到因子均值factor mean; 我們先做第一組的因子均值factor mean,把它固定為0 在模式指令MO statement上編寫KA=FI,KA是載著factor mean的矩陣 因為是固定,所以第一組的因子均值factor mean先被固定為0 第二組則輸入KA=FR,自由估計它的因子均值factor mean 再參考最終結果 如果第二組的因子均值factor mean的t-值大於2,就代表這些factor mean跟第一組不同 因為因子的平均數本來沒有固定值 所以可以隨便固定第一組的因子均值factor mean為0,作爲參考點 如果第二組跟實質上的0相差得太遠 (t > 2),就代表它和第一組有分別 如果它跟第一組的因子均值factor mean的0沒有太大分別,就代表兩組的factor mean是相同的 螢幕顯示的就是剛才步驟的編程 跟早前沒有分別,NG=2,然後輸入男生組的相關矩陣 再看看MO指令 statement內,如今分成兩行,但平常可以一行輸入 男生組內的MO statement最後加上TX=FR,而女生組內的MO statement最後加上TX=IN 電腦就會把第一組和第二組的TX截距 (intercept)限定為相同 但如果結果顯示兩者真的不相同,卡方就自然增加很多 如果兩者真的相同,卡方就自然沒有明顯改變 因此通常我們希望卡方沒有明顯改變 因為我們都想兩者的截距intercept相同,就可以繼續下一步的分析 確定TX (intercept)是相同以後,就進一步找出女生組的均值 再確定它跟男生組的均值有沒有分別 編程方法就是在第一組的MO內輸入KA = FI,把它固定 (預設值自然為0) 在此KA代表因子的均值 只要輸入KA = FI,因子就自動被固定為0 因為因子沒有所謂0或1,因此先固定第一組的單位為0 第二組就可以寫KA = FR,電腦就會用第一組的參考點,找出第二組的均值 最後會見到第二組的KA元素是0.019,-0.102和0.083 SE就是0.054, 0.041, 0.036,t-值是0.351, -2.472, 2.329 第一組KA有三個因子,男生組的KA是固定為0的,女生組的KA是自由估計的 結果顯示第一個的均值是0.019,t-值是0.351 即是代表從0開始只有0.019的距離,統計上不顯著 換句說話,它跟0的區別很小,並不達到t-值等於2 即是女生組的語文和男生組的語文沒有大分別 而第二個因子:數學,女生組的均值是-0.102,但它的SE只有0.041,而t-值只有-2.472 這代表女生組的數學比0 (男生組被設為0) 低於兩個SE以上,達統計上顯著 因為t-值一般是1.96或2的時候就是顯著,即明顯跟0有分別 (故如今明顯低於0) 因此可以總結女生組的數學低於0 (-0.102) 而且因為大於兩個SE,所以可以總結它顯著地跟0有分別 至於英語,均值是0.083,SE是0.036,t-值是2.329,所以女生組的英語是明顯高於男生組 如果我們想多做一個總檢查,以確定兩組的均值是否一致,我們可以多做一步 (M8) M8的第一組可以輸入KA = FI,第二組可以寫成KA = IN,即固定兩組為0 然後再參考兩組的擬合優度指數,看看有沒有太多的改變(增大) 如果沒有太多改變,則代表兩者是相同的 這就是一個整體的檢查,跟剛才逐個因子檢查的結果可能出現少許矛盾 因為兩個方法的檢查目標不完全一樣 總括來說,在SEM內做分析,一般先做形態上的檢查 即模型的分類法(題目與因子的從屬關係)是否一樣 然後會檢查LX、PH、TD、TX是否相同,最後再檢查KA(因子均值)是否相同 如果檢查時未加等同(invariance)條件,我們的模型會比較複雜 因爲男、女生組各自找出自己最好的位置,兩組的總自由度會比較少 加上等同後,模型就變得簡單,因爲節省了自由度,擁有一個較大的總自由度 未加等同時,兩組會各自找出自己最好的位置,因此卡方會較少 加上等同後卡方就會變得較大,使擬合度變差 但如果加上等同,使模型簡化了許多,但擬合優度指數只有少許變化 這就代表那個等同是成立的 但如果加上等同,使模型簡化不多,擬合優度指數又有明顯較差的變化 這就代表那個等同不成立 這是一個總表,我們先檢查形態是否等同 先為第一組建構一個a priori model以表達我們猜想的分類法 其他組別一樣,使用原本的分類法 然後檢查每組的擬合優度指數是否乎合期望,如果乎合期望就檢查LX是否等同 我們先讓第一組自由估計LX,第二組的LX則限定為invariance 檢查PH時,都是讓第一組自由估計PH,第二組的PX則限定為invariance 但切記電腦分析時,不是分開兩組來估計,而是把兩者掛勾並同時估計它們的PH 即電腦會先限定兩者的PH爲一樣,然後再估計一套參數讓兩者的結果都一致 接著TD都一樣,先讓第一組自由估計TD,第二、三組的TD則限定為invariance TX同樣處理 至於KA,第一組的KA被固定為0,其他組被容許自由估計 再檢查每一組的因子跟第一組的0有沒有顯著的差異