מודל לוג-ליניארי

מודל לוג ליניארי משמש בסטטיסטיקה לבחינת מבנה הקשר בין מספר משתנים איכותיים. המודל הוצג לראשונה בשנות ה-60 של המאה העשרים על ידי איבון בישופ.

מוטיבציה ומודל ללוח שכיחות דו־ממדי

יהיו X ו-Y שני משתנים מקריים איכותיים כאשר ללא הגבלת הכלליות המשתנה X יכול לקבל את הערכים 1,2,...,I והמשתנה Y יכול לקבל את הערכים 1,2,...,J.

נתבונן במדגם בגודל n מתוך אוכלוסייה כלשהי, ונסמן ב-nij את מספר הפרטים במדגם עבורם X=i ו-Y=j. נאמר כי nij היא השכיחות של התצפיות במדגם עבורן X=i ו-Y=j. הטבלה שבה יש I שורות ו-J עמודות, ובהצטלבות השורה ה-i והעמודה ה-j נמצא המספר nij נקראת לוח השכיחות של המשתנים X ו-Y. מכיוון שלטבלה יש שני ממדים (אורך ורוחב) לוח השכיחות הוא דו-ממדי. לוח השכיחות הוא למעשה הנתונים שיש לנתח.

כן נסמן ב-ni. את מספר הפרטים במדגם עבורם X=i, וב-n.j נסמן את מספר הפרטים במדגם עבורם Y=j.

אם אין לנו שום ידיעה על ההתפלגות המשותפת של X ושל -Y, אז mij, תוחלת מספר הפרטים במדגם שעבורם X=1 ו- Y=2 היא mij=nP(x=i,Y=j).

אם לעומת זאת נניח כי X ו-Y הם משתנים מקריים בלתי תלויים, אז P(X=i,Y=j)=P(X=i)P(Y=j) לכל i ולכל j, ולכן mij=nP(X=i)P(Y=j).

אמדים להסתברויות אלה הם P^(X=i)=ni.n ו-P^(Y=j)=n.jn, ולכן, תחת הנחת אי התלות: m^ij=nP^(X=i)P^(Y=j)=nni.nn.jn=ni.n.jn

על ידי הפעלת פונקציית הלוגריתם נקבל כי logm^ij=logni.+logn.jlogn.

באגף ימין יש שלושה מחוברים, אחד מהם תלוי ב-X וב-i, השני תלוי ב-Y וב-j, והשלישי אינו תלוי במשתנים או בערכים אלא רק בגודל המדגם.

לכן, מודל מתקבל על הדעת עבור אי התלות בין X ו-Y (בהנחה כי היא מתקיימת) הוא: logmij=λ+λiX+λjY לכל i ולכל j.

אם לעומת זאת המשתנים אינם בלתי תלויים אז השוויון האחרון אינו נכון, והמודל המתאים הוא logmij=λ+λiX+λjY+λijXYכאשר λijXY0 לפחות עבור זוג ij אחד. מודל זה מכונה "המודל הרווי", מכיוון שהוא תמיד מתאים לנתונים התאמה מלאה. הביטוי λijXYמבטא את האינטראקציה (יחסי הגומלין) בין X ו-Y.

מכאן ש-X ו-Y הם בלתי תלויים אם ורק אם λijXY=0 לכל i ולכל j.

אמידת הפרמטרים וטיב ההתאמה

קל לראות כי כפי שהמודל הרווי הוגדר עבור לוח השכיחות הדו־ממדי, מספר הפרמטרים λ גדול באופן משמעותי ממספר הנתונים. יתרה מזו, הערכים הנאמדים של λ אינם יכולים לקבל כל ערך אפשרי מכיוון שניתן לבטא בעזרתם את ההסתברויות P(X=i,Y=j) והסתברויות אלה חייבות להסתכם ל-1. גם ההסתברויות P(X=i) חייבות להסתכם ל-1 וכן ההסתברויות P(Y=j).

לכן יש להשית אילוצים מתאימים על הערכים של ה-λ-ות.

מערכת אילוצים אפשרית עבור מודל אי תלות ללוח שכיחות דו־ממדי היא: iλiX=0 ו- jλjY=0. אילוצים אלה הם אנלוגיים לאילוצים iP(X=i)=1 ו-jP(Y=j)=1. בהינתן אילוצים אלו, למודל יש (I1)(J1) דרגות חופש.

כדי לאמוד את הפרמטרים של המודל הרווי יש צורף באילוצים נוספים: iλijXY=0 לכל j ו-jλijXY=0 לכל i. בהינתן אילוצים אלה, למודל הרווי יש 0 דרגות חופש. מאילוצים אלה נובע כי השערת אי התלות בין המשתנים ניתנת לניסוח כ-H0:λ11XY=0.

אמידת הפרמטרים נעשית בשיטת הנראות המרבית[1]. לאחר מכן ניתן לבחון את טיב ההתאמה של המודל לנתונים בעזרת מבחן חי בריבוע.

בתוכנת R ניתן לאמוד את הפרמטרים של המודלים הלוג ליניאריים בעזרת הפונקציה loglin הזמינה בחבילת הבסיס של התוכנה.

מודלים ללוח שכיחות תלת־ממדי

באופן דומה להגדרת לוח השכיחות הדו־ממדי, נוכל להגדיר את לוח השכיחות התלת־ממדי על ידי האוסף nijk, כאשר זהו מספר התצפיות במדגם עבורן Z=k Y=j, X=i, וכאשר X,Y,Z הם משתנים מקריים המקבלים I,J,Kערכים בהתאמה.

המודל הרווי ללוח שכיחות תלת־ממדי הוא:

logmijk=λ+λiX+λjY+λkZ+λijXY+λikXZ+λjkYZ+λijkXYZ

ניתן לגזור מודלים שונים עבור ההתפלגות המשותפת של Y, X ו-Z על ידי איפוס גורמי אינטראקציה.

מודל אי תלות

מודל אי תלות מתקבל על ידי איפוס כל האינטראקציות:

logmijk=λ+λiX+λjY+λkZ

מודל אי תלות בין Y ו-Z בהינתן X

מודל זה מתקבל על ידי איפוס האינטראקציה מסדר 3 λijkXYZ, וכן על ידי איפוס λjkYZ, האינטראקציה בין Y ו-Z.

המודל הוא

logmijk=λ+λiX+λjY+λkZ+λijXY+λikXZ

מודל בו X בלתי תלוי ב-(Y,Z)

מודל זה מתקבל על ידי איפוס האינטראקציה מסדר 3 λijkXYZ, וכן על ידי איפוס האינטראקציה בין X ל-Y - λijXY והאינטראקציה בין X ל-Z - λikXZ.

המודל הוא

logmijk=λ+λiX+λjY+λkZ+λjkYZ

אי תלות בזוגות

על פי מודל זה X ו-Y בלתי תלויים, X ו-Z בלתי תלויים, וגם Y ו-Z בלתי תלויים, אבל Y, X ו-Z יחדיו אינם בלתי תלויים.

מודל זה מתקבל על ידי איפוס האינטראקציות מסדר 2 אך מותיר את האינטראקציה מסדר 3. המודל הוא

logmijk=λ+λiX+λjY+λkZ+λijkXYZ

מודל עם כל האינטראקציות מסדר 2

מודל זה מתקבל על ידי איפוס האינטראקציה מסדר 3. למודל אין אינטרפרטציה הסתברותית ברורה. המודל הוא

logmijk=λ+λiX+λjY+λkZ+λijXY+λikXZ+λjkYZ

הקשר בין המודל הלוג ליניארי ומודל הרגרסיה הלוגיסטית

קיימת חפיפה בין המודל הלוג ליניארי ומודל הרגרסיה הלוגיסטית במובן שבמקרים מסוימים שני המודלים שקולים. נדגים זאת בעזרת לוח שכיחות דו־ממדי מסדר 2×J, כלומר המשתנה X מקבל שני ערכים והמשתנה Y מקבל J ערכים.

בהנחה כי X ו-Y בלתי תלויים, מתקיים כי P(X=i|Y=j)=P(X=i) לכל i ולכל j, ובפרט יחס הסיכויים של X בהינתן Y הוא קבוע, כלומר logP(X=2|Y=j)P(X=1|Y=j)=β0.

על פי המודל הלוג ליניארי לאי תלות:

logP(X=2|Y=j)P(X=1|Y=j)=logP(X=2,Y=j)P(X=1,Y=j)=logp2jp1j=logm2jm1j=logm2jlogm1j=(λ+λ2X+λjY)(λ+λ1X+λjY)=λ2Xλ1X

ואכן, קיבלנו כי לוג יחס הסיכויים אינו תלוי ב-Y. יתרה מזאת, מצאנו כי ניתן לבטא את פרמטר הרגרסיה הלוגיסטית β0 בעזרת הפרמטרים של המודל הלוג ליניארי: β0=λ2Xλ1X.

כאשר X ו-Y אינם בלתי תלויים, מודל הרגרסיה הלוגיסטית הוא logP(X=2|Y)P(X=1|Y)=β0+β1Y כלומר לוג יחס הסיכויים תלוי ב-Y.

באופן דומה לפיתוח שנעשה עבור מודל אי התלות, נוכל למצוא כי עבור המודל הרווי:

logP(X=2|Y=j)P(X=1|Y=j)=(λ2Xλ1X)+(λ2jXYλ1jXY)

כלומר לוג יחס הסיכויים הוא סכום של שני מחוברים, אחד מהם אינו תלוי ב-Y והשני תלוי ב-Y.

לקריאה נוספת

  • בתהליכי בנייה "תבנית:Cite book"
  • בתהליכי בנייה "תבנית:Cite book"
  • בתהליכי בנייה "תבנית:Cite book"

הערות שוליים

  1. ^ Stephen E. Fienberg and Alessandro Rinaldo, Maximum likelihood estimation in log-linear models, Annals of Statistics, 2 40, Institute of Mathematical Statistics, 2012, עמ' 996-1023 doi: 10.1214/12-AOS986