רגרסיה (אנליזה)

בסטטיסטיקה, ניתוח רגרסיה הוא שם כולל למשפחה של מודלים סטטיסטיים להערכת הקשרים בין משתנים. המשותף לכל המודלים הוא קיומם של משתנה מוסבר (המכונה לעיתים בשם המשתנה התלוי) ומשתנה מסביר אחד או יותר (המכונים לעיתים בשם המשתנים הבלתי תלויים או המשתנים המנבאים)^[1]. בעזרת מודל רגרסיה ניתן ללמוד כיצד ערכו של המשתנה המוסבר משתנה כאשר חל שינוי בערכו של אחד המשתנים המסבירים, וערכי שאר המשתנים המסבירים נשארים קבועים. עם זאת, אין בכך די כדי להסיק סיבתיות: השינוי בערכו של המשתנה המסביר לא בהכרח גורם לשינוי בערכו של המשתנה המוסבר.

מבחינה הסתברותית, מודל הרגרסיה אומד בדרך כלל את התוחלת המותנית של המשתנה המוסבר בהינתן המשתנים המסבירים. עם זאת קיימים מודלים האומדים פרמטרי מיקום אחרים של המשתנה המוסבר, או פונקציה של התוחלת, מותנה במשתנים מסבירים.

מודלים של רגרסיה משמשים לעיתים קרובות לצורך חיזוי ערכים של המשתנה המוסבר במצבים שונים הנקבעים על ידי ערכי המשתנים המסבירים. ישנם מודלים שמאפשרים סיווג של המשתנה המוסבר למספר קבוצות (למשל, בהינתן תוצאות של בדיקות רפואיות, תוצאת המודל היא קביעה האם האדם הוא בריא או חולה). כאן יש חפיפה רבה בין המודלים הסטטיסטיים ובין התחום של למידת מכונה. שימוש נפוץ נוסף למודלים של רגרסיה הוא לבחון את מהות הקשרים בין המשתנים המסבירים (או חלקם) ובין המשתנה המוסבר. במקרים מסוימים ניתן להשתמש במודלים של רגרסיה לצורך הסקה סיבתית מהמשתנים המסבירים אל המשתנה המוסבר, אך יש לבחון היטב את ההנחות עליהן מתבססת הסקת הסיבתיות.

כמו מודלים סטטיסטיים אחרים, גם מודלים של רגרסיה מבוססים על התהליך שבו נוצרו הנתונים של המשתנה המוסבר. מאחר שבדרך כלל פרטי התהליך אינם ידועים, המודלים נשענים על הנחות, שלא כולן בהכרח ניתנות לבדיקה. הרגישות של המודל להפרת ההנחות שונה ממודל למודל, ואף תלויה בתכלית שלשמה המודל מיועד (למשל, כאשר רמת הדיוק הנדרשת מהתחזיות אינה גבוהה מאוד).

היסטוריה

מודל הרגרסיה המוקדם ביותר היה מודל הריבועים הפחותים, שפורסם על ידי לז'נדר בשנת 1805^[2] ועל ידי גאוס ב-1809^[3]. עם זאת, ידוע כי גאוס פיתח את המודל כבר ב-1801 או לפני כן, וזאת מתוך החישובים שערך לגבי מסלולו של האסטרואיד קרס. ב-1821 פרסם גאוס תאוריה מורחבת של מודל הריבועים הפחותים^[4], שכללה את הגרסה המוקדמת למשפט גאוס-מרקוב.

המושג "רגרסיה" נטבע על ידי פרנסיס גולטון (Francis Galton) בהקשר של תופעות ביולוגיות. תצפיותיו של גולטון העלו כי בנים לאנשים גבוהים אמנם היו גבוהים יחסית אך בדרך כלל פחות גבוהים מהוריהם. גולטון כינה תופעה זו בשם "רגרסיה לממוצע"^[5]. מודל הרגרסיה של גולטון היה ויזואלי, וכלל שרטוט של ערכי המשתנה המוסבר והמשתנה המסביר (היחיד) על מערכת צירים, והתאמת קו ישר המתאר את הקשר בין המשתנים.

המודל של גולטון הורחב על ידי אדני יול וקרל פירסון^[6]^[7], שהניחו במפורש כי למשתנה המסביר ולמשתנה המוסבר יש התפלגות משותפת דו נורמלית. רונלד פישר הראה ב-1922 וב-1925 כי ניתן להחליף את ההנחה הזו בהנחה יותר חלשה, לפיה ההתפלגות המותנה של המשתנה המוסבר בהינתן המשתנה המסביר היא נורמלית, אך ההתפלגות המשותפת של שני המשתנים אינה חייבת להיות דו נורמלית^[8]^[9]. במובן זה, המודל של פישר דומה לפורמולציה של גאוס מ-1821. פישר הראה גם כיצד ניתן להכליל את מודל הריבועים הפחותים למודלים של ניתוח שונות^[10] בספרו מ-1925.

במשך השנים פותחו מודלים נוספים המרחיבים את המודלים שפותחו בסוף המאה ה-19 ובתחילת המאה ה-20. כך למשל הוחלפה ההנחה כי למשתנה המוסבר יש התפלגות מותנה נורמלית בהנחות אחרות. כך למשל, כאשר מניחים כי ההתפלגות היא מולטינומית מתקבלים מודלים כגון הרגרסיה הלוגיסטית ורגרסיית הפרוביט, וכאשר המשתנה המוסבר נמדד בסולם סדר מתקבל מודל של רגרסיה אורדינלית. קיימים מודלים גם למקרים אחרים בהן הנחות היסוד של הרגרסיה הקלאסית (אחת או יותר) אינן מתקיימות.

מודל הרגרסיה הכללי

הגדרת המודל

יהיו $Y$ המשתנה המוסבר, $X=(X_{1},...,X_{p})$ המשתנים המסבירים, $\beta =(\beta _{1},...,\beta _{p})$ פרמטרים ממשיים בלתי ידועים, $f$ פונקציה כלשהי.

כן מסמנים ב- $\epsilon$ את טעות המדידה של המשתנה המוסבר $Y$ , ומניחים כי זהו משתנה מקרי בעל תוחלת 0.

מודל הרגרסיה הוא $Y=f(X,\beta )$ . ניסוח שקול למודל הוא $E(Y|X)=f(X,\beta )$ .

כדי לבצע ניתוח רגרסיה יש לציין במפורש מהי הפונקציה $f$ . לעיתים ניתן לקבוע מהי פונקציה זו על סמך ידע קיים (כגון מודל פיזיקלי או ביולוגי). כאשר אין מידע כזה על $f$ יש צורך להניח הנחה כלשהי לגבי הפונקציה. במקרים רבים נהוג להשתמש בפונקציה ליניארית, לפחות בניתוח הראשוני.

אמידת הפרמטרים

כדי לאמוד את ערכי הפרמטרים $\beta$ יש צורך בנתונים, שהם בדרך כלל תצפיות הנדגמות מתוך אוכלוסייה.

נסמן ב- $n$ את מספר התצפיות.

התצפיות של המשתנה המוסבר הן לכן $\mathbf {Y} =(y_{1},...,y_{n})$ התצפיות של המשתנה המסביר הראשון $X_{1}$ הן $\mathbf {X_{1}} =(x_{11},...x_{1n})$ וכן הלאה. ניתן לכתוב את כל נתונים המשתנים המסבירים במטריצה $\mathbf {X}$ שעמודותיה הן $\mathbf {X_{1}} ,...,\mathbf {X_{p}}$ .

שימו לב לכך שבעוד שאותיות לטיניות גדולות מסמנות משתנים מקריים, אותיות לטיניות גדולות ומודגשות מסמנות נתונים.

במונחים הנתונים ניתן לכן לנסח את המודל באופן הבא: $y_{i}=f(x_{1i},...,x_{pi},\beta _{1},...\beta _{p})$

לכל $1\leq i\leq n$ .

בניסוח זה מודל הרגרסיה מיתרגם ל- $n$ משוואות עם $p$ נעלמים.

אם $n<p$ לא ניתן לאמוד את הפרמטרים $\beta$ .
אם $n=p$ ניתן עקרונית לפתור את המשוואות ולחשב את ערכי $\beta$ , וכאשר $f$ היא פונקציה ליניארית של $\beta$ אז הפתרון הוא יחיד.
אם $n>p$ אז למערכת המשוואות יש יותר מפתרון אחד, והמודל בוחר את הפתרון שמביא לאופטימום (בדרך כלל מינימום) של פונקציית הפסד כלשהי. במקרה זה אפשר בעזרת הנחות סטטיסטיות/התפלגותיות לבצע תהליך של הסקה סטטיסטית על הפרמטרים $\beta$ .

הגודל $n-p$ מכונה בשם מספר דרגות החופש של המודל.

הנחות המודל

בבסיס מודל הרגרסיה עומדות ההנחות הבאות:

הנתונים מהווים מדגם מייצג של האוכלוסייה ממנה הם נאספו.
ל- $\epsilon$ יש תוחלת מותנה השווה ל-0 בהינתן המשתנים המסבירים .
המשתנים המסבירים נמדדים ללא טעויות מדידה.
התצפיות של המשתנים המסבירים בלתי תלויות ליניארית, כלומר העמודות של $\mathbf {X}$ בלתי תלויות ליניארית.
$\epsilon _{i}$ טעויות המדידה של $Y$ הן בלתי מתואמות (במובן של מתאם פירסון).
השונות של טעויות המדידה $\epsilon _{i}$ היא קבועה על פני כל התצפיות.

אם כל ההנחות האלה מתקיימות, אמדני הנראות המקסימלית ל- $\beta$ יהיו חסרי הטיה, עקיבים ויעילים סטטיסטית (מבין כל האמדים חסרי ההטיה ל- $\beta$ ).

ההנחות האלה בדרך כלל אינן מתקיימות במציאות. לכן, בעת יישום/אמידה של מודל רגרסיה יש לבדוק עד כמה הנתונים משקפים את ההנחות. סטייה גדולה מדי מן ההנחות מעמידה בסימן שאלה את התכונות הסטטיסטיות של האמדים.

מודלים עיקריים

רגרסיה ליניארית קלאסית

ערך מורחב – רגרסיה ליניארית

במודל זה מניחים כי הפונקציה $f$ היא פונקציה ליניארית בפרמטרים $\beta$ , וכי לשגיאה $\epsilon$ יש התפלגות נורמלית עם תוחלת 0 ושונות חיובית $\sigma ^{2}$ . כן מניחים כי המשתנים המסבירים הם משתנים כמותיים (כלומר סולם המדידה שלהם הוא סולם רווח או סולם מנה) ורציפים.

במונחי הנתונים המודל הוא $y_{i}=\beta _{1}x_{1i}+...+\beta _{p}x_{pi}$ או $\mathbf {Y} =\mathbf {X} \mathbf {b}$ .

בפרט, מודל רגרסיה המתאר קשר ליניארי (כלומר קשר המבוטא באופן גרפי על ידי קו ישר) בין שני משתנים הוא $y_{i}=\beta _{1}x_{1i}+\beta _{2}x_{2i}$ . כאן מניחים כי $x_{1i}=1$ לכל $i$ .

דוגמה נוספת למודל רגרסיה ליניארית קלאסי מובאת מתחום הפיזיקה: כאשר מטילים חפץ קטן (כדור למשל) אנכית כלפי מעלה, ובהנחה שהגובה ממנו נזרק הכדור הוא 0, אזי גובה הכדור $h$ , לאחר שעבר זמן $t$ הוא $h=v_{0}t-0.5gt^{2}$ כאשר $v_{0}$ היא המהירות ההתחלתית בה נזרק הכדור ו- $g$ היא תאוצת הכובד.

אם יש בידינו נתונים על הגבהים $h_{i}$ שבהם היה הכדור בנקודות הזמן $t_{i}$ , נוכל לכתוב את מודל הרגרסיה $h_{i}=\beta _{1}t_{i}+\beta _{2}t_{i}^{2}$ , ואז נוכל לאמוד את המהירות ההתחלתית של הכדור ואת ערכה של תאוצת הכובד מתוך הנתונים.

אף על פי שבמודל מופיע הערך $t_{i}^{2}$ זהו בכל זאת מודל רגרסיה ליניארית, מכיוון שכאמור הפונקציה $f$ היא פונקציה ליניארית של הפרמטרים $\beta _{1}$ ו- $\beta _{2}$ .

אמידת הפרמטרים של מודל הרגרסיה הליניארית הקלאסי מתבצעת על ידי מינימיזציה של סכום ריבועי השגיאות (ומכאן השם "שיטת הריבועים הפחותים"). נסמן ב- ${\hat {\beta }}=({\hat {\beta }}_{1},...{\hat {\beta }}_{p})$ את האמדים ל- $\beta =(\beta _{1},...\beta _{p})$ . שגיאת האמידה היא לכן $e_{i}=y_{i}-({\hat {\beta }}_{1}x_{1i}+..+{\hat {\beta }}_{p}x_{pi})$ . מכאן מקבלים כי סכום ריבועי שגיאות האמידה הוא $\sum _{i}e_{i}^{2}=\sum [y_{i}-({\hat {\beta }}_{1}x_{1i}+...{\hat {\beta }}_{p}x_{pi})]^{2}$ ולכן $\mathbf {\hat {\beta }} =argmin(\sum _{i}e_{i}^{2})$ .

בפועל אין צורך בביצוע תהליך של חישוב המינימום על ידי גזירה, מכיוון שגאוס ולז'נדר הראו כי ${\hat {\beta }}=\mathbf {(\mathbf {X^{'}} \mathbf {X} )^{-1}} \mathbf {X^{'}} \mathbf {Y}$ .

על פי משפט גאוס-מרקוב, ${\hat {\beta }}$ הוא האמד הליניארי חסר ההטיה הטוב ביותר עבור $\beta$ במובן ששונותו של ${\hat {\beta }}$ היא מינימלית. עם זאת ייתכנו אמדים ליניאריים ל- $\beta$ ששונותם נמוכה מהשונות של ${\hat {\beta }}$ (כגון אמד ג'יימס-שטיין), אך אלה אינם אמדים חסרי הטיה.

בנוסף לאמידת $\beta$ יש צורך לאמוד את השונות של השגיאות $\sigma ^{2}$ . על פי משפט גאוס מרקוב $MSE={\frac {\sum e_{i}^{2}}{n-p}}$ הוא אמד חסר הטיה עבור $\sigma ^{2}$ .

המודל הליניארי הכללי

במודל הליניארי הכללי חלק מהמשתנים המסבירים (או אפילו כולם) יכולים להיות משתנים איכותיים הנמדדים סולם מדידה שמי. המודל בו יש משתנה מסביר קטגורי יחיד מכונה בשם מודל ניתוח שונות, ומודל בו יש מספר משתנים מסבירים קטגוריים נקרא מודל ניתוח שונות רב כיווני. אם חלק מהמשתנים המסבירים הם משתנים קטגוריים וחלקם משתנים כמותיים המודל מכונה בשם ניתוח שונות משותפת. שמות אלה מקורם בהיסטוריה של פיתוח המודלים, אך הם גם משקפים את התכונות של האמדים לפרמטרים. אמידת הפרמטרים נעשית באותו האופן כמו ברגרסיה הליניארית הקלאסית.

המודל הליניארי המוכלל

מודלים ליניאריים מוכללים מניחים כי תהליך יצירת הנתונים של המשתנה המוסבר נובע מהתפלגות כלשהי ממשפחת ההתפלגויות המעריכיות (הכוללת, בין השאר, את ההתפלגות הנורמלית, ההתפלגות המולטינומית, התפלגות פואסון, התפלגות גמא והתפלגויות נוספות).

נסמן את התוחלת של $Y$ על ידי $\mu$ , כלומר $E(Y)=\mu$ . ותהי $g$ פונקציה מונוטונית כלשהי. כן נסמן $X\beta =\beta _{1}X_{1}+...+\beta _{p}X_{p}$ .

בסימונים אלה, המודל הליניארי המוכלל הוא $\mu =g^{-1}(X\beta )$

הפונקציה $g$ מכונה בשם פונקציית הקישור.

אמידת הפרמטרים מתבצעת בדרך כלל בשיטת הנראות המקסימלית, וחישוב האמדנים הוא נומרי.

להלן מספר דוגמאות למודלים ליניאריים מוכללים:

רגרסיה לוגיסטית: תהליך יצירת המשתנה המוסבר נובע מההתפלגות הבינומית, ופונקציית הקישור היא פונקציית הלוגיט: $g(s)=\log({\frac {s}{1-s}})$ , כאשר $0<s<1$ .
רגרסיה פואסונית: תהליך יצירת המשתנה המוסבר נובע מההתפלגות פואסון, ופונקציית הקישור היא פונקציית הלוגריתם הטבעי: $g(s)=\ln(s)$ .
רגרסיה ליניארית קלאסית היא מקרה פרטי של המודל הליניארי המוכלל בו תהליך יצירת המשתנה המוסבר נובע מההתפלגות הנורמלית, ופונקציית הקישור היא פונקציית הזהות: $g(s)=s$ .

רגרסיה לא ליניארית

אם הפונקציה $f$ אינה פונקציה ליניארית של $\beta$ , הרי שמדובר ברגרסיה לא-ליניארית.

בתחום הביולוגיה, למשל, מקובל להשתמש ב-"מודל ארבעת הפרמטרים" המתאר תגובה $Y$ למשתנה כלשהו $X$ , כגון מינון או זמן. המודל הוא: $y_{i}=\beta _{1}+{\frac {\beta _{2}-\beta _{1}}{1+({\frac {x_{i}}{\beta _{3}}})^{\beta _{4}}}}$ . אמידת הפרמטרים של מודל כזה עדיין מתבצעת על ידי מזעור ריבועי השגיאות.

ניתוח השרדות

שני מודלים מקובלים לניתוח נתוני הישרדות הם מודל רגרסיית ההשרדות הפרמטרית ומודל הסיכונים הפרופרציונליים המכונה גם בשם "רגרסיית קוקס" על שם סיר דויד קוקס.

מודלים נוספים

בין המודלים הנוספים ניתן למנות את רגרסיית האחוזונים, רגרסיה קטגורית^[11], רגרסיה אורדינלית והרגרסיה הבייסיאנית. גם האנליזה של ניתוח פני שטח מגמתיים או סטטיסטיים (Trend Surface Analysis) המתבסס על פולינום ממעלה נמוכה, יכול להיחשב כמודל של רגרסיה.

קישורים חיצוניים

מדיה וקבצים בנושא רגרסיה בוויקישיתוף

יוסי לוי, הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים, באתר "נסיכת המדעים"
יוסי לוי, מודלים ואלגוריתמים: מה ההבדל ומה הבעיה, באתר "נסיכת המדעים"
רגרסיה, אנליזה, דף שער בספרייה הלאומית

הערות שוליים

^ על אף שמם, המשתנים הבלתי תלויים אינם בהכרח בלתי תלויים סטטיסטית
^ A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
^ C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
^ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
^ Galton, Francis, Kinship and Correlation (reprinted 1989), The North American Review, 401 150, University of Northern Iowa, 1890, עמ' 419-431
^ Yule, G. Udny, On the Theory of Correlation, Journal of the Royal Statistical Society, 4 60, 1897, עמ' 812-854 doi: 10.2307/2979746
^ Pearson, Karl, G. U. Yule, Norman Blanchard, and Alice Lee., The Law of Ancestral Heredity, Biometrika, 2 2, 1903, עמ' 211-236 doi: 10.2307/2331683
^ Fisher, Ronald A, The goodness of fit of regression formulae, and the distribution of regression coefficients, Journal of the Royal Statistical Society, 4 85, 1922, עמ' 597-621 doi: 10.2307/2341124
^ Aldrich, John, Fisher and Regression, Statistical Science, 4 20, 2005, עמ' 401-417
^ Fisher, Ronald A, Statistical Methods for Research Workers, Edinburgh: Oliver & Boyd, 1925
^ Liang, K., Zeger, S., & Qaqish, B., Multivariate Regression Analyses for Categorical Data, Journal of the Royal Statistical Society. Series B (Methodological), 1 54, 1992, עמ' 3-40

[1] על אף שמם, המשתנים הבלתי תלויים אינם בהכרח בלתי תלויים סטטיסטית

[2] A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.

[3] C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)

[4] C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)

[5] Galton, Francis, Kinship and Correlation (reprinted 1989), The North American Review, 401 150, University of Northern Iowa, 1890, עמ' 419-431

[6] Yule, G. Udny, On the Theory of Correlation, Journal of the Royal Statistical Society, 4 60, 1897, עמ' 812-854 doi: 10.2307/2979746

[7] Pearson, Karl, G. U. Yule, Norman Blanchard, and Alice Lee., The Law of Ancestral Heredity, Biometrika, 2 2, 1903, עמ' 211-236 doi: 10.2307/2331683

[8] Fisher, Ronald A, The goodness of fit of regression formulae, and the distribution of regression coefficients, Journal of the Royal Statistical Society, 4 85, 1922, עמ' 597-621 doi: 10.2307/2341124

[9] Aldrich, John, Fisher and Regression, Statistical Science, 4 20, 2005, עמ' 401-417

[10] Fisher, Ronald A, Statistical Methods for Research Workers, Edinburgh: Oliver & Boyd, 1925

[11] Liang, K., Zeger, S., & Qaqish, B., Multivariate Regression Analyses for Categorical Data, Journal of the Royal Statistical Society. Series B (Methodological), 1 54, 1992, עמ' 3-40

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]