ההבדל העיקרי בין סיווג לעץ רגרסיה הוא שבסיווג המשתנים התלויים הם קטגוריים ולא מסודרים בעוד שברגרסיה המשתנים התלויים הם ערכים שלמים רציפים או מסודרים.
סיווג ורגרסיה הן טכניקות למידה ליצירת מודלים של חיזוי מנתונים שנאספו. שתי הטכניקות מוצגות בצורה גרפית כעצי סיווג ורגרסיה, או ליתר דיוק תרשימי זרימה עם חלוקות נתונים לאחר כל שלב, או ליתר דיוק, "הסתעפות" בעץ. תהליך זה נקרא חלוקה רקורסיבית. שדות כגון כרייה משתמשים בטכניקות אלו של סיווג ורגרסיה.מאמר זה מתמקד בעץ הסיווג ובעץ הרגרסיה.
מהו סיווג?
סיווג היא טכניקה המשמשת כדי להגיע לסכימה שמראה את ארגון הנתונים המתחיל במשתנה מבשר. המשתנים התלויים הם שמסווגים את הנתונים.
איור 01: כריית נתונים
עץ הסיווג מתחיל במשתנה הבלתי תלוי, המסתעף לשתי קבוצות כפי שנקבע על ידי המשתנים התלויים הקיימים. הוא נועד להבהיר את התגובות בצורה של סיווג שנוצר על ידי המשתנים התלויים.
מהי רגרסיה
רגרסיה היא שיטת חיזוי המבוססת על ערך פלט מספרי משוער או ידוע. ערך פלט זה הוא תוצאה של סדרה של חלוקה רקורסיבית, כאשר לכל שלב יש ערך מספרי אחד ועוד קבוצה של משתנים תלויים המסתעפים לזוג אחר כמו זה.
עץ הרגרסיה מתחיל עם משתנה מבשר אחד או יותר ומסתיים במשתנה פלט סופי אחד. המשתנים התלויים הם משתנים מספריים רציפים או נפרדים.
מה ההבדל בין סיווג לרגרסיה?
סיווג לעומת רגרסיה |
|
מודל עץ שבו משתנה היעד יכול לקבל קבוצה נפרדת של ערכים. | מודל עץ שבו משתנה היעד יכול לקבל ערכים רציפים בדרך כלל מספרים ממשיים. |
משתנה תלוי | |
עבור עץ הסיווג, המשתנים התלויים הם קטגוריים. | עבור עץ רגרסיה, המשתנים התלויים הם מספריים. |
Values | |
יש כמות מוגדרת של ערכים לא מסודרים. | יש לו ערכים דיסקרטיים עדיין מסודרים או ערכים לא דיסקרטיים. |
מטרת הבנייה | |
מטרת בניית עץ הרגרסיה היא להתאים מערכת רגרסיה לכל ענף דטרמיננטי באופן שערך הפלט הצפוי יעלה. | עץ סיווג מסתעף כפי שנקבע על ידי משתנה תלוי שנגזר מהצומת הקודם. |
סיכום – סיווג לעומת רגרסיה
עצי רגרסיה וסיווג הם טכניקות מועילות למיפוי התהליך המצביע על תוצאה שנחקרה, בין אם בסיווג ובין אם בערך מספרי בודד. ההבדל בין עץ הסיווג לעץ הרגרסיה הוא המשתנה התלוי שלהם. לעצי סיווג יש משתנים תלויים שהם קטגוריים ולא מסודרים. לעצי רגרסיה יש משתנים תלויים שהם ערכים רציפים או ערכים שלמים מסודרים.