ההבדל העיקרי בין אשכולות לסיווג הוא שאשכולות היא טכניקת למידה לא מפוקחת שמקבצת מופעים דומים על בסיס תכונות ואילו סיווג הוא טכניקת למידה מפוקחת שמקצה תגים מוגדרים מראש למופעים על בסיס תכונות.
למרות שנראה כי אשכול וסיווג הם תהליכים דומים, יש הבדל ביניהם על סמך משמעותם. בעולם כריית הנתונים, אשכול וסיווג הם שני סוגים של שיטות למידה. שתי השיטות הללו מאפיינות אובייקטים לקבוצות לפי תכונה אחת או יותר.
מה זה אשכול?
Clustering היא שיטה לקיבוץ אובייקטים בצורה כזו שאובייקטים בעלי תכונות דומות מתאחדים, ואובייקטים בעלי תכונות שונות מתפרקים. זוהי טכניקה נפוצה לניתוח נתונים סטטיסטי עבור למידת מכונה וכריית נתונים. ניתוח והכללה של נתונים חקרניים הם גם תחום שמשתמש באשכולות.
איור 01: אשכול
Clustering שייך לכריית נתונים ללא פיקוח. זה לא אלגוריתם ספציפי אחד, אבל זו שיטה כללית לפתור משימה. לכן, ניתן להשיג אשכולות באמצעות אלגוריתמים שונים.אלגוריתם האשכול המתאימים והגדרות הפרמטרים תלויים בערכות הנתונים הבודדות. זו לא משימה אוטומטית, אבל זה תהליך איטרטיבי של גילוי. לכן, יש צורך לשנות את עיבוד הנתונים ומידול הפרמטרים עד שהתוצאה משיגה את המאפיינים הרצויים. K-means clustering ו-hierarchical clustering הם שני אלגוריתמי אשכול נפוצים בכריית נתונים.
מהו סיווג?
סיווג הוא תהליך סיווג המשתמש במערך אימון של נתונים כדי לזהות, להבדיל ולהבין אובייקטים. סיווג הוא טכניקת למידה מפוקחת שבה זמינים מערך הדרכה ותצפיות מוגדרות כהלכה.
איור 02: סיווג
האלגוריתם שמיישם סיווג הוא המסווג ואילו התצפיות הן המקרים. אלגוריתם K-Nearest Neighbor ואלגוריתמי עץ החלטות הם אלגוריתמי הסיווג המפורסמים ביותר בכריית נתונים.
מה ההבדל בין אשכולות לסיווג?
Clustering הוא למידה ללא פיקוח ואילו סיווג הוא טכניקת למידה בפיקוח. הוא מקבץ מופעים דומים על בסיס תכונות ואילו סיווג מקצה תגים מוגדרים מראש למופעים על בסיס תכונות. אשכולות מפצלת את מערך הנתונים לקבוצות משנה כדי לקבץ את המופעים עם תכונות דומות. הוא אינו משתמש בנתונים מסומנים או בסט אימון. מצד שני, סווגו את הנתונים החדשים לפי התצפיות של מערך האימונים. ערכת האימונים מסומנת בתווית.
מטרת האשכולות היא לקבץ קבוצה של אובייקטים כדי למצוא אם יש קשר כלשהו ביניהם, בעוד שסיווג מטרתו למצוא לאיזו מחלקה שייך אובייקט חדש מתוך קבוצת המחלקות המוגדרות מראש.
סיכום – אשכול מול סיווג
Clustering וסיווג יכולים להיראות דומים מכיוון ששני האלגוריתמים של כריית הנתונים מחלקים את מערך הנתונים לתת-קבוצות, אבל הם שתי טכניקות למידה שונות, בכריית נתונים כדי לקבל מידע אמין מאוסף של נתונים גולמיים. ההבדל בין אשכולות לסיווג הוא שאשכול הוא טכניקת למידה לא מפוקחת שמקבצת מופעים דומים על בסיס תכונות ואילו סיווג הוא טכניקת למידה מפוקחת שמקצה תגים מוגדרים מראש למופעים על בסיס תכונות.
תמונה באדיבות:
1."Cluster-2″ מאת Cluster-2.gif: עבודה נגזרת hellisp: (Public Domain) דרך Wikimedia Commons 2."Magnetism" מאת John Aplessed - עבודה משלו. (דומיין ציבורי) באמצעות Wikimedia Commons