הבדל בין אשכולות היררכיים ומחלקים

הבדל בין אשכולות היררכיים ומחלקים
הבדל בין אשכולות היררכיים ומחלקים

וִידֵאוֹ: הבדל בין אשכולות היררכיים ומחלקים

וִידֵאוֹ: הבדל בין אשכולות היררכיים ומחלקים
וִידֵאוֹ: How to Measure Ounces and Pounds 2024, יולי
Anonim

אשכול היררכי לעומת חלקי

Clustering היא טכניקת למידת מכונה לניתוח נתונים וחלוקה לקבוצות של נתונים דומים. קבוצות אלה או קבוצות של נתונים דומים ידועים כאשכולות. ניתוח אשכולות בוחן אלגוריתמים של אשכולות שיכולים לזהות אשכולות באופן אוטומטי. היררכי ומחלקי הם שני מחלקות כאלה של אלגוריתמי מקבץ. אלגוריתמי אשכולות היררכיים מפרקים את הנתונים להיררכיה של אשכולות. אלגוריתמים פריציונליים מחלקים את מערך הנתונים למחיצות נפרדות זו מזו.

מהו אשכול היררכי?

אלגוריתמי אשכולות היררכיים חוזרים על המחזור של מיזוג אשכולות קטנים יותר לגדולים יותר או חלוקת אשכולות גדולים יותר לקטנים יותר.כך או כך, הוא מייצר היררכיה של אשכולות הנקראים דנדוגרמה. אסטרטגיית אשכולות אגלומרטיבית משתמשת בגישה מלמטה למעלה של מיזוג אשכולות לגדולים יותר, בעוד שאסטרטגיית אשכולות חלוקתית משתמשת בגישה מלמעלה למטה של פיצול לקטנים יותר. בדרך כלל, הגישה החמדנית משמשת להחלטה אילו אשכולות גדולים/קטנים יותר משמשים למיזוג/חלוקה. מרחק אוקלידי, מרחק מנהטן ודמיון קוסינוס הם חלק מהמדדים הנפוצים ביותר של דמיון עבור נתונים מספריים. עבור נתונים לא מספריים, נעשה שימוש במדדים כגון מרחק Hamming. חשוב לציין כי התצפיות (המופעים) בפועל אינן נחוצות לצבירות היררכית, מכיוון שרק מטריצת המרחקים מספיקה. דנדוגרמה היא ייצוג חזותי של האשכולות, המציג את ההיררכיה בצורה ברורה מאוד. המשתמש יכול להשיג אשכולות שונים בהתאם לרמה שבה חותכים את הדנדוגרמה.

מהו אשכול חלקי?

אלגוריתמים של אשכולות חלקיים יוצרים מחיצות שונות ולאחר מכן מעריכים אותם לפי קריטריון כלשהו.הם מכונים גם כלא-היררכיים מכיוון שכל מופע ממוקם בדיוק באחד מ-k אשכולות הבלעדיים הדדית. מכיוון שרק קבוצה אחת של אשכולות היא הפלט של אלגוריתם אשכולות חלקי טיפוסי, המשתמש נדרש להזין את המספר הרצוי של אשכולות (נקרא בדרך כלל k). אחד האלגוריתמים הנפוצים ביותר של אשכולות מחיצות הוא אלגוריתם ה-k-means אשכולות. המשתמש נדרש לספק את מספר האשכולות (k) לפני ההתחלה והאלגוריתם מפעיל תחילה את המרכזים (או המרכזונים) של המחיצות k. בקצרה, אלגוריתם מקבצים של k-פירושו מקצה איברים על סמך המרכזים הנוכחיים ומעריך מחדש מרכזים על סמך האיברים הנוכחיים. שני השלבים הללו חוזרים על עצמם עד שפונקציית יעד מסוים של דמיון תוך-אשכול ופונקציית יעד אי-הדמיון בין אשכולות עוברות אופטימיזציה. לכן, אתחול נבון של מרכזים הוא גורם חשוב מאוד בהשגת תוצאות איכותיות מאלגוריתמים של אשכולות מחיצות.

מה ההבדל בין אשכול היררכי למחלקות?

לאשכול היררכי ומחלקי יש הבדלים עיקריים בזמן ריצה, הנחות, פרמטרי קלט ואשכולות כתוצאה מכך. בדרך כלל, אשכול חלקי מהיר יותר מאשר אשכול היררכי. צבירת היררכיה דורשת רק מדד דמיון, בעוד שצרור חלקי מצריך הנחות חזקות יותר כמו מספר האשכולות והמרכזים הראשוניים. אשכול היררכי אינו דורש פרמטרים כלשהם של קלט, בעוד שאלגוריתמים של אשכולות חלקיים דורשים את מספר האשכולות כדי להתחיל לפעול. מקבץ היררכי מחזיר חלוקה הרבה יותר משמעותית וסובייקטיבית של אשכולות, אבל מקבץ חלקי מביא ל-k אשכולות בדיוק. אלגוריתמי אשכול היררכי מתאימים יותר לנתונים קטגוריים כל עוד ניתן להגדיר מדד דמיון בהתאם.

מוּמלָץ: