ממוצע לעומת חציון מול מצב
ממוצע, חציון ומצב הם המדדים העיקריים של נטייה מרכזית המשמשים בסטטיסטיקה תיאורית. הם שונים לחלוטין זה מזה וגם המקרים שבהם הם משמשים לסיכום הנתונים שונים.
Mean
הממוצע האריתמטי הוא סכום ערכי הנתונים חלקי מספר ערכי הנתונים, כלומר
[latex]\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}=\frac{x_{1}+x_{2} +x_{3}+…+x_{n}}{n}[/latex]
אם הנתונים הם ממרחב מדגם, הם נקראים ממוצע מדגם ([latex]\bar{x} [/latex]), שהוא נתון תיאורי של המדגם.למרות שזהו המדד התיאורי הנפוץ ביותר עבור מדגם, זה לא נתון חזק. הוא רגיש מאוד לחריגות ולתנודות.
לדוגמה, קחו בחשבון את ההכנסה הממוצעת של אזרחי עיר מסוימת. מכיוון שכל ערכי הנתונים מסוכמים ואז מחולקים, הכנסתו של אדם עשיר מאוד משפיעה על הממוצע באופן משמעותי. לכן, הערכים הממוצעים אינם ייצוג טוב של הנתונים תמיד.
כמו כן, במקרה של אות מתחלף, הזרם העובר דרך אלמנט משתנה מעת לעת מהכיוון החיובי לכיוון השלילי ולהיפך. אם ניקח את הזרם הממוצע שעובר דרך היסוד בתקופה בודדת, הוא ייתן 0, כלומר לא עבר זרם דרך היסוד, מה שכמובן אינו נכון. לכן, גם במקרה זה, ממוצע אריתמטי אינו מדד טוב.
הממוצע האריתמטי הוא אינדיקטור טוב כאשר הנתונים מחולקים באופן שווה.עבור התפלגות נורמלית, הממוצע שווה למצב ולחציון. יש לו גם את השאריות הנמוכות ביותר כאשר לוקחים בחשבון את השגיאה הממוצעת בריבוע השורש; לכן, המדד התיאורי הטוב ביותר כאשר נדרש לייצג מערך נתונים במספר בודד.
Median
הערכים של נקודת הנתונים האמצעית לאחר סידור כל ערכי הנתונים בסדר עולה מוגדרים כחציון של מערך הנתונים. החציון הוא הרבעון השני, העשירון החמישי והאחוזון ה-50.
• אם מספר התצפיות (נקודות נתונים) הוא אי זוגי, החציון הוא התצפית בדיוק באמצע הרשימה המסודרת.
• אם מספר התצפיות (נקודות נתונים) זוגי, החציון הוא הממוצע של שתי התצפיות האמצעיות ברשימה המסודרת.
Median מחלק את התצפית לשתי קבוצות; כלומר קבוצה (50%) של ערכים גבוהים יותר וקבוצה (50%) של ערכים נמוכה מהחציון. חציונים משמשים במיוחד בהתפלגויות מוטות ומייצגים נתונים טוב יותר מהממוצע האריתמטי.
מצב
מצב הוא המספר המופיע ביותר בקבוצת תצפיות. מצב של מערך נתונים מחושב על ידי מציאת התדירות של כל רכיב בתוך הסט.
• אם לא מופיע ערך יותר מפעם אחת, אז לקבוצת הנתונים אין מצב.
• אחרת, כל ערך שמתרחש בתדירות הגבוהה ביותר הוא מצב של מערך הנתונים.
יכול להתקיים יותר ממצב אחד בקבוצה; לכן, מצב אינו נתון ייחודי של מערך נתונים. בחלוקה אחידה, יש מצב אחד. אופן התפלגות הסתברות בדיד הוא הנקודה שבה פונקציית מסת ההסתברות מגיעה לנקודה הגבוהה ביותר שלה. בעיבוד מהפרשנויות לעיל, אנו יכולים לומר שהמקסימום הגלובלי הם מצבים.
שקול את היישום של כל שלושת האמצעים על מערך הנתונים הבא.
DATA: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
ממוצע=(1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25=8.12
חציון=9 (אלמנט 13)
מצב=9 (תדירות של 9=5)
מה ההבדל בין ממוצע, חציון ומצב?
• ממוצע אריתמטי הוא סכום הערכים (התצפיות) חלקי מספר התצפיות. זה לא נתון חזק, ותלוי במידה רבה באופי ההתפלגות הנורמלית בתוך ההתפלגות הנחשבת. חריג בודד עלול לגרום לשינוי משמעותי בממוצע נותן ערכים מטעים יחסית. ניתן להרחיב את המושג לממוצע גיאומטרי, ממוצע הרמוני, ממוצע משוקלל וכן הלאה.
• חציון הוא הערכים האמצעיים של קבוצת התצפיות, והוא מושפע פחות יחסית מחריגים. זה עשוי לתת הערכה טובה כנתון הסיכום במקרים מוטים מאוד.
• מצב הוא ערכי התצפית הנפוצים ביותר במערך הנתונים. אם ההתפלגות מוטה חיובית, המצב נמצא שמאלה לחציון ואם מוטה שלילי, המצב נמצא ממש לחציון.
• אם מוטה באופן חיובי, הממוצע מתאים לחציון; אם הטיה שלילית הממוצע הוא משמאל לחציון.
• בהתפלגות הנורמלית, שלושתם, הממוצע, המצב והחציון שווים.