שונות לעומת סטיית תקן
ווריאציה היא התופעה הנפוצה בחקר הסטטיסטיקה, כי לולא הייתה וריאציה בנתונים, כנראה שלא היינו צריכים סטטיסטיקה מלכתחילה. שונות מתוארת כשונות בסטטיסטיקה שהיא מדד למרחק של הערכים מהממוצע שלהם. השונות קטנה או קטנה אם הערכים מקובצים קרוב יותר לממוצע. סטיית תקן היא מדד נוסף לתיאור ההבדל בין התוצאות הצפויות לבין הערכים האמיתיים שלהן. למרות ששניהם קשורים קשר הדוק, ישנם הבדלים בין שונות לסטיית תקן שיידונו במאמר זה.
ערכים גולמיים הם חסרי משמעות בכל הפצה ואיננו יכולים לגזור מהם מידע משמעותי. בעזרת סטיית תקן אנו מסוגלים להעריך את המשמעות של ערך שכן הוא אומר לנו כמה אנחנו רחוקים מהערך הממוצע. השונות דומה בקונספט לסטיית תקן פרט לכך שהיא ערך בריבוע של SD. הגיוני להבין את המושגים של שונות וסטיית תקן בעזרת דוגמה.
נניח שיש איכר שמגדל דלעות. יש לו עשר דלעות במשקלים שונים שהן כדלקמן.
2.6, 2.6, 2.8, 3.0, 3.1, 3.2, 3.3, 3.5, 3.6, 3.8. קל לחשב את המשקל הממוצע של הדלעות שכן הוא סכום כל הערכים חלקי 10. במקרה זה מדובר ב-3.15 פאונד. עם זאת, אף אחת מהדלעות לא שוקלת כל כך הרבה והן משתנות במשקלן נע בין 0.55 פאונד קל יותר ל-0.65 פאונד כבד מהממוצע. כעת נוכל לכתוב את ההפרש של כל ערך מהממוצע באופן הבא
-0.55, -0.55, -0.35, -0.15, -0.05, 0.15, 0.35, 0.45, 0.65.
מה לעשות מההבדלים האלה מהממוצע., אם ננסה למצוא את ההפרש הממוצע, נראה שלא נוכל למצוא ממוצע שכן בחיבור, ערכים שליליים שווים לערכים חיוביים ולא ניתן לחשב את ההפרש הממוצע כך. זו הסיבה שהוחלט לריבוע את כל הערכים לפני חיבורם ומציאת הממוצע. במקרה זה, ערכים בריבוע מופיעים כדלקמן
0.3025, 0.3025, 0.1225, 0.0225, 0.0025, 0.0025, 0.1225, 0.2025, 0.4225.
כעת ניתן להוסיף ולחלק את הערכים הללו בעשר כדי להגיע לערך המכונה שונות. השונות הזו היא 0.1525 פאונד בדוגמה זו. לערך זה אין משמעות רבה שכן ריבוענו את ההבדל לפני שמצאנו את הממוצע שלהם. זו הסיבה שאנחנו צריכים למצוא את השורש הריבועי של השונות כדי להגיע לסטיית תקן. במקרה זה זה 0.3905 פאונד.
בקיצור:
• גם השונות וגם סטיית התקן הם מדדים לפיזור הערכים בכל נתונים.
• השונות מחושבת על ידי לקיחת הממוצע של הריבועים של הבדלים בודדים מהממוצע של המדגם
• סטיית תקן היא השורש הריבועי של השונות.