אוכלוסיה לעומת סטיית תקן לדוגמה
בסטטיסטיקה, מספר מדדים משמשים לתיאור מערך נתונים התואם את הנטייה המרכזית, הפיזור והעקה שלו. סטיית תקן היא אחד המדדים הנפוצים ביותר לפיזור הנתונים ממרכז מערך הנתונים.
בשל קשיים מעשיים, לא ניתן יהיה לעשות שימוש בנתונים מכל האוכלוסייה בעת בדיקת השערה. לכן, אנו משתמשים בערכי נתונים ממדגמים כדי להסיק מסקנות לגבי האוכלוסייה. במצב כזה, אלה נקראים אומדנים שכן הם מעריכים את ערכי פרמטר האוכלוסייה.
חשוב ביותר להשתמש באומדנים חסרי פניות בהסקת מסקנות. אומרים כי אומדן אינו מוטה אם הערך הצפוי של אותו אומדן שווה לפרמטר האוכלוסייה. לדוגמה, אנו משתמשים בממוצע המדגם בתור אומדן חסר פניות עבור ממוצע האוכלוסייה. (מתמטית, ניתן להראות שהערך הצפוי של ממוצע המדגם שווה לממוצע האוכלוסייה). במקרה של אומדן סטיית התקן של האוכלוסייה, סטיית התקן המדגם היא גם אומדן חסר פניות.
מהי סטיית תקן של אוכלוסיה?
כאשר ניתן לקחת בחשבון נתונים מכל האוכלוסייה (למשל במקרה של מפקד אוכלוסין) ניתן לחשב את סטיית התקן של האוכלוסייה. כדי לחשב את סטיית התקן של האוכלוסייה, תחילה מחושבות את הסטיות של ערכי הנתונים מממוצע האוכלוסייה. ממוצע הריבוע של השורש (ממוצע ריבועי) של סטיות נקרא סטיית התקן של האוכלוסייה.
בכיתה של 10 תלמידים, ניתן לאסוף בקלות נתונים על התלמידים.אם נבדקת השערה על אוכלוסיית תלמידים זו, אין צורך להשתמש בערכי מדגם. לדוגמה, משקלם של 10 התלמידים (בקילוגרמים) נמדדים להיות 70, 62, 65, 72, 80, 70, 63, 72, 77 ו-79. אז המשקל הממוצע של עשרת האנשים (בקילוגרמים) הוא (70+62+65+72+80+70+63+72+77+79)/10, שהם 71 (בקילוגרמים). זוהי ממוצע האוכלוסיה.
כעת כדי לחשב את סטיית התקן של האוכלוסייה, אנו מחשבים סטיות מהממוצע. הסטיות המתאימות מהממוצע הן (70 - 71)=-1, (62 - 71)=-9, (65 - 71)=-6, (72 - 71)=1, (80 - 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 ו- (79 – 71)=8. סכום ריבועי הסטייה הוא (-1)2 + (-9)2 + (-6)2 + 1 2 + 92 + (-1)2 + (-8)2+ 12 + 62 + 82 =366. סטיית התקן של האוכלוסיה הוא √(366/10)=6.05 (בקילוגרמים). 71 הוא המשקל הממוצע המדויק של תלמידי הכיתה ו-6.05 היא סטיית התקן המדויקת של משקל מ-71.
מהי סטיית תקן לדוגמה?
כאשר משתמשים בנתונים ממדגם (בגודל n) להערכת פרמטרים של האוכלוסייה, סטיית התקן המדגם מחושבת. ראשית מחושבות הסטיות של ערכי הנתונים מממוצע המדגם. מכיוון שממוצע המדגם משמש במקום ממוצע האוכלוסייה (שאינו ידוע), נטילת הממוצע הריבועי אינה מתאימה. על מנת לפצות על השימוש בממוצע מדגם, סכום ריבועי הסטיות מחולק ב-(n-1) במקום n. סטיית התקן לדוגמה היא השורש הריבועי של זה. בסמלים מתמטיים, S=√{∑(xi-ẍ)2 / (n-1)}, כאשר S היא סטיית התקן לדוגמה, ẍ הוא ממוצע המדגם ו-xi הם נקודות הנתונים.
עכשיו נניח שבדוגמה הקודמת, האוכלוסייה היא התלמידים של כל בית הספר. לאחר מכן, הכיתה תהיה רק דוגמה. אם נעשה שימוש במדגם זה באומדן, סטיית התקן המדגם תהיה √(366/9)=6.38 (בקילוגרמים) שכן 366 חולק ב-9 במקום ב-10 (גודל המדגם). העובדה שיש לשים לב לכך היא שלא מובטח שזהו ערך סטיית התקן המדויק של האוכלוסייה. זה רק אומדן עבורו.
מה ההבדל בין סטיית תקן של אוכלוסיה לסטיית תקן מדגם?
• סטיית התקן של האוכלוסיה היא ערך הפרמטר המדויק המשמש למדידת הפיזור מהמרכז, בעוד שסטיית התקן המדגם היא אומדן לא מוטה עבורה.
• סטיית התקן של האוכלוסייה מחושבת כאשר כל הנתונים לגבי כל פרט באוכלוסייה ידועים. אחרת, סטיית התקן לדוגמה מחושבת.
• סטיית התקן של האוכלוסייה ניתנת על ידי σ=√{ ∑(xi-µ)2/ n} כאשר µ הוא ממוצע האוכלוסייה ו-n הוא גודל האוכלוסייה אבל סטיית התקן המדגם ניתנת על ידי S=√{ ∑(xi-ẍ)2 / (n-1)} כאשר ẍ הוא ממוצע המדגם ו-n הוא גודל המדגם.