סטייה לעומת סטיית תקן
סטייה לעומת סטיית תקן
בסטטיסטיקה תיאורית והסקתית, מספר מדדים משמשים לתיאור מערך נתונים התואם לנטייה המרכזית, לפיזור והטיה שלו. בהסקה סטטיסטית, אלה ידועים בדרך כלל כאומדנים מכיוון שהם מעריכים את ערכי פרמטר האוכלוסייה.
Dispersion הוא המדד להתפשטות הנתונים סביב מרכז מערך הנתונים. סטיית תקן היא אחד המדדים הנפוצים ביותר לפיזור. הסטיות של כל נקודת נתונים מהממוצע נלקחות בחשבון בעת חישוב סטיית התקן.לפיכך, ניתן לטעון שסטיית התקן יחד עם הממוצע יספקו תמונה כמעט מספקת לגבי מערך נתונים.
שקול את מערך הנתונים הבא. משקלם של 10 אנשים (בקילוגרמים) נמדדים להיות 70, 62, 65, 72, 80, 70, 63, 72, 77 ו-79. אז המשקל הממוצע של עשרת האנשים (בקילוגרמים) הוא 71 (בקילוגרמים)).
מהי סטייה?
בסטטיסטיקה, סטייה פירושה הכמות שבה נקודת נתונים בודדת שונה מערך קבוע כמו הממוצע. באופן כללי, תן k להיות ערך קבוע ו-x1, x2, …, xn מסמנים נתונים מַעֲרֶכֶת. לאחר מכן, הסטייה של xj מ-k מוגדרת להיות (xj– k).
לדוגמה, במערך הנתונים לעיל, הסטיות המתאימות מהממוצע הן (70 - 71)=-1, (62 - 71)=-9, (65 - 71)=-6, (72 - 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 ו- (79 – 71)=8.
מהי סטיית תקן?
כאשר ניתן לקחת בחשבון נתונים מכל האוכלוסייה (למשל במקרה של מפקד אוכלוסין), ניתן לחשב את סטיית התקן של האוכלוסייה. כדי לחשב את סטיית התקן של האוכלוסייה, תחילה מחושבות את הסטיות של ערכי הנתונים מממוצע האוכלוסייה. ממוצע הריבוע של השורש (ממוצע ריבועי) של סטיות נקרא סטיית התקן של האוכלוסייה. בסמלים, σ=√{ ∑(xi-µ)2 / n} כאשר µ הוא ממוצע האוכלוסייה ו-n הוא גודל האוכלוסייה.
כאשר נעשה שימוש בנתונים ממדגם (בגודל n) להערכת פרמטרים של האוכלוסייה, סטיית התקן המדגם מחושבת. ראשית מחושבות הסטיות של ערכי הנתונים מממוצע המדגם. מכיוון שממוצע המדגם משמש במקום ממוצע האוכלוסייה (שאינו ידוע), נטילת הממוצע הריבועי אינה מתאימה. על מנת לפצות על השימוש בממוצע המדגם, סכום ריבועי הסטיות מחולק ב-(n-1) במקום n. סטיית התקן לדוגמה היא השורש הריבועי של זה.בסמלים מתמטיים, S=√{ ∑(xi-ẍ)2 / (n-1)}, כאשר S היא סטיית התקן לדוגמה, ẍ הוא ממוצע המדגם ו-xi's הם נקודות הנתונים.
בקבוצת הנתונים הקודמת, סכום הריבועים של הסטייה הוא (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1) 2 + (-8)2 + 12 + 62 + 82=366. לפיכך, סטיית התקן של האוכלוסייה היא √(366/10)=6.05 (בקילוגרמים). (בהנחה שהאוכלוסייה הנבדקת מורכבת מ-10 האנשים מהם נלקחו הנתונים).
מה ההבדל בין סטייה לסטיית תקן?
• סטיית תקן היא מדד סטטיסטי ואומד, אבל סטייה אינה.
• סטיית תקן היא מדד לפיזור של אשכול נתונים מהמרכז, ואילו סטייה מתייחסת לכמות שבה נקודת נתונים בודדת שונה מערך קבוע.