הבדל בין KDD לכריית נתונים

הבדל בין KDD לכריית נתונים
הבדל בין KDD לכריית נתונים

וִידֵאוֹ: הבדל בין KDD לכריית נתונים

וִידֵאוֹ: הבדל בין KDD לכריית נתונים
וִידֵאוֹ: Difference between Capital Structure and Financial Structure 2024, יולי
Anonim

KDD לעומת כריית נתונים

KDD (גילוי ידע במסד נתונים) הוא תחום של מדעי המחשב, הכולל את הכלים והתיאוריות לסייע לבני אדם בחילוץ מידע שימושי ולא ידוע בעבר (כלומר ידע) מאוספים גדולים של נתונים דיגיטליים. KDD מורכב מכמה שלבים, ו-Data Mining הוא אחד מהם. כריית נתונים היא יישום של אלגוריתם ספציפי על מנת לחלץ דפוסים מנתונים. עם זאת, KDD ו-Data Mining משמשים לסירוגין.

מה זה KDD?

כפי שהוזכר לעיל, KDD הוא תחום של מדעי המחשב, העוסק בחילוץ מידע לא ידוע ומעניין עד כה מנתונים גולמיים. KDD הוא כל התהליך של ניסיון להבין נתונים על ידי פיתוח שיטות או טכניקות מתאימות. תהליך זה עוסק במיפוי של נתונים ברמה נמוכה לצורות אחרות שהן קומפקטיות יותר, מופשטות ושימושיות יותר. זה מושג על ידי יצירת דוחות קצרים, מודלים של תהליך הפקת הנתונים ופיתוח מודלים חזויים שיכולים לחזות מקרים עתידיים. עקב הגידול האקספוננציאלי של נתונים, במיוחד בתחומים כמו עסקים, KDD הפך לתהליך חשוב מאוד להמרת עושר גדול זה של נתונים לבינה עסקית, שכן חילוץ ידני של דפוסים הפך לכאורה לבלתי אפשרי בעשורים האחרונים. לדוגמה, הוא משמש כיום ליישומים שונים כמו ניתוח רשתות חברתיות, גילוי הונאה, מדע, השקעות, ייצור, טלקומוניקציה, ניקוי נתונים, ספורט, אחזור מידע ובעיקר לשיווק. KDD משמש בדרך כלל כדי לענות על שאלות כמו מהם המוצרים העיקריים שעשויים לעזור להשיג רווח גבוה בשנה הבאה בוול-מארט?.לתהליך זה מספר שלבים. זה מתחיל בפיתוח הבנה של תחום היישום והמטרה ולאחר מכן יצירת מערך נתונים יעד. לאחר מכן, ניקוי, עיבוד מקדים, הפחתה והקרנה של נתונים. השלב הבא הוא שימוש ב-Data Mining (הסבר להלן) כדי לזהות דפוס. לבסוף, ידע שהתגלה מתגבש על ידי הדמיה ו/או פרשנות.

מהי כריית נתונים?

כפי שהוזכר לעיל, כריית נתונים היא רק שלב בתהליך ה-KDD הכולל. ישנם שני יעדים עיקריים של כריית נתונים כפי שהוגדרו על ידי מטרת האפליקציה, והם אימות או גילוי. אימות הוא אימות השערת המשתמש לגבי נתונים, בעוד שגילוי מגלה באופן אוטומטי דפוסים מעניינים. ישנן ארבע משימות כריית נתונים עיקריות: אשכולות, סיווג, רגרסיה ושיוך (סיכום). אשכול הוא זיהוי קבוצות דומות מנתונים לא מובנים. סיווג הוא לימוד חוקים שניתן ליישם על נתונים חדשים.רגרסיה היא מציאת פונקציות עם מינימום שגיאות למודל נתונים. והאסוציאציה מחפשת קשרים בין משתנים. לאחר מכן, יש לבחור באלגוריתם כריית הנתונים הספציפי. בהתאם למטרה, ניתן לבחור אלגוריתמים שונים כמו רגרסיה ליניארית, רגרסיה לוגיסטית, עצי החלטה ו-Naive Bayes. לאחר מכן מחפשים דפוסי עניין בצורת ייצוג אחת או יותר. לבסוף, מודלים מוערכים באמצעות דיוק חיזוי או הבנה.

מה ההבדל בין KDD לכריית נתונים?

למרות ששני המונחים KDD ו-Data Mining נמצאים בשימוש רב זה בזה, הם מתייחסים לשני מושגים קשורים אך מעט שונים. KDD הוא התהליך הכולל של הפקת ידע מנתונים בעוד ש-Data Mining הוא שלב בתוך תהליך KDD, העוסק בזיהוי דפוסים בנתונים. במילים אחרות, כריית נתונים היא רק יישום של אלגוריתם ספציפי המבוסס על המטרה הכוללת של תהליך KDD.

מוּמלָץ: