DBMS לעומת כריית נתונים
A DBMS (מערכת ניהול מסד נתונים) היא מערכת שלמה המשמשת לניהול מסדי נתונים דיגיטליים המאפשרת אחסון של תוכן מסד נתונים, יצירה/תחזוקה של נתונים, חיפוש ופונקציות נוספות. מאידך, Data Mining הוא תחום במדעי המחשב, העוסק בחילוץ מידע לא ידוע ומעניין עד כה מנתונים גולמיים. בדרך כלל, הנתונים המשמשים כקלט לתהליך כריית הנתונים מאוחסנים במסדי נתונים. משתמשים הנוטים לסטטיסטיקה משתמשים ב-Data Mining. הם משתמשים במודלים סטטיסטיים כדי לחפש דפוסים נסתרים בנתונים. כורי נתונים מעוניינים למצוא קשרים שימושיים בין מרכיבי נתונים שונים, מה שבסופו של דבר רווחי לעסקים.
DBMS
DBMS, לפעמים נקרא רק מנהל מסד נתונים, הוא אוסף של תוכנות מחשב המיועדות לניהול (כלומר ארגון, אחסון ושליפה) של כל מסדי הנתונים המותקנים במערכת (כלומר כונן קשיח או רשת). ישנם סוגים שונים של מערכות ניהול מסדי נתונים הקיימות בעולם, וחלקן מיועדות לניהול נכון של מסדי נתונים המוגדרים למטרות ספציפיות. המערכות המסחריות הפופולריות ביותר לניהול מסדי נתונים הן Oracle, DB2 ו-Microsoft Access. כל המוצרים הללו מספקים אמצעים להקצאת רמות שונות של הרשאות למשתמשים שונים, מה שמאפשר לשלוט על DBMS באופן מרכזי על ידי מנהל יחיד או להיות מוקצה למספר אנשים שונים. ישנם ארבעה אלמנטים חשובים בכל מערכת לניהול מסדי נתונים. הם שפת המודלים, מבני הנתונים, שפת השאילתה ומנגנון העסקאות. שפת המודלים מגדירה את השפה של כל מסד נתונים שמתארח ב-DBMS.נכון לעכשיו, מספר גישות פופולריות כמו היררכיות, רשתות, יחסיות ואובייקט נמצאות בפועל. מבני נתונים עוזרים לארגן את הנתונים כגון רשומות בודדות, קבצים, שדות והגדרותיהם ואובייקטים כגון מדיה חזותית. שפת שאילתת הנתונים שומרת על אבטחת מסד הנתונים על ידי ניטור נתוני כניסה, זכויות גישה למשתמשים שונים ופרוטוקולים להוספת נתונים למערכת. SQL היא שפת שאילתה פופולרית המשמשת במערכות ניהול מסדי נתונים יחסיים. לבסוף, המנגנון המאפשר ביצוע עסקאות מסייע במקבילות וריבוי. מנגנון זה יוודא שאותה רשומה לא תשתנה על ידי מספר משתמשים בו-זמנית, ובכך ישמור על שלמות הנתונים בטקט. בנוסף, DBMS מספק גיבוי ומתקנים אחרים גם כן.
כריית נתונים
כריית נתונים ידועה גם בשם Knowledge Discovery in Data (KDD). כפי שהוזכר לעיל, מדובר בחברת מדעי המחשב, העוסקת בחילוץ מידע לא ידוע ומעניין עד כה מנתונים גולמיים.בשל הגידול האקספוננציאלי של נתונים, במיוחד בתחומים כמו עסקים, כריית נתונים הפכה לכלי חשוב מאוד להמרת עושר גדול זה של נתונים לבינה עסקית, שכן חילוץ ידני של דפוסים הפך לכאורה לבלתי אפשרי בעשורים האחרונים. לדוגמה, הוא משמש כיום עבור יישומים שונים כגון ניתוח רשתות חברתיות, גילוי הונאה ושיווק. כריית נתונים עוסקת בדרך כלל בארבע המשימות הבאות: אשכולות, סיווג, רגרסיה ושיוך. אשכול הוא זיהוי קבוצות דומות מנתונים לא מובנים. סיווג הוא כללי למידה שניתן ליישם על נתונים חדשים ובדרך כלל יכלול את השלבים הבאים: עיבוד מקדים של נתונים, עיצוב מודלים, למידה/בחירת תכונות והערכה/אימות. רגרסיה היא מציאת פונקציות עם מינימום שגיאות למודל נתונים. והאסוציאציה מחפשת קשרים בין משתנים. כריית נתונים משמשת בדרך כלל כדי לענות על שאלות כמו מהם המוצרים העיקריים שעשויים לעזור להשיג רווח גבוה בשנה הבאה בוול-מארט?
מה ההבדל בין DBMS לכריית נתונים?
DBMS היא מערכת מלאה לדיור וניהול מערך של מאגרי מידע דיגיטליים. עם זאת, כריית נתונים היא טכניקה או מושג במדעי המחשב, העוסקת בחילוץ מידע שימושי ולא ידוע קודם לכן מנתונים גולמיים. רוב הפעמים, הנתונים הגולמיים הללו מאוחסנים במאגרי מידע גדולים מאוד. לכן כורי נתונים משתמשים בפונקציונליות הקיימת של DBMS כדי לטפל, לנהל ואפילו לעבד מראש נתונים גולמיים לפני ובמהלכו תהליך כריית הנתונים. עם זאת, מערכת DBMS לבדה לא יכולה לשמש לניתוח נתונים. אבל, לחלק מה-DBMS יש כרגע כלים או יכולות מובנות לניתוח נתונים.