KDD vs rudarenje podataka
KDD (Knowledge Discovery in Databases) je polje računalne znanosti, koje uključuje alate i teorije za pomoć ljudima u izdvajanju korisnih i prethodno nepoznatih informacija (tj. znanja) iz velikih zbirki digitaliziranih podataka. KDD se sastoji od nekoliko koraka, a Data Mining je jedan od njih. Data Mining je primjena određenog algoritma za izdvajanje uzoraka iz podataka. Bez obzira na to, KDD i Data Mining koriste se naizmjenično.
Što je KDD?
Kao što je gore spomenuto, KDD je područje računalne znanosti koje se bavi izdvajanjem dosad nepoznatih i zanimljivih informacija iz neobrađenih podataka. KDD je cijeli proces pokušaja davanja smisla podacima razvijanjem odgovarajućih metoda ili tehnika. Ovaj se proces bavi preslikavanjem podataka niske razine u druge oblike koji su kompaktniji, apstraktniji i korisniji. To se postiže izradom kratkih izvješća, modeliranjem procesa generiranja podataka i razvojem prediktivnih modela koji mogu predvidjeti buduće slučajeve. Zbog eksponencijalnog rasta podataka, posebno u područjima kao što je poslovanje, KDD je postao vrlo važan proces za pretvaranje ovog velikog bogatstva podataka u poslovnu inteligenciju, jer je ručno izdvajanje uzoraka postalo naizgled nemoguće u posljednjih nekoliko desetljeća. Na primjer, trenutno se koristi za razne aplikacije kao što su analiza društvenih mreža, otkrivanje prijevara, znanost, ulaganja, proizvodnja, telekomunikacije, čišćenje podataka, sport, pronalaženje informacija i uglavnom za marketing. KDD se obično koristi za odgovaranje na pitanja poput toga koji su glavni proizvodi koji bi mogli pomoći u postizanju visokog profita sljedeće godine u Wal-Martu?. Ovaj proces ima nekoliko koraka. Počinje s razvijanjem razumijevanja domene primjene i cilja, a zatim stvaranjem ciljnog skupa podataka. Nakon toga slijedi čišćenje, predobrada, redukcija i projekcija podataka. Sljedeći korak je korištenje Data Mininga (objašnjeno u nastavku) za identifikaciju uzorka. Konačno, otkriveno znanje se konsolidira vizualizacijom i/ili interpretacijom.
Što je Data Mining?
Kao što je gore spomenuto, Data Mining samo je korak unutar ukupnog KDD procesa. Postoje dva glavna cilja Data Mininga definirana ciljem aplikacije, a to su provjera ili otkrivanje. Verifikacija je provjera korisnikove hipoteze o podacima, dok je otkrivanje automatsko pronalaženje zanimljivih obrazaca. Postoje četiri glavna zadatka rudarenja podataka: grupiranje, klasifikacija, regresija i pridruživanje (sažimanje). Grupiranje je identificiranje sličnih grupa iz nestrukturiranih podataka. Klasifikacija je učenje pravila koja se mogu primijeniti na nove podatke. Regresija je pronalaženje funkcija s minimalnom pogreškom za modeliranje podataka. A asocijacija traži odnose između varijabli. Zatim je potrebno odabrati određeni algoritam za rudarenje podataka. Ovisno o cilju, mogu se odabrati različiti algoritmi kao što su linearna regresija, logistička regresija, stabla odlučivanja i naivni Bayes. Zatim se pretražuju uzorci od interesa u jednom ili više reprezentacijskih oblika. Na kraju, modeli se procjenjuju pomoću prediktivne točnosti ili razumljivosti.
Koja je razlika između KDD i Data mininga?
Iako se dva pojma KDD i Data Mining često koriste kao sinonimi, oni se odnose na dva srodna, ali malo različita koncepta. KDD je cjelokupni proces izvlačenja znanja iz podataka, dok je Data Mining korak unutar KDD procesa, koji se bavi identificiranjem uzoraka u podacima. Drugim riječima, Data Mining samo je primjena određenog algoritma temeljenog na općem cilju KDD procesa.