Rudarenje podataka u odnosu na skladištenje podataka
Data Mining i Data Warehousing su vrlo moćne i popularne tehnike za analizu podataka. Korisnici koji su skloni statistici koriste Data Mining. Oni koriste statističke modele za traženje skrivenih obrazaca u podacima. Rudari podataka zainteresirani su za pronalaženje korisnih odnosa između različitih elemenata podataka, što je u konačnici profitabilno za tvrtke. No, s druge strane, stručnjaci za podatke koji mogu izravno analizirati dimenzije poslovanja obično koriste skladišta podataka.
Rudarenje podataka također je poznato kao Otkrivanje znanja u podacima (KDD). Kao što je gore spomenuto, to je polje računalnih znanosti koje se bavi izvlačenjem prethodno nepoznatih i zanimljivih informacija iz neobrađenih podataka. Zbog eksponencijalnog rasta podataka, posebno u područjima kao što je poslovanje, rudarenje podataka postalo je vrlo važan alat za pretvaranje ovog velikog bogatstva podataka u poslovnu inteligenciju, jer je ručno izdvajanje uzoraka postalo naizgled nemoguće u posljednjih nekoliko desetljeća. Na primjer, trenutno se koristi za razne aplikacije kao što su analiza društvenih mreža, otkrivanje prijevara i marketing. Data mining se obično bavi sljedeća četiri zadatka: klasteriranje, klasifikacija, regresija i pridruživanje. Grupiranje je identificiranje sličnih grupa iz nestrukturiranih podataka. Klasifikacija su pravila učenja koja se mogu primijeniti na nove podatke i obično će uključivati sljedeće korake: pretprocesiranje podataka, dizajniranje modeliranja, učenje/odabir značajki i evaluacija/potvrda. Regresija je pronalaženje funkcija s minimalnom pogreškom za modeliranje podataka. A asocijacija traži odnose između varijabli. Rudarenje podataka obično se koristi za odgovaranje na pitanja kao što su koji su glavni proizvodi koji bi mogli pomoći u postizanju visokog profita sljedeće godine u Wal-Martu?
Kao što je gore spomenuto, skladištenje podataka također se koristi za analizu podataka, ali od strane različitih grupa korisnika i malo drugačijeg cilja. Na primjer, kada je u pitanju maloprodajni sektor, korisnike skladišta podataka više zanima koje su vrste kupnje popularne među kupcima, pa rezultati analize mogu pomoći kupcu poboljšavajući korisničko iskustvo. No rudari podataka prvo pretpostavljaju hipotezu poput toga koji kupci kupuju određenu vrstu proizvoda i analiziraju podatke kako bi testirali hipotezu. Skladištenje podataka mogao bi izvesti veliki trgovac na malo koji u početku opskrbljuje svoje trgovine istim veličinama proizvoda da bi kasnije otkrio da trgovine u New Yorku prodaju manje zalihe mnogo brže nego u trgovinama u Chicagu. Dakle, gledajući ovaj rezultat, trgovac na malo može opskrbiti trgovinu u New Yorku s manjim veličinama u usporedbi s trgovinama u Chicagu.
Dakle, kao što jasno možete vidjeti, golim okom se čini da su ove dvije vrste analize iste prirode. Obojica brinu o povećanju dobiti na temelju povijesnih podataka. Ali naravno, postoje ključne razlike. Jednostavno rečeno, Data Mining i Data Warehousing posvećeni su pružanju različitih vrsta analitike, ali definitivno za različite vrste korisnika. Drugim riječima, Data Mining traži korelacije, uzorke koji podržavaju statističku hipotezu. No, Data Warehousing odgovara na relativno šire pitanje i dijeli podatke od tamo nadalje kako bi se prepoznali načini poboljšanja u budućnosti.