Osnovna stranica

Metodologija obrade podataka

Modeliranje

Ako se govori o posebnosti modernog pristupa inteligentnoj obradi podataka, onda se to prije svega odnosi na mnoštvo novih tehnika modeliranja. Zbog toga je samim tehnikama modeliranja posvećen poseban prostor.

Faza modeliranja u procesu obrade podataka dijeli se na četiri međusobno ovisne aktivnosti: odabir tehnike modeliranja, definiranje testnog uzorka, proces konstruiranja modela te ocjenu kvalitete modela.

Odabir tehnike modeliranja

Ovaj je problem potenciran već u fazi definiranja problema. No, u ovoj fazi, kada imamo dobro definiran skup podataka, još uvijek možemo odabrati drugu, adekvatniju tehniku, od one koja je sugerirana na početku procesa. Kod odabira prikladne tehnike treba imati na umu osnovni zadatak projekta obrade podataka i njegov odnos prema podjeli tehnika modeliranja s obzirom na osnovne tipove problema: da li je to deskriptivni ili prediktivni tip problema. Kod toga treba imati na umu i činjenicu da mnoge od tehnika stvaraju modele koji pored svojih prediktivnih svojstava imaju i svojstvo da su stvoreni modeli istovremeno i deskriptivni (npr. stabla odlučivanja ili sistemi za indukciju pravila). U tablici koja slijedi dan je detaljniji prikaz tipova problema i konkretnih tehnika kojima se ti problemi rješavaju.


Klasifikacija

Metode induciranja pravila, Stabla odlučivanja, Neuralne mreže, Metoda najbližih susjeda, Rasuđivanje na bazi prethodnih slučajeva

Predikcija

Regresijske metode, Regresijska stabla, Neuralne mreže, Metoda najbližih susjeda,

Analize međuovisnosti

Korelacijska analiza, Regresijska analiza, Asocijacijska pravila, Bayes-ove mreže, Metode induktivnog logičkog programiranja

Opis i sumarni prikaz podataka

Statističke metode, OLAP

Segmentacija

Tehnike segmentiranja ("clustering"), Neuralne mreže, Vizualizacijske metode



Definiranje testnog uzorka

Prije faze generiranja modela potrebno je definirati proceduru za testiranje kvalitete i ispravnosti generiranih modela. Na primjer kod klasifikacijskih problema, uobičajeno je korištenje postotka pogrešno klasificiranih primjera na testnom uzorku kao mjere kvalitete modela. U tom smislu potrebno je unaprijed definirati testni uzorak, što se radi razdvajanjem skupa podataka na dio za učenje ("training") i dio za testiranje. Modeli se potom generiraju na dijelu podataka namijenjenom za učenje, dok se kvaliteta modela testira na uzorku za testiranje. Detaljniji prikaz ove metodologije dan je u posebnom dijelu koji opisuje metode evaluacije modela.

Generiranje modela

Nakon što je odabrana tehnika modeliranja i definiran skup podataka za generiranje (učenje) modela pristupa se generiranju, tipično većeg broja različitih modela. Razlog tome leži u činjenici što tehnike modeliranja tipično imaju određen broj parametara koji utječu na proces stvaranja modela, a time i na oblik i kvalitetu generiranog modela. Stoga je proces generiranja modela u stvari iterativne prirode, u kojem se mijenjanjem tih parametara, traži njihova optimalna kombinacija, koja daje najbolji rezultat na testnom uzorku podataka. Konačni model (ili skup modela sličnih performansi) potrebno je detaljno interpretirati u smislu pouzdanosti njegovih rezultata. Osim toga potrebno je dati opis modela u smislu njegove kompleksnosti (topologija neuralne mreže, broj i složenost konjunkcija u pravilima).

Ocjena modela

Ova faza sastoji se u ocjeni modela s obzirom na prethodno definirane kriterije tipične za područje obrade podataka (npr. točnost modela). To je tehnička provjera rezultata modela. Osim ocjene pouzdanosti modela na testnom uzorku, potrebno je ocijeniti njegovu smislenost, te objasniti razloge za konačnu kombinaciju parametara tehnike modeliranja, kojom su dobiveni rezultati. Ukoliko postoji razlog za dodatnom korekcijom modela, treba sugerirati novu kombinaciju parametara tehnike modeliranja, te ponovo ponoviti fazu generiranja modela.



© 2001 LIS - Institut Rudjer Bošković
Posljednja izmjena: October 18 2018 01:17:30.