Duomenų gavybos baziniai algoritmai


Elektronikos referatas.

Įvadas. Sprendimų medis. K-vidurkių metodas. Atramos vektorių metodas. Apriori algoritmas. EM-algoritmas. PageRank algoritmas. AdaBoost algoritmas. K-artimiausio kaimyno algoritmas. Išvados. Naudota literatūra.


Šiandien visame pasaulyje egzistuojanti programinė įranga, skirta duomenų gavybos technologijoms, yra pritaikytos surinktiems duomenims tekstinių rinkmenų pavidalu arba reliacinėse duomenų bazėse saugomiems duomenims. Reikėtų nepamiršti ir saugomų duomenų kiekio, didėjančio kasmet eksponentiškai. Dėl to duomenų bazės tampa duomenų sąvartynu, galinčiu tik saugoti, neatliekant analizės veiksmų. Kiekvienais metais duomenų gavybos technologijų naudojimo klausimas tampa vis aktualesnis. Tai būtų galima susieti su vis didėjančiais duomenų kiekiais, konkurencinės kovos paaštrėjimu ir sukčiavimo atvejų pagausėjimu įvairiose srityse.

Vis dažniau galima išgirsti sakant: žinios tai galia. Tačiau kaip žinias gauti? Kur jas rasti ar kokiu būdu sukurti? Svarbu prisiminti, kad duomenys ir žinios nėra vienodos sąvokos. Duomenys gali būti įvairių stebėjimų užrašymas, pavyzdžiui - meteorologinės sąlygos, ar ataskaitų rinkmenų kūrimas. Sukaupti duomenys įrašomi į susijusias duomenų bazes, čia jie sutvarkomi, išvalomi ir jau būna paruošti duomenims (žinioms) gauti. Štai kaip duomenų gavybą apibrėžia autoritetinga statistikos ir analizės bendrovė Gartner Group: duomenų gavyba yra prasmingų dėsningumu, modelių ir tendencijų radimo procesas dideliuose informacijos kiekiuose naudojant modelių atpažinimo, statistinius ir matematinius modelius.

Taigi galima suprasti, kad duomenų gavybą yra svarbus šiuolaikinio pasaulio gyvavimo aspektas, todėl svarbu yra mokėti tinkamai apdoroti duomenys bei teisingai išgauti žinias, kurių interpretacija gali turėti realios naudos – todėl toliau šiame darbe trumpai apžvelgiami pagrindiniai algoritmai, naudojami duomenų gavybai. Kiekvienas jų apibrėžiamas savo veikimo prasme ir esminias panaudojimo principais.

Kaip jis veikia? Algoritmas C4.5 konstruoja klasifikatorių sprendimų medžio formos pavidalu. Tam, kad algoritmas įvykdytų šitą funkciją – jam reikia perduoti jau suklasifikuotus duomenys.

Klasifikatorius- tai instrumentas, kuris naudojamas duomenų gavyboje (angl. data mining) technologijoje. Jis naudoja suklasifikuotus duomenys ir jais remdamasis bando nuspėti kokiai klasei vertėtų priskirti naujus duomenys.

Algoritmo naudojimo pavyzdžiu galime laikyti tai: tarkime, kad turime duomenų rinkinį – tai duomenys apie pacientų grupę. Mes žinome skirtingus parametrus kiekvieno paciento: amžius, pulsas, kraujospūdis, maksimalus deguonies išnaudojimas, šeimos istorija ir taip toliau. Tokie parametrai yra vadinami atributais. Dabar: remiantis šiais atributais mes norime nuspėti ar gali pacientas susirgti vėžiu. Pacientas gali papulti į vieną iš dviejų klasių:

Algoritmo veikimo esmė: naudojant pacientų savybių rinkinį ir atitinkamą klasę, C4.5 stato sprendimų medį, kuris gali prognozuoti naujų pacientų klasę pagal jų atributu pagrindu.Sprendimų medis – tai klasifikavo uždavinys. Klasifikavimas pagal sprendimų medžio principą sukuria tam tikrą blokų schemą naujų duomenų paskirstymui.

Jei grįžti prie pavyzdžio su pacientu, bloko schemoje šaka gali atrodyti taip:

pacientas turi geną, kuri pasireiškia pacientams, sergantiems vėžiu;

Tokiu būdu kiekviename blokinės schemos taške užduodamas klausimas apie apie konkretaus požymio svarbą, ir, priklausomai nuo šių savybių jis ar ji [pacientai] patenka tam tikrą klasę.

Ar šis metodas reikalauja apmokymo ar tai yra savarankiškai apsimokinanti mašina? Šis metodas reikalauja apmokymo, čia treniravimosi duomenų rinkinys paskirstomas klasėmis. Grįžtant prie nagrinėjamo pavyzdžio svarbu paminėti, kad algoritmas C4.5 nesprendžia savarankiškai ar pacientas susirgs vėžiu ar ne, jis tik sudaro sprendimo medžio schema, kuris naudojamas sprendimo priėmimui.

Kodėl verta naudoti C4.5? Tikriausiai pats didžiausias sprendimų medžio privalumas yra ju paprasta ir patogi interpretacija. Taip pat jie turi pakankamai didelius darbinius greičius, o išeities duomenys paprastai suprantami žmogui.

C4.5 algoritmas yra naudojamas labai daug kur. OpenTox platformoje galima rasti Java programavimo kalbos realizaciją, kuri yra puikus vizualizavimo ir analizės instrumentas duomenų gavyboje.

  • Elektronika Referatai
  • 2016 m.
  • Lietuvių
  • 20 puslapių (4275 žodžiai)
  • Elektronikos referatai
  • Microsoft Word 76 KB
  • Duomenų gavybos baziniai algoritmai
    10 - 3 balsai (-ų)
Duomenų gavybos baziniai algoritmai. (2016 m. Gegužės 12 d.). http://www.mokslobaze.lt/duomenu-gavybos-baziniai-algoritmai.html Peržiūrėta 2016 m. Gruodžio 04 d. 02:01