Daugialypė tiesinė regresija ir prognozavimas (3)


Įvadas. Teorinė dalis. Sąvokos. Regresijos modelio taikymas. Daugialypės tiesinės regresijos modelis. Modelio tinkamumas. Statistinė hipotezė. Praktinė dalis. Duomenys. Užduotys. Daugialypės tiesinės regresijos modelis. Naudotos R komandos. Išvados. Literatūros sąrašas.


Šiame kursiniame darbe tirsiu duotų filmų duomenis, apskaičiuosiu įvairių parametrų įtaką filmų vertinimams, įvertinsiu tiesinį regresijos modelį.

Imties vidurkis gaunamas sudėjus visus skaičius ir gautą rezultatą padalijus iš elementų kiekio.

Kvantilis, tikimybių teorijoje ir matematinėje statistikoje, atsitiktinio dydžio pasiskirstymo skaitinė charakteristika.

reikia atsakyti į klausimą, ar užsiregistravusio darbo biržoje bedarbio pasiūlymų laukimo trukmė priklauso nuo jo amžiaus, išsilavinimo, šeimos narių skaičiaus bei ankstesnio atlyginimo;

tiriama, kaip antikvarinių indų aukciono kaina priklauso nuo jų senumo bei aukciono dalyvių skaičiaus;

tiriama, kaip per sezoną laimėtų krepšinio varžybų skaičius priklauso nuo metimų pataikymo procento, nuo vidutinio blokuotų bei per rungtynes perimtų kamuolių skaičiaus;

nustatinėjama, ar po egzamino bendrasis dirglumo indeksas priklauso nuo gauto pažymio, sistolinio ir diastolinio kraujo spaudimo.

Regresijos modelio prielaidos išlieka tos pačios kaip ir paprastosios regresijos. Tiesinės daugialypės regresijos prielaidos:

Čia priklausomas kintamasis Y yra vertinimas, kituose stulpeliuose yra nepriklausomi kintamieji X1-X4.

Nurodytam faile sudėti duomenys, kuriuos naudosiu skaičiavimuose. Duota 100 filmų duomenys ir nurodyta kiekvieno išleidimo metai, laikas, aktoriai, aprašymas ir vertinimas.

R pakete pakeičiau parametrų vardus, kad sekančiose komandose įrašant naujus vardus, būtų kreipiamasi į duomenų lentelę ir joje būtų atpažinti nurodyti parametrai (metai, laikas, aktoriai ir t.t.)

Apskaičiuojame kintamųjų Y, X1-X3 padėties charakteristikas: mažiausią ir didžiausią reikšmes, vidurkį, medianą:

Parametrai β parodo, kiek pasikeis vertinimas pasikeitus vienam iš parametrų vienetu, kai kiti parametrai nesikeis. Jei pavyzdžiui metai pasikeičia vienetu, vertinimas pasikeičia -0.01960 (nes β1 –(-0.01960)). Taigi šios tiesinės regresijos modelio išraiška yra:

Aktorių skaičius buvo nereikšmingas parametras, todėl sudarysiu naują modelį be šio parametro ir iš naujo įvertinsiu.

Iš duomenų suvestinės matoma, kad visi kintamieji yra reikšmingi, todėl galima užrašyti įvertintą naują regresijos modelį:

Determinacijos koeficientas yra 0,3236, todėl modelis tinka, kadangi taikant regresinę analizę, dažniausiai reikalaujama, kad R2 >= 0,25. Jei R2<0,25, tai abejotina, ar tiesinės regresijos modelis tinka.

Iš grafiko galima matyti, kad didžioji dalis paklaidų yra išsidėsčiusios aplink tiesę, tačiau yra ir nutolusios trys išskirtys, todėl dar negalime teigti, jog taškai yra pasiskirstę pagal normalųjį skirstinį. Norėdami įsitikinti ar paklaidos yra pasiskirsčiusios pagal normalųjį skirstinį, tikrinsime su ks.test.

Norėdami apibendrinti visą jau panaudotą informaciją, galime realiai pamatyti kaip filmo reitingas priklauso pagal konkrečius kintamuosius.

Iš čia galima pamatyti, kad optimaliausias reitingas būtų 1.411292 . Reitingas gali svyruoti intervale nuo [1.126949 ;1.695636], bet tai galioja tuomet kai filmo metai yra 1985, filmo trukmė 65 minutės, aktorių reitingas=2; aprašymas=10, o reikšmingumo lygmuo lygus=0,90.

Galima patikrinti kaip atrodytų filmo reitingas su kitokiais kintamaisiais, kai reikšmingumo lygmuo yra paliekamas toks pats.

Kintamiesiems pasikeitus pasikeitė ir filmo reitingas. Svarbu pastebėti, kad filmas buvo senesnis t.y. 1965, trukmė ilgesnė = 80minučių, aktorių grupė siekė 3, o aprašymas buvo trumpesnis = 9 eilutės.

Optimalus reitingas išlieka toks pats kaip ir su 0,9 reikšmingumo lygmeniu, skiriasi tik intervalas, kuriame reitingas svyruoja t.y. [1.839654; 2.153229], tai reiškia, kad intervalas yra platesnis

Tiriami duomenys: 100 filmų, kurių nurodyti metai, laikas, aktoriai, vertinimas ir aprašymas. Visi skaitiniai duomenys išsidėstę intervale nuo 1 iki 1995.

Kadangi didžiausia koreliacija yra tarp filmo išleidimo metų ir filmo trukmės, todėl kai metai didėja vienu vienetu, trukmė didėja 0.5092352. Taip pat matome ir kai kurių parametrų atvirkštinę priklausomybę: metams didėjant vertinimas mažėja.

Tikrinau nulinę hipotezę, kad duomenims galioja normalinis skirstinys. Kadangi P-value ( Kolmogorov-Smirnov atveju) yra >0,05 tai skirstinys normalus.

  • Microsoft Word 164 KB
  • 2017 m.
  • Lietuvių
  • 21 puslapis (2641 žodžiai)
  • Universitetas
  • Emilija
  • Daugialypė tiesinė regresija ir prognozavimas (3)
    10 - 3 balsai (-ų)
Peržiūrėti darbą
Daugialypė tiesinė regresija ir prognozavimas (3). (2017 m. Lapkričio 10 d.). https://www.mokslobaze.lt/daugialype-tiesine-regresija-ir-prognozavimas-3.html Peržiūrėta 2021 m. Gegužės 15 d. 10:39
Peržiūrėti darbą
×
41 mokytojas prisijungę laukia tavo klausimo