Kaj je preprosta linearna regresija?

Enostavna linearna regresija se uporablja za statistiko in pomaga pri opisovanju (x,y) podatkov, za katere se zdi, da imajo linearno razmerje, kar omogoča določeno napoved y, če je x znan. Ti podatki se pogosto izrišejo na razpršenih grafih in formula za linearno regresijo ustvari črto, ki najbolje ustreza vsem točkam, pod pogojem, da imajo resnično linearno korelacijo. Ne bo ustrezal točno vsem točkam, vendar bi morala biti črta, kjer vsota kvadratov razlike med dejanskimi podatki in pričakovanimi podatki (ostanki) ustvari najnižje število, ki se pogosto imenuje črta najmanjših kvadratov ali črta najbolj ustrezajo. Enačba črte za vzorčne podatke in podatke o populaciji je naslednja: y = b0 + b1x in Y = B0 + B1x.

Vsakdo, ki pozna algebro, lahko opazi podobnost te vrstice z y = mx + b, v resnici pa sta oba relativno identična, le da sta dva člena na desni strani enačbe zamenjana, tako da je B1 enak naklonu ali m. Razlog za to preureditev je, da postane elegantno enostavno dodati dodatne izraze s funkcijami, kot so eksponenti, ki lahko opisujejo različne nelinearne oblike razmerja.

Formule za pridobivanje preproste linearne regresijske črte so razmeroma zapletene in okorne, zato večina ljudi ne porabi veliko časa za njihovo zapisovanje, ker traja veliko časa za dokončanje. Namesto tega lahko različni programi, na primer za Excel ali za številne vrste znanstvenih kalkulatorjev, zlahka izračunajo črto najmanjših kvadratov. Črta je primerna za napovedovanje le, če obstajajo jasni dokazi o močni korelaciji med nizi podatkov (x,y). Kalkulator bo ustvaril vrstico, ne glede na to, ali jo je smiselno uporabiti.

Hkrati se generira preprosta enačba linearne regresije, ljudje morajo gledati na raven korelacije. To pomeni vrednotenje r, korelacijskega koeficienta, glede na tabelo vrednosti, da ugotovimo, ali linearna korelacija obstaja. Poleg tega je vrednotenje podatkov tako, da jih narišete kot diagram razpršenosti, dober način, da ugotovite, ali imajo podatki linearno razmerje.

Kar je potem mogoče narediti s preprosto linearno regresijsko črto, pod pogojem, da ima linearno korelacijo, je, da se vrednosti lahko nadomestijo z x, da dobimo predvideno vrednost za y. Ta napoved ima svoje meje. Prisotni podatki, še posebej, če gre samo za vzorec, imajo lahko zdaj linearno korelacijo, vendar morda ne pozneje z dodanim dodatnim vzorčnim materialom.

Druga možnost je, da lahko celoten vzorec deli korelacijo, medtem ko celotna populacija ne. Napoved je zato omejena in preseganje razpoložljivih vrednosti podatkov se imenuje ekstrapolacija in se ne spodbuja. Poleg tega bi morali ljudje vedeti, da če ne obstaja linearna korelacija, je najboljša ocena x srednja vrednost vseh y podatkov.

V bistvu je preprosta linearna regresija uporabno statistično orodje, ki ga je mogoče po presoji uporabiti za napovedovanje vrednosti y na podlagi vrednosti osi. Skoraj vedno se poučuje z idejo linearne korelacije, saj določanje uporabnosti regresijske črte zahteva analizo r. Na srečo lahko s številnimi sodobnimi tehničnimi programi ljudje rišejo razpršene diagrame, dodajajo regresijske črte in določajo korelacijski koeficient r z nekaj vnosi.

SmartAsset.