Kom til Åben Skole lørdag den 30. november

Lineær regression

Følgende er vigtigt når du arbejder med lineær regression:

Grafen viser forbrugskvote og beskæftigelse for 1000 personer i Danmark i perioden 2002-2012. Forbrugskvoten er husholdningernes forbrug i procent af den disponible indkomst.

Grafen viser forbrugskvote og beskæftigelse for 1000 personer i Danmark i perioden 2002-2012. Forbrugskvoten er husholdningernes forbrug i procent af den disponible indkomst.

  1. Den faglige sammenhæng mellem de to variable: Man skal med brug af faglig viden forklare, hvilken faglig sammenhæng der er mellem de to variable. Fx at stigende forbrugskvote vil medføre øget efterspørgsel og dermed øget beskæftigelse. Lineær regression er ikke i sig selv et bevis for, at der er en årsagssammenhæng. For at kunne tale om en sammenhæng (og ikke blot en samvariation) skal man fagligt kunne begrunde en sammenhæng mellem den uafhængige og den afhængige variabel. Man må også overveje, om kausaliteten kan ”gå begge veje”.
  2. Hældningskoefficienten i ligningen tolkes som, at hvis variablen på x-aksen stiger med 1, så ændres variablen på y-aksen med hældningskoefficienten. Eksempel: I ligningen y = 17,69x + 952 er hældningskoefficienten 17,69: Når forbrugskvoten (x) stiger med 1 procentpoints, stiger beskæftigelsen (y) med 17.690 personer (måleenheden på y-aksen var i 1000 personer). Vær opmærksom på rigtig brug af måleenhederne.
  3. R2 viser forklaringsgraden, som udtrykker, hvor stor en del af variationen i den afhængige variabel y, der forklares/beskrives af den uafhængige variabel x/tendenslinjen/ligningen/modellen. Hvis R2 fx er 0,51, kan forbrugskvoten (x) forklare 51 % af variationen i beskæftigelsen (y), mens de resterende 49 % må forklares ud fra andre årsager. R2 skal tolkes i sammenhæng med punkternes beliggenhed i diagrammet.
  4. Punkternes beliggenhed i diagrammet: Hvad man kan udlede af punkternes beliggenhed i diagrammet om sammenhængen mellem de to variable? Ligger punkterne meget tæt på tendenslinjen, mere spredt omkring tendenslinjen som et bredt bælte, eller helt spredt som i en bisværm? Ligger punkterne på en måde, som er udtryk for lineær regression? Jo tættere punkterne ligger på tendenslinjen, jo højere bliver R2. Er der nogle punkter, der afviger meget fra tendenslinjen (outliers), og hvad kan det skyldes? Samler punkterne sig i nogle grupper, og hvad er det udtryk for?

En opgave med lineær regression kan inkludere, at man ud fra en tabel skal konstruere et punktdiagram med tendenslinje, ligning og R2-værdi.