Lineaire regressieanalyse in Excel

  • Deel Dit
Michael Brown

De tutorial legt de grondbeginselen van regressieanalyse uit en toont een paar verschillende manieren om lineaire regressie uit te voeren in Excel.

Stel u voor: u krijgt een heleboel verschillende gegevens en wordt gevraagd de verkoopcijfers van uw bedrijf voor volgend jaar te voorspellen. U hebt tientallen, misschien zelfs honderden factoren ontdekt die de cijfers mogelijk beïnvloeden. Maar hoe weet u welke echt belangrijk zijn? Voer een regressieanalyse uit in Excel. Die geeft u een antwoord op deze en nog veel meer vragen: Welke factorenWelke factoren zijn van belang en welke kunnen genegeerd worden? Hoe nauw zijn deze factoren met elkaar verbonden? En hoe zeker kun je zijn van de voorspellingen?

    Regressieanalyse in Excel - de grondbeginselen

    In statistische modellering, regressieanalyse wordt gebruikt om het verband tussen twee of meer variabelen te schatten:

    Afhankelijke variabele (aka criterium variabele) is de belangrijkste factor die u probeert te begrijpen en te voorspellen.

    Onafhankelijke variabelen (aka toelichting variabelen, of voorspellers ) zijn de factoren die de afhankelijke variabele kunnen beïnvloeden.

    Regressieanalyse helpt u te begrijpen hoe de afhankelijke variabele verandert wanneer een van de onafhankelijke variabelen varieert en maakt het mogelijk wiskundig vast te stellen welke van die variabelen werkelijk van invloed is.

    Technisch gezien is een regressiemodel gebaseerd op de som van de kwadraten Het doel van een model is om de kleinst mogelijke som van de kwadraten te krijgen en een lijn te trekken die het dichtst bij de gegevens komt.

    In de statistiek wordt onderscheid gemaakt tussen eenvoudige en meervoudige lineaire regressie. Eenvoudige lineaire regressie modelleert het verband tussen een afhankelijke variabele en één onafhankelijke variabele met behulp van een lineaire functie. Als je twee of meer verklarende variabelen gebruikt om de afhankelijke variabele te voorspellen, heb je te maken met meervoudige lineaire regressie Indien de afhankelijke variabele wordt gemodelleerd als een niet-lineaire functie omdat de gegevensrelaties geen rechte lijn volgen, gebruik dan niet-lineaire regressie De nadruk in deze tutorial ligt op een eenvoudige lineaire regressie.

    Als voorbeeld nemen we de verkoopcijfers voor paraplu's van de laatste 24 maanden en zoeken we de gemiddelde maandelijkse regenval voor dezelfde periode op. Zet deze informatie uit op een grafiek en de regressielijn toont het verband tussen de onafhankelijke variabele (regenval) en de afhankelijke variabele (parapluverkoop):

    Lineaire regressievergelijking

    Wiskundig wordt een lineaire regressie gedefinieerd door deze vergelijking:

    y = bx + a + ε

    Waar:

    • x is een onafhankelijke variabele.
    • y is een afhankelijke variabele.
    • a is de Y-intercept wat de verwachte gemiddelde waarde is van y wanneer alle x variabelen gelijk zijn aan 0. Op een regressiegrafiek is dat het punt waar de lijn de Y-as kruist.
    • b is de helling van een regressielijn, die de mate van verandering is voor y als x veranderingen.
    • ε is de willekeurige foutterm, dat wil zeggen het verschil tussen de werkelijke waarde van een afhankelijke variabele en de voorspelde waarde ervan.

    De lineaire regressievergelijking heeft altijd een foutterm, omdat voorspellers in het echte leven nooit perfect nauwkeurig zijn. Sommige programma's, waaronder Excel, berekenen de foutterm echter achter de schermen. In Excel doe je de lineaire regressie dus met de functie kleinste kwadraten methode en zoeken naar coëfficiënten a en b zodat:

    y = bx + a

    Voor ons voorbeeld heeft de lineaire regressievergelijking de volgende vorm:

    Verkochte paraplu's = b * neerslag + a

    Er bestaan een handvol verschillende manieren om a en b De drie belangrijkste methoden voor lineaire regressieanalyse in Excel zijn:

    • Regressietool opgenomen in Analysis ToolPak
    • Staafdiagram met een trendlijn
    • Lineaire regressieformule

    Hieronder vindt u de gedetailleerde instructies voor het gebruik van elke methode.

    Lineaire regressie uitvoeren in Excel met Analysis ToolPak

    Dit voorbeeld toont hoe een regressie in Excel kan worden uitgevoerd met behulp van een speciale tool die bij de invoegtoepassing Analysis ToolPak wordt geleverd.

    De invoegtoepassing Analysis ToolPak inschakelen

    Analysis ToolPak is beschikbaar in alle versies van Excel 365 tot 2003, maar is niet standaard ingeschakeld. U moet het dus handmatig inschakelen. Hier leest u hoe:

    1. Klik in uw Excel op Bestand > Opties .
    2. In de Excel-opties dialoogvenster, selecteer Toevoegingen op de linker zijbalk, zorg ervoor dat Excel-add-ins is geselecteerd in de Beheer vak, en klik op Ga naar .
    3. In de Toevoegingen dialoogvenster, vink uit Analyse Toolpak en klik OK :

    Dit zal de Gegevensanalyse gereedschap naar de Gegevens tabblad van uw Excel lint.

    Regressieanalyse uitvoeren

    In dit voorbeeld gaan we een eenvoudige lineaire regressie uitvoeren in Excel. Wat we hebben is een lijst met de gemiddelde maandelijkse regenval over de laatste 24 maanden in kolom B, die onze onafhankelijke variabele (voorspeller) is, en het aantal verkochte paraplu's in kolom C, die de afhankelijke variabele is. Natuurlijk zijn er veel andere factoren die de verkoop kunnen beïnvloeden, maar voor nu concentreren we ons alleen op deze twee variabelen:

    Met Analysis Toolpak toegevoegd voert u deze stappen uit om regressieanalyse in Excel uit te voeren:

    1. Op de Gegevens tabblad, in de Analyse groep, klik op de Gegevensanalyse knop.
    2. Selecteer Regressie en klik op OK .
    3. In de Regressie dialoogvenster, configureer de volgende instellingen:
      • Selecteer de Ingangsbereik Y en dat is jouw afhankelijke variabele In ons geval is het parapluverkoop (C1:C25).
      • Selecteer de Ingang X Bereik , d.w.z. uw onafhankelijke variabele In dit voorbeeld is het de gemiddelde maandelijkse neerslag (B1:B25).

      Als u een meervoudig regressiemodel bouwt, selecteert u twee of meer naast elkaar liggende kolommen met verschillende onafhankelijke variabelen.

      • Controleer de Labels doos als er koppen zijn bovenaan uw X- en Y-bereik.
      • Kies uw voorkeur Uitvoer optie, een nieuw werkblad in ons geval.
      • Selecteer optioneel de Residuen om het verschil te krijgen tussen de voorspelde en de werkelijke waarden.
    4. Klik op OK en bekijk de uitvoer van de regressieanalyse die Excel maakt.

    De output van de regressieanalyse interpreteren

    Zoals u zojuist hebt gezien, is het uitvoeren van regressie in Excel eenvoudig, omdat alle berekeningen automatisch worden uitgevoerd. De interpretatie van de resultaten is wat lastiger, omdat u moet weten wat er achter elk getal zit. Hieronder vindt u een uitsplitsing van de 4 belangrijkste onderdelen van de uitvoer van de regressieanalyse.

    Uitvoer regressieanalyse: Samenvattende uitvoer

    Dit deel vertelt u hoe goed de berekende lineaire regressievergelijking past bij uw brongegevens.

    Hier is wat elk stukje informatie betekent:

    Meerdere R Het is de C orrelatiecoëfficiënt die de sterkte van een lineair verband tussen twee variabelen meet. De correlatiecoëfficiënt kan elke waarde tussen -1 en 1 hebben, en de absolute waarde geeft de sterkte van het verband aan. Hoe groter de absolute waarde, hoe sterker het verband:

    • 1 betekent een sterke positieve relatie
    • -1 betekent een sterk negatief verband
    • 0 betekent helemaal geen relatie

    R Vierkant Het is de Determinatiecoëfficiënt De R2-waarde wordt berekend uit de totale som van de kwadraten, meer bepaald de som van de gekwadrateerde afwijkingen van de oorspronkelijke gegevens van het gemiddelde.

    In ons voorbeeld is R2 0,91 (afgerond op 2 cijfers), wat goed is. Het betekent dat 91% van onze waarden passen in het regressiemodel. Met andere woorden, 91% van de afhankelijke variabelen (y-waarden) wordt verklaard door de onafhankelijke variabelen (x-waarden). In het algemeen wordt een R kwadraat van 95% of meer beschouwd als een goede passing.

    Aangepast R-vierkant Het is de R vierkant aangepast voor het aantal onafhankelijke variabelen in het model. U zult deze waarde willen gebruiken in plaats van R vierkant voor meervoudige regressieanalyse.

    Standaardfout Het is een andere maat voor de goedheid van de pasvorm die de precisie van uw regressieanalyse aangeeft - hoe kleiner het getal, hoe zekerder u kunt zijn van uw regressievergelijking. Terwijl R2 staat voor het percentage van de variantie van de afhankelijke variabelen dat door het model wordt verklaard, is de standaardfout een absolute maat die de gemiddelde afstand aangeeft tussen de gegevenspunten en de regressie.lijn.

    Opmerkingen Het is gewoon het aantal waarnemingen in je model.

    Output regressieanalyse: ANOVA

    Het tweede deel van de output is Analysis of Variance (ANOVA):

    In principe splitst het de som van de kwadraten op in afzonderlijke componenten die informatie geven over de mate van variabiliteit binnen uw regressiemodel:

    • df is het aantal vrijheidsgraden van de variantiebronnen.
    • SS Hoe kleiner de residuele SS vergeleken met de totale SS, des te beter past uw model bij de gegevens.
    • MS is het gemiddelde kwadraat.
    • F is de F-statistiek, of F-test voor de nulhypothese, die wordt gebruikt om de algemene significantie van het model te testen.
    • Betekenis F is de P-waarde van F.

    Het ANOVA-gedeelte wordt zelden gebruikt voor een eenvoudige lineaire regressieanalyse in Excel, maar u moet zeker het laatste onderdeel goed bekijken. De Betekenis F waarde geeft een idee van hoe betrouwbaar (statistisch significant) uw resultaten zijn. Als Significance F kleiner is dan 0,05 (5%), is uw model OK. Is hij groter dan 0,05, dan kunt u waarschijnlijk beter een andere onafhankelijke variabele kiezen.

    Uitvoer regressieanalyse: coëfficiënten

    In dit deel vindt u specifieke informatie over de onderdelen van uw analyse:

    De nuttigste component in deze sectie is Coëfficiënten Hiermee kunt u een lineaire regressievergelijking opstellen in Excel:

    y = bx + a

    Voor onze gegevensreeks, waar y het aantal verkochte paraplu's is en x de gemiddelde maandelijkse neerslag, gaat onze lineaire regressieformule als volgt:

    Y = neerslagcoëfficiënt * x + intercept

    Uitgerust met a en b waarden afgerond op drie decimalen, wordt het:

    Y=0.45*x-19.074

    Bijvoorbeeld, bij een gemiddelde maandelijkse neerslag van 82 mm zou de parapluverkoop ongeveer 17,8 bedragen:

    0.45*82-19.074=17.8

    Op soortgelijke wijze kunt u nagaan hoeveel paraplu's zullen worden verkocht bij elke andere maandelijkse neerslag (x variabele) die u opgeeft.

    Uitvoer regressieanalyse: residuen

    Als u het geschatte en het werkelijke aantal verkochte paraplu's vergelijkt met de maandelijkse neerslag van 82 mm, zult u zien dat deze cijfers enigszins verschillen:

    • Geschat: 17,8 (hierboven berekend)
    • Werkelijk: 15 (rij 2 van de brongegevens)

    Waarom het verschil? Omdat onafhankelijke variabelen nooit perfecte voorspellers zijn van de afhankelijke variabelen. En de residuen kunnen u helpen begrijpen hoe ver de werkelijke waarden verwijderd zijn van de voorspelde waarden:

    Voor het eerste gegevenspunt (regenval van 82 mm) is de restwaarde ongeveer -2,8. We tellen dit getal dus op bij de voorspelde waarde, en krijgen de werkelijke waarde: 17,8 - 2,8 = 15.

    Hoe maak je een lineaire regressiegrafiek in Excel?

    Als je snel het verband tussen de twee variabelen moet visualiseren, teken dan een lineaire regressiegrafiek. Dat is heel eenvoudig! Hier zie je hoe:

    1. Selecteer de twee kolommen met uw gegevens, inclusief koppen.
    2. Op de Inzet tabblad, in de Chats groep, klik op de Staafdiagram pictogram en selecteer de Strooi thumbnail (de eerste):

      Dit voegt een spreidingsplot toe aan uw werkblad, die op deze lijkt:

    3. Nu moeten we de kleinste kwadraten regressielijn tekenen. Om dit te doen, klik met de rechtermuisknop op een willekeurig punt en kies Trendline toevoegen... uit het contextmenu.
    4. Selecteer in het rechterdeelvenster de Lineair trendlijnvorm en, optioneel, controleer Vergelijking op grafiek weergeven om je regressieformule te krijgen:

      Zoals u wellicht merkt, is de regressievergelijking die Excel voor ons heeft gemaakt, dezelfde als de lineaire regressieformule die wij hebben gemaakt op basis van de coëfficiëntenuitvoer.

    5. Schakel over naar de Vul & Lijn tabblad en pas de lijn naar wens aan. U kunt bijvoorbeeld een andere lijnkleur kiezen en een ononderbroken lijn gebruiken in plaats van een stippellijn (selecteer Ononderbroken lijn in het Type dashboard box):

    Op dit moment ziet je grafiek er al uit als een fatsoenlijke regressiegrafiek:

    Toch wil je misschien nog een paar verbeteringen aanbrengen:

    • Sleep de vergelijking waar je maar wilt.
    • Titels van assen toevoegen ( Grafiekelementen knop> As Titels ).
    • Als uw datapunten in het midden van de horizontale en/of verticale as beginnen, zoals in dit voorbeeld, wilt u misschien de overmatige witruimte wegwerken. De volgende tip legt uit hoe u dat doet: Schaal de grafiekassen om de witruimte te verminderen.

      En zo ziet onze verbeterde regressiegrafiek eruit:

      Belangrijke opmerking! In de regressiegrafiek moet de onafhankelijke variabele altijd op de X-as staan en de afhankelijke variabele op de Y-as. Als uw grafiek in de omgekeerde volgorde is uitgezet, verwisselt u de kolommen in uw werkblad en tekent u de grafiek opnieuw. Als u de brongegevens niet mag herschikken, kunt u de X- en Y-assen rechtstreeks in een grafiek verwisselen.

    Regressie in Excel met behulp van formules

    Microsoft Excel heeft een aantal statistische functies die u kunnen helpen bij het uitvoeren van lineaire regressieanalyse, zoals LINEST, SLOPE, INTERCEPT en CORREL.

    De functie LINEST gebruikt de kleinste kwadraten regressiemethode om een rechte lijn te berekenen die de relatie tussen uw variabelen het best verklaart en geeft een matrix terug die die lijn beschrijft. U vindt de gedetailleerde uitleg van de syntaxis van de functie in deze handleiding. Laten we voor nu gewoon een formule maken voor onze voorbeelddataset:

    =LINEST(C2:C25, B2:B25)

    Omdat de LINEST-functie een matrix van waarden teruggeeft, moet u deze invoeren als een matrixformule. Selecteer twee aangrenzende cellen in dezelfde rij, E2:F2 in ons geval, typ de formule en druk op Ctrl + Shift + Enter om deze te voltooien.

    De formule geeft de b coëfficiënt (E1) en de a constante (F1) voor de reeds bekende lineaire regressievergelijking:

    y = bx + a

    Als u het gebruik van matrixformules in uw werkbladen vermijdt, kunt u het volgende berekenen a en b individueel met reguliere formules:

    Bereken het Y-intercept (a):

    =INTERCEPT(C2:C25, B2:B25)

    Verkrijg de helling (b):

    =SLOPE(C2:C25, B2:B25)

    Bovendien kunt u de correlatiecoëfficiënt ( Meerdere R in de samenvatting van de regressieanalyse) die aangeeft hoe sterk de twee variabelen aan elkaar gerelateerd zijn:

    =CORREL(B2:B25,C2:C25)

    Het volgende screenshot toont al deze Excel-regressieformules in actie:

    Tip. Als u extra statistieken voor uw regressieanalyse wilt verkrijgen, gebruikt u de functie LINEST met de s tats parameter ingesteld op TRUE zoals in dit voorbeeld.

    Zo doe je lineaire regressie in Excel. Dat gezegd hebbende, houd er rekening mee dat Microsoft Excel geen statistisch programma is. Als je regressieanalyse op professioneel niveau moet uitvoeren, kun je beter gerichte software gebruiken zoals XLSTAT, RegressIt, enz.

    Om onze lineaire regressieformules en andere in deze handleiding besproken technieken nader te bekijken, kunt u ons voorbeeldwerkboek hieronder downloaden. Bedankt voor het lezen!

    Praktijk werkboek

    Regressieanalyse in Excel - voorbeelden (.xlsx-bestand)

    Michael Brown is een toegewijde technologieliefhebber met een passie voor het vereenvoudigen van complexe processen met behulp van softwaretools. Met meer dan tien jaar ervaring in de technische industrie heeft hij zijn vaardigheden in Microsoft Excel en Outlook, evenals Google Spreadsheets en Documenten aangescherpt. Michael's blog is gewijd aan het delen van zijn kennis en expertise met anderen, met eenvoudig te volgen tips en tutorials voor het verbeteren van de productiviteit en efficiëntie. Of je nu een doorgewinterde professional of een beginner bent, Michaels blog biedt waardevolle inzichten en praktisch advies om het meeste uit deze essentiële softwaretools te halen.