Wednesday 24 May 2017

All Mögliche Regressions In Stata Forex


Mehrere Regressionsanalysen mit Hilfe von Stata Einführung Multiple Regression (eine Erweiterung der einfachen linearen Regression) wird verwendet, um den Wert einer abhängigen Variablen (auch als Ergebnisvariable bekannt) auf Basis des Wertes von zwei oder mehr unabhängigen Variablen (auch als Prädiktorvariablen bekannt) vorhersagen zu können ). Zum Beispiel könnten Sie mehrere Regression zu bestimmen, ob Prüfung Angst vorhergesagt werden kann, basierend auf Kursmarke, Revision Zeit, Vorlesung Teilnahme und IQ Score (dh die abhängige Variable wäre Prüfung Angst, und die vier unabhängigen Variablen wäre coursework Marke, Revision Zeit, Vorlesung und IQ). Alternativ könnten Sie die Mehrfachregression verwenden, um zu ermitteln, ob das Einkommen aufgrund des Alters, des Geschlechts und des Bildungsniveaus vorhergesagt werden kann (d. H. Die abhängige Variable wäre Einkommen und die drei unabhängigen Variablen würden Alter, Geschlecht und Bildungsniveau sein). Wenn Sie eine dichotomabhängige Variable haben, können Sie eine binomiale logistische Regression verwenden. Mit der multiplen Regression können Sie auch die Gesamtanpassung (Varianz des Modells) und den relativen Beitrag jeder der unabhängigen Variablen zur Gesamtvarianz ermitteln. Zum Beispiel möchten Sie vielleicht wissen, wie viel von der Variation in der Prüfung Angst durch Coursework Marke, Revision Zeit, Vorlesung und IQ Score als Ganzes erklärt werden kann, sondern auch die relative Beitrag der einzelnen unabhängigen Variablen in der Erklärung der Varianz. Diese Kurzanleitung zeigt Ihnen, wie Sie mehrere Regression mit Stata durchführen und wie Sie die Ergebnisse aus diesem Test interpretieren und melden können. Bevor wir Ihnen dieses Verfahren vorstellen, müssen Sie jedoch die verschiedenen Annahmen verstehen, die Ihre Daten erfüllen müssen, damit mehrere Regression ein gültiges Ergebnis liefern kann. Wir diskutieren diese Annahmen als nächstes. Annahmen Es gibt acht Annahmen, die mehrere Regression untermauern. Wenn eine dieser acht Annahmen nicht erfüllt ist, können Sie Ihre Daten nicht mithilfe mehrerer Regression analysieren, da Sie kein gültiges Ergebnis erhalten. Da die Annahmen 1 und 2 sich auf Ihre Wahl der Variablen beziehen, können sie nicht für die Verwendung von Stata getestet werden. Allerdings sollten Sie entscheiden, ob Ihre Studie erfüllt diese Annahmen, bevor Sie fortfahren. Annahme 1: Ihre abhängige Variable sollte auf der kontinuierlichen Ebene gemessen werden. Beispiele für solche kontinuierlichen Variablen sind die Höhe (gemessen in Fuß und Inch), die Temperatur (gemessen in 176C), das Gehalt (gemessen in US-Dollar), die Revisionszeit (gemessen in Stunden), die Intelligenz (gemessen mit IQ-Wert), die Reaktionszeit (gemessen In Millisekunden), Testleistung (gemessen von 0 bis 100), Umsatz (gemessen in Anzahl der Transaktionen pro Monat) und so weiter. Wenn Sie nicht sicher sind, ob Ihre abhängige Variable kontinuierlich ist (d. h. auf der Intervall - oder der Verhältnisstufe), finden Sie in unseren Variablen-Typen. Annahme 2: Sie haben zwei oder mehr unabhängige Variablen. Die auf kontinuierlicher oder kategorischer Ebene gemessen werden sollten. Beispiele für kontinuierliche Variablen. Siehe oben. Beispiele für kategorische Variablen sind das Geschlecht (zB 2 Gruppen: männlich und weiblich), Ethnizität (zB 3 Gruppen: Kaukasier, Afroamerikaner und Hispaniker), körperliche Aktivität (zB 4 Gruppen: sesshaft, niedrig, mäßig und hoch), Beruf (z 5 Gruppen: Chirurg, Arzt, Krankenschwester, Zahnarzt, Therapeut) und so weiter. In diesem Handbuch zeigen wir Ihnen das multiple Regressionsverfahren, weil wir eine Mischung aus kontinuierlichen und kategorialen unabhängigen Variablen haben. Anmerkung: Wenn Sie nur kategoriale unabhängige Variablen haben (dh keine kontinuierlichen unabhängigen Variablen), ist es üblicher, die Analyse aus der Perspektive einer Zwei-Wege-ANOVA (für zwei kategoriale unabhängige Variablen) oder faktorielle ANOVA (für drei oder mehr kategorische Unabhängige Variablen) anstelle mehrerer Regression. Glücklicherweise können Sie Annahmen 3, 4, 5, 6, 7 und 8 mit Stata überprüfen. Wenn Sie sich auf die Annahmen 3, 4, 5, 6, 7 und 8 begeben, empfehlen wir Ihnen, diese in dieser Reihenfolge zu testen, da es einen Auftrag darstellt, bei dem ein Verstoß gegen die Annahme nicht mehr korrigierbar ist Regression. In der Tat, nicht wundern, wenn Ihre Daten nicht eine oder mehrere dieser Annahmen, da dies ziemlich typisch ist, wenn die Arbeit mit realen Daten anstatt Lehrbuch Beispiele, die oft nur zeigen, wie die Durchführung linearer Regression, wenn alles gut geht. Jedoch sorgen Sie sich nicht, weil, selbst wenn Ihre Daten bestimmte Annahmen ausfallen, es häufig eine Lösung gibt, zum dieses zu überwinden (zB Ihre Daten zu verwandeln oder einen anderen statistischen Test anstatt zu verwenden). Denken Sie daran, dass die Ergebnisse, die Sie beim Ausführen mehrerer Regression erhalten, nicht gültig sind, wenn Sie nicht überprüfen, ob die Daten diese Annahmen erfüllen oder ob Sie sie korrekt testen. Annahme 3: Sie sollten Unabhängigkeit von Beobachtungen haben (d. H. Unabhängigkeit von Residuen), die Sie mit Hilfe der Durbin-Watson-Statistik in Stata einsehen können. Annahme 4: Es muss eine lineare Beziehung zwischen (a) der abhängigen Variablen und jeder Ihrer unabhängigen Variablen und (b) der abhängigen Variablen und den unabhängigen Variablen zusammen sein. Sie können die Linearität in Stata anhand von Streudiagrammen und partiellen Regressionsdiagrammen überprüfen. Annahme 5: Ihre Daten müssen Homosedastizität zeigen. Wo die Abweichungen entlang der Linie der besten Passung bleiben ähnlich, wie Sie entlang der Linie bewegen. Sie können auf Homosedastizität in Stata überprüfen, indem Sie die studierten Residuen auf die nicht standardisierten vorhergesagten Werte skizzieren. Annahme 6: Ihre Daten dürfen keine Multikollinearität aufweisen. Die auftreten, wenn Sie zwei oder mehr unabhängige Variablen haben, die stark miteinander korreliert sind. Sie können diese Annahme in Stata durch eine Inspektion von Korrelationskoeffizienten und ToleranceVIF-Werten überprüfen. Annahme 7: Es sollten keine signifikanten Ausreißer vorhanden sein. Hohe Hebelpunkte oder einflussreiche Punkte. Die Beobachtungen in Ihrem Datensatz, die in gewisser Weise ungewöhnlich sind. Diese können eine sehr negative Auswirkung auf die Regressionsgleichung haben, die verwendet wird, um den Wert der abhängigen Variablen basierend auf den unabhängigen Variablen vorherzusagen. Sie können mit Stata auf Ausreißer, Hebelpunkte und Einflusspunkte überprüfen. Annahme 8: Die Residuen (Fehler) sollten annähernd normal verteilt sein. Die Sie mit Hilfe eines Histogramms (mit einer überlagerten Normalkurve) und eines normalen P-P-Plots oder eines Normal Q-Q-Plots der studierten Residuen überprüfen können. In der Praxis wird die Überprüfung der Annahmen 3, 4, 5, 6, 7 und 8 voraussichtlich die meiste Zeit bei der Durchführung mehrfacher Regression einnehmen. Allerdings ist es keine schwierige Aufgabe, und Stata bietet alle Werkzeuge, die Sie benötigen, um dies zu tun. Im Abschnitt Testverfahren in Stata. Veranschaulichen wir die Stata-Prozedur, die erforderlich ist, um multiple Regression unter der Annahme durchzuführen, dass keine Annahmen verletzt wurden. Zuerst beschreiben wir das Beispiel, das wir verwenden, um das multiple Regressionsverfahren in Stata zu erklären. Ein Gesundheitsforscher möchte in der Lage sein, VO 2 max vorherzusagen, ein Indikator für Fitness und Gesundheit. Normalerweise erfordert die Durchführung dieses Verfahrens teure Laborausrüstung sowie die Notwendigkeit, dass Einzelpersonen ihr Maximum ausüben (d. H. Bis sie aufgrund körperlicher Erschöpfung nicht mehr trainieren können). Dies kann Personen, die nicht sehr aktiv sind und diejenigen, die ein höheres Risiko für Krankheit (z. B. ältere ungenießbare Themen) sein könnten, abschrecken. Aus diesen Gründen ist es wünschenswert, einen Weg zur Vorhersage eines Individuums VO 2 max zu finden, basierend auf Attributen, die leichter und billiger gemessen werden können. Zu diesem Zweck rekrutierte ein Forscher 100 Teilnehmer, um einen maximalen VO 2 max Test durchzuführen, aber auch ihr Alter, Gewicht, Herzfrequenz und Geschlecht aufgezeichnet. Die Herzfrequenz ist der Durchschnitt der letzten 5 Minuten einer 20-minütigen, viel einfacheren, niedrigeren Workload-Zyklustest. Das Ziel der Forscher ist es, VO 2 max basierend auf diesen vier Attributen vorherzusagen: Alter, Gewicht, Herzfrequenz und Geschlecht. Hinweis: Das Beispiel und die Daten, die für dieses Handbuch verwendet werden, sind fiktiv. Wir haben sie gerade für die Zwecke dieses Leitfadens erstellt. Setup in Stata In Stata haben wir fünf Variablen erstellt: (1) VO 2 max. Die die maximale aerobe Kapazität (d. H. Die abhängige Variable) und (2) Alter ist. Die die Teilnehmer Alter (3) Gewicht ist. Das ist die Teilnehmer Gewicht (technisch, es ist ihre Masse) (4) Herzfrequenz. Die die Herzfrequenz der Teilnehmer und (5) Geschlecht ist. Die das Geschlecht der Teilnehmer ist (d. h. die unabhängigen Variablen). Nachdem wir diese fünf Variablen erstellt haben, haben wir die Scores für jeden in die fünf Spalten der Dateneditor-Tabelle (Bearbeiten), wie unten gezeigt, eingegeben: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Testverfahren in Stata In diesem Abschnitt zeigen wir Ihnen, wie Sie Ihre Daten mithilfe mehrerer Regression in Stata analysieren können, wenn die acht Annahmen im vorherigen Abschnitt, Annahmen. Nicht verletzt worden sind. Sie können mehrere Regression mit Hilfe von Code oder grafische Benutzeroberfläche (GUI) durchführen. Nachdem Sie Ihre Analyse durchgeführt haben, zeigen wir Ihnen, wie Sie Ihre Ergebnisse interpretieren können. Wählen Sie zuerst aus, ob Sie den Code oder die grafische Benutzeroberfläche (GUI) verwenden möchten. Der Code zur Ausführung mehrerer Regression auf Ihre Daten hat die Form: regress DependentVariable IndependentVariable1 IndependentVariable2 IndependentVariable3 IndependentVariable4 Nach unserem Beispiel, bei dem die abhängige Variable VO2max ist und die vier unabhängigen Variablen das Alter haben. Gewicht. Herzfrequenz und Geschlecht. Der erforderliche Code wäre: regress VO2max Alter Gewicht Herzrate i. gender Anmerkung: Sie sehen aus dem obigen Code, dass kontinuierliche unabhängige Variablen einfach so eingegeben werden, wie es ist, während kategoriale unabhängige Variablen das Präfix i haben (zB Alter für Alter, da dies ein Ununterbrochene unabhängige Variable, aber i. gender für Geschlecht, da dies eine kategorische unabhängige Variable ist). Geben Sie daher den Code, Regress VO2max Alter Gewicht Herzfrequenz i. gender. Und drücken Sie die ReturnEnter-Taste auf Ihrer Tastatur. Sie können die Stata-Ausgabe sehen, die hier erzeugt wird. Grafische Benutzeroberfläche (GUI) Die sieben Schritte, die für die Durchführung mehrfacher Regression in Stata erforderlich sind, sind nachfolgend aufgeführt: Klicken Sie auf Statistics gt Lineare Modelle und zugehörige gt Lineare Regression im Hauptmenü, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Anmerkung: Dont worry, dass youre Auswahl von Statistik gt Lineare Modelle und verwandte gt Lineare Regression im Hauptmenü, oder dass die Dialogfelder in den Schritten, die folgen, haben den Titel, Lineare Regression. Sie haben keinen Fehler gemacht. Sie befinden sich an der richtigen Stelle, um das multiple Regressionsverfahren durchzuführen. Dies ist nur der Titel, den Stata gibt, auch wenn eine multiple Regressionsmethode ausgeführt wird. Sie erhalten die Regress - Linear Regression Dialogbox, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Wählen Sie die abhängige Variable VO2max aus. Aus der abhängigen Variable: Feld und wählen Sie die kontinuierliche unabhängige Variablen, Alter. Gewicht und Herzfrequenz aus dem Feld "Unabhängige Variablen: Box" mit der Dropdown-Schaltfläche, wie unten gezeigt: Veröffentlichung mit schriftlicher Genehmigung von StataCorp LP. Wählen Sie die kategoriale unabhängige Variable, Geschlecht. Aus der Independent-Variablen: box, indem Sie zuerst auf die Schaltfläche klicken. Daraufhin wird Ihnen die folgende Dialogbox angezeigt, in der Ihre ununterbrochenen unabhängigen Variablen (Alter, Gewicht und Herzfrequenz) bereits in das Feld Varlist eingetragen sind: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Leave Factor-Variable, die im ndashType des variablendash Bereichs ausgewählt wird. Als nächstes, in der ndashAdd Faktor variablendash Bereich, verlassen in das Feld Spezifikation: verlassen. Wählen Sie nun Geschlecht im Feld Variablen über die Dropdown-Schaltfläche aus, und wählen Sie im Feld Basis die Option Standard aus. Klicken Sie abschließend auf die Schaltfläche. Sie erhalten folgendes Dialogfenster, in dem die kategoriale unabhängige Variable i. gender. Wurde in das Feld Varlist eingefügt: Feld: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Drück den Knopf. Sie gelangen zurück in den Regress - Linear Regression Dialog, aber mit der kategorialen unabhängigen Variable i. gender. Nun in das Feld Unabhängige Variablen eingegeben: Feld, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Drück den Knopf. Dadurch wird die Ausgabe erzeugt. Interpretation und Berichterstattung der Stata-Ausgabe der Multiple Regressionsanalyse Stata erzeugt für eine multiple Regressionsanalyse ein einzelnes Output-Ergebnis, basierend auf den oben getroffenen Selektionen, wobei angenommen wird, dass die acht Annahmen, die für eine multiple Regression erforderlich sind, erfüllt sind. Bestimmen, wie gut das Modell passt Das R 2 und R 2 kann verwendet werden, um zu bestimmen, wie gut ein Regressionsmodell für die Daten passt: Die R-Quadrat-Reihe repräsentiert den R 2 - Wert (auch Bestimmungskoeffizient genannt) Der Varianz in der abhängigen Variablen, die durch die unabhängigen Variablen erklärt werden kann (technisch gesehen ist es der Anteil der Variation, der durch das Regressionsmodell über und über das mittlere Modell hinaus berücksichtigt wird). Aus unserem Wert von 0,577 ergibt sich, dass unsere unabhängigen Variablen 57,7 der Variabilität unserer abhängigen Variablen VO 2 max erklären. Allerdings müssen Sie auch in der Lage sein, Adj R-squared (adj. R 2) zu interpretieren, um Ihre Daten genau zu melden. Statistische Signifikanz Das F-ratio prüft, ob das gesamte Regressionsmodell für die Daten gut geeignet ist. Die Ausgabe zeigt, dass die unabhängigen Variablen die abhängige Variable F (4, 95) 32.39, p lt .0005 statistisch signifikant vorhersagen (d. h. das Regressionsmodell ist eine gute Anpassung der Daten). Geschätzte Modellkoeffizienten Die allgemeine Form der Gleichung, um VO 2 max vom Alter vorherzusagen. Gewicht. Herzfrequenz und Geschlecht: vorhergesagt VO 2 max 87,83 ndash (0,165 x Alter) ndash (0,385 x Gewicht) ndash (0,118 x Herzrate) (13,208 x Geschlecht) Dies wird aus dem Coef. Spalte, wie unten gezeigt: Nichtstandardisierte Koeffizienten geben an, wieviel die abhängige Variable mit einer unabhängigen Variablen variiert, wenn alle anderen unabhängigen Variablen konstant gehalten werden. Betrachten Sie die Wirkung des Alters in diesem Beispiel. Der nichtstandardisierte Koeffizient B 1. Für das Alter ist gleich -0.165 (siehe die erste Zeile der Coef-Spalte). Dies bedeutet, dass für jedes 1 Jahr zunehmende Alter gibt es eine Abnahme in VO 2 max von 0.165 mlminkg. Statistische Signifikanz der unabhängigen Variablen Sie können die statistische Signifikanz der einzelnen unabhängigen Variablen testen. Dabei wird überprüft, ob die nicht standardisierten Koeffizienten in der Population gleich 0 (Null) sind. Wenn p lt .05, können Sie schließen, dass die Koeffizienten statistisch signifikant verschieden von 0 (Null) sind. Der t-Wert und der entsprechende p-Wert befinden sich in der Spalte t bzw. Pgtt, wie unten hervorgehoben: Aus der Pgtt-Spalte können Sie sehen, dass alle unabhängigen Variablenkoeffizienten statistisch signifikant von 0 (Null) verschieden sind. Obwohl das Intercept, B 0. Auf statistische Signifikanz getestet wird, ist dies selten ein wichtiger oder interessanter Befund. Berichterstattung über die Auswertung der multiplen Regressionsanalyse Sie können die Ergebnisse folgendermaßen aufschreiben: Es wurde eine multiple Regression durchgeführt, um VO 2 max aus Geschlecht, Alter, Gewicht und Herzfrequenz vorherzusagen. Diese Variablen prognostizieren statistisch signifikant VO 2 max, F (4, 95) 32.39, p lt .0005, R2.577. Alle vier Variablen wurden statistisch signifikant zur Vorhersage addiert, p lt .05.NOTICE: Die IDRE Statistical Consulting Group wird die Migration der Website auf das WordPress CMS im Februar, um die Wartung und die Schaffung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen im Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group mit einem Geschenk Stata-Programme für die Datenanalyse Diese Seite beschreibt Stata-Programme, die von der UCLA ATS Statistical Consulting Group für die Datenanalyse entwickelt wurden. Sie können eines dieser Programme aus Stata mit dem Befehl findit herunterladen. Um zum Beispiel den Befehl cmeans herunterzuladen, können Sie findit cmeans eingeben (siehe Wie kann ich den Befehl findit verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Bitte beachten Sie: Die Programme xi3 und postgr3 sind im Ruhestand und können nicht mehr heruntergeladen werden.

No comments:

Post a Comment