Tuesday 4 July 2017

Weniger Befehl In Stata Forex

Willkommen beim Institut für Digitale Forschung und Bildung Stata Lernmodul Verwendung von IF mit Stata-Befehlen Dieses Modul zeigt die Verwendung von if bei gängigen Stata-Befehlen. Verwenden Sie die automatische Datendatei. Für dieses Modul konzentrieren wir uns auf die Variablen make, rep78, foreign, mpg und price. Wir können den Befehl keep verwenden, um nur diese fünf Variablen zu behalten. Lets machen eine Tabelle von rep78 von ausländischen, um die Reparatur Geschichte der ausländischen und inländischen Autos zu betrachten. Angenommen, wir wollten uns nur auf die Autos mit Reparaturgeschichten von vier oder besser konzentrieren. Wir können verwenden, wenn Suffix, dies zu tun. Lets make die oben genannten Tabelle mit der Spalte und nofreq Optionen. Die Befehlsspalte fordert Spaltenprozentwerte an, während der Befehl nofreq Zellenfrequenzen unterdrückt. Beachten Sie, dass colum n und nofreq nach dem Komma kommen. Dies sind Optionen auf dem Tabulatorkommando und Optionen müssen nach einem Komma platziert werden. Die Verwendung von if ist nicht auf den Befehl tabulate beschränkt. Hier verwenden wir ihn mit dem Befehl list. Haben Sie gesehen, dass einige der Beobachtungen einen Wert von 39 hatten. 39 für rep78. Diese sind fehlende Werte. Beispielsweise fehlt der Wert von rep78 für den AMC Spirit. Stata behandelt einen fehlenden Wert als positive Unendlichkeit, die höchste Zahl möglich. Also, wenn wir sagten Liste, wenn rep78 gt 4, Stata enthalten die Beobachtungen, wo rep78 war. 39 auch. Wenn wir nur die gültigen (nicht fehlenden) Beobachtungen einschließen möchten, die größer oder gleich 4 sind, können wir folgendes tun, um Stata zu sagen, dass wir nur Beobachtungen wünschen, in denen rep78 gt 4 und rep78 nicht fehlen. Dieser Code liefert auch die gleiche Ausgabe wie oben. Wir können mit den meisten Stata-Befehlen verwenden. Hier erhalten wir zusammenfassend Statistiken für den Preis für Autos mit Reparaturgeschichten von 1 oder 2. Beachten Sie die doppelte Gleichheit () steht für IS EQUAL TO und die Pipe () steht für OR. Ein einfacher Weg, dies zu sagen wäre. Ebenso können wir dies für Autos mit Reparatur Geschichte von 3, 4 oder 5. Darüber hinaus können wir diesen Code verwenden, um eine Reihe von Werten zu bezeichnen. Hier ist eine Zusammenfassung des Preises für die Werte 3 bis 5 in rep78. Lassen Sie uns dies zu vereinfachen, indem Sie rep78 gt 3. Haben Sie den Fehler, den wir gemacht haben wir versehentlich enthalten die fehlenden Werte, weil wir vergessen, sie auszuschließen. Wir mussten es wirklich sagen. Eine Stichprobe nehmen Es ist auch möglich, eine einfache Stichprobe Ihrer Daten mit dem Beispielbefehl zu nehmen. Diese Informationen finden Sie auf unserer STATA FAQ-Seite: Wie kann ich eine zufällige Stichprobe meiner Daten zeichnen Die meisten Stata-Befehle können gefolgt werden, wenn. ZB Zusammenfassen, wenn rep78 gleich 2 Summarize if rep78 größer oder gleich 2 Summarize if rep78 größer als 2 Summarize if rep78 kleiner oder gleich 2 Summarize if rep78 kleiner als 2 Summarize if rep78 nicht gleich 2 Wenn Ausdrücke verbunden werden können Mit für OR amp für AND Fehlende Werte werden als 39 dargestellt. 39 und sind der höchste Wert möglich. Deshalb, wenn Werte fehlen, seien Sie vorsichtig mit Befehlen wie fehlende Werte weglassen, verwenden Der Inhalt dieser Website sollte nicht als eine Anerkennung für eine bestimmte Website, Buch oder Softwareprodukt von der Universität von Kalifornien ausgelegt werden Das Institut für digitale Forschung und Erziehung Regression mit Stata Kapitel 1 - Einfache und Multiple Regression Kapitelübersicht 1.0 Einleitung 1.1 Eine erste Regressionsanalyse 1.2 Untersuchen von Daten 1.3 Einfache lineare Regression 1.4 Multiple Regression 1.5 Transformation von Variablen 1.6 Zusammenfassung 1.7 Selbstevaluation 1.8 Für weitere Informationen Dieses Buch Besteht aus vier Kapiteln, die eine Vielzahl von Themen über die Verwendung von Stata für die Regression abdecken. Wir sollten betonen, dass dieses Buch über quotdata analysisquot ist und dass es zeigt, wie Stata für die Regressionsanalyse verwendet werden kann, im Gegensatz zu einem Buch, das die statistische Basis der multiplen Regression abdeckt. Wir gehen davon aus, dass Sie mindestens einen Statistikkurs für die Regressionsanalyse gehabt haben und dass Sie ein Regressionsheft haben, das Sie als Referenz verwenden können (siehe Regression mit Stata-Seite und unsere Statistik-Bücher für Darlehen für empfohlene Regressionsanalyse-Bücher). Dieses Buch ist entworfen, um Ihr Wissen der Regression anzuwenden, es mit der Anweisung auf Stata zu kombinieren, Regressionsanalysen durchzuführen, zu verstehen und zu interpretieren. Dieses erste Kapitel behandelt Themen in einfacher und multipler Regression sowie die unterstützenden Aufgaben, die für die Analyse Ihrer Daten wichtig sind. Daten überprüfen, sich mit Ihrer Datendatei vertraut machen und die Verteilung Ihrer Variablen untersuchen. Wir veranschaulichen die Grundlagen der einfachen und multiplen Regression und zeigen, wie wichtig es ist, Ihre Daten zu untersuchen, zu überprüfen und zu verifizieren, bevor Sie die Ergebnisse Ihrer Analyse akzeptieren. Im Allgemeinen wollen wir zeigen, dass die Ergebnisse Ihrer Regressionsanalyse ohne weitere Sondierung Ihrer Daten irreführend sein können, was Beziehungen zeigen könnte, die eine zufällige Analyse übersehen könnte. In diesem Kapitel und in den folgenden Kapiteln werden wir eine Datendatei verwenden, die durch zufälliges Sampeln von 400 Grundschulen aus dem California Department of Educations API 2000 Datensatz erstellt wurde. Diese Datendatei enthält ein Maß für die schulische Leistungsfähigkeit sowie andere Attribute der Grundschulen wie Klassenzahl, Einschreibung, Armut usw. Sie können diese Datei über das Web über Stata mit dem Befehl Stata verwenden Unten gezeigt. Hinweis: Geben Sie nicht den führenden Punkt in den Befehl ein - der Punkt ist eine Konvention, um anzugeben, dass die Anweisung ein Stata-Befehl ist. Sobald Sie die Datei gelesen haben, möchten Sie wahrscheinlich eine Kopie davon auf Ihrem Computer zu speichern (so dass Sie nicht brauchen, um es zu lesen über das Web jedes Mal). Nehmen wir an, Sie verwenden Windows und möchten die Datei in einem Ordner mit dem Namen c: regstata (Sie können einen anderen Namen, wenn Sie möchten). Zuerst können Sie diesen Ordner innerhalb von Stata mit dem Befehl mkdir erstellen. Mit dem Befehl cd können wir dann in dieses Verzeichnis wechseln. Und wenn Sie die Datei speichern, wird sie im Ordner c: regstata gespeichert. Speichern Sie die Datei als elemapi. Nun wird die Datendatei als c: regstataelemapi. dta gespeichert und du kannst Stata beenden und die Datendatei wäre noch da. Wenn Sie die Datei zukünftig verwenden möchten, verwenden Sie einfach den Befehl cd, um in das Verzeichnis c: regstata (oder was auch immer Sie es genannt haben) zu wechseln und dann die elemapi-Datei zu verwenden. 1.1 Eine erste Regressionsanalyse Lässt den Tauchgang direkt ein und führt eine Regressionsanalyse mit den Variablen api00 durch. Acsk3. Mahlzeiten und voll. Diese messen die akademische Leistung der Schule (api00), die durchschnittliche Klassengröße im Kindergarten bis zur 3. Klasse (acsk3), der Anteil der Schüler, die freie Mahlzeiten erhalten (Mahlzeiten) - ein Indikator für die Armut und der Anteil der Lehrkräfte Vollständiger Unterrichtsnachweis (voll). Wir erwarten, dass eine bessere akademische Leistung mit niedrigeren Klassengrösse, weniger Studenten, die freie Mahlzeiten verbunden sind, und ein höherer Prozentsatz der Lehrer mit vollständigem Unterrichtsnachweis in Verbindung gebracht werden. Im Folgenden zeigen wir den Stata-Befehl zum Testen dieses Regressionsmodells, gefolgt von der Stata-Ausgabe. Lässt Fokus auf die drei Prädiktoren, ob sie statistisch signifikant sind, und wenn ja, die Richtung der Beziehung. Die durchschnittliche Klassengröße (acsk3.b-2.68) ist nicht statistisch signifikant auf dem 0,05-Niveau (p0.055), aber nur so. Der Koeffizient ist negativ, was darauf hindeuten würde, dass eine größere Klassengröße mit einer niedrigeren akademischen Leistung zusammenhängt - was wir erwarten würden. Als nächstes ist der Effekt der Mahlzeiten (b-3.70, p.000) signifikant und sein Koeffizient ist negativ, was anzeigt, dass je größer der Anteil der Schüler, die freie Mahlzeiten erhalten, desto niedriger die akademische Leistung. Bitte beachten Sie, dass wir nicht sagen, dass freie Mahlzeiten verursachen niedrigere akademische Leistung. Die Verpflegungsvariable ist in hohem Grade mit dem Einkommenniveau verbunden und fungiert mehr als Vollmacht für Armut. So sind höhere Armutsniveaus mit einer niedrigeren akademischen Leistung verbunden. Dieses Ergebnis macht auch Sinn. Schließlich scheint der Prozentsatz der Lehrer mit vollständigen Zeugnissen (voll. B0.11, S.232) nicht mit der akademischen Leistung in Zusammenhang zu stehen. Dies scheint zu zeigen, dass der Prozentsatz der Lehrer mit voller Anmeldeinformationen nicht ein wichtiger Faktor bei der Vorhersage der akademischen Leistung ist - dieses Ergebnis war etwas unerwartet. Aus diesen Ergebnissen geht hervor, dass niedrigere Klassengrößen mit höherer Leistung zusammenhängen, dass weniger Schüler, die freie Mahlzeiten erhalten, mit einer höheren Leistung assoziiert sind und dass der Prozentsatz der Lehrer mit vollständiger Anmeldeinformation war Nicht im Zusammenhang mit der akademischen Leistung in den Schulen. Bevor wir dies für die Veröffentlichung schreiben, sollten wir eine Reihe von Kontrollen durchführen, um sicherzustellen, dass wir fest hinter diesen Ergebnissen stehen können. Wir beginnen, indem wir uns mit der Datendatei vertraut machen, eine vorläufige Datenprüfung durchführen und nach Fehlern in den Daten suchen. 1.2 Überprüfen der Daten Zuerst können Sie mit dem Befehl beschreiben, um mehr über diese Datendatei zu erfahren. Wir können überprüfen, wie viele Beobachtungen es hat und sehen die Namen der Variablen enthält. Um dies zu tun, geben wir einfach Wir werden nicht in alle Details dieser Ausgabe gehen. Beachten Sie, dass es 400 Beobachtungen und 21 Variablen gibt. Wir haben Variablen über die akademische Leistung in den Jahren 2000 und 1999 und die Veränderung der Leistung, api00. Api99 und Wachstum. Wir haben auch verschiedene Merkmale der Schulen, z. B. Klasse, Eltern Bildung, Prozent der Lehrer mit Voll-und Notfall-Anmeldeinformationen, und die Zahl der Studenten. Beachten Sie, dass, wenn wir unsere ursprüngliche Regressionsanalyse taten es sagte, dass es 313 Beobachtungen, aber die beschreiben Befehl zeigt, dass wir 400 Beobachtungen in der Datendatei haben. Wenn Sie mehr über die Datendatei erfahren möchten, können Sie alle oder einige der Beobachtungen auflisten. Nachstehend finden Sie die ersten fünf Beobachtungen. Dies erfordert viel Platz auf der Seite, aber nicht geben uns eine Menge Informationen. Eine Liste der ersten 10 Beobachtungen für die Variablen, die wir in unserer ersten Regressionsanalyse betrachteten, können Sie auflisten, wenn Sie nur die Variablen auflisten, für die Sie sich interessieren. Wir sehen, dass unter den ersten 10 Beobachtungen, haben wir vier fehlende Werte für die Mahlzeiten. Es ist wahrscheinlich, dass die fehlenden Daten für Mahlzeiten etwas damit zu tun haben, dass die Anzahl der Beobachtungen in unserer ersten Regressionsanalyse 313 und nicht 400 war. Ein weiteres nützliches Werkzeug für das Lernen über Ihre Variablen ist der Codebuchbefehl. Lets do Codebuch für die Variablen, die wir in die Regressionsanalyse, sowie die Variable yrrnd enthalten. Wir haben einige Kommentare zu dieser Ausgabe in eckigen Klammern und fett gedruckt. Der Codebuch-Befehl hat eine Anzahl von Besonderheiten aufgedeckt, die einer weiteren Prüfung würdig sind. Mit dem Befehl summarize können Sie mehr über diese Variablen erfahren. Wie unten gezeigt, zeigt der Zusammenfassungsbefehl auch die große Anzahl fehlender Werte für Mahlzeiten (400 - 315 85) an, und wir sehen das ungewöhnliche Minimum für acsk3 von -21. Detaillierte Zusammenfassung für acsk3. In Stata gibt das Komma nach der Variablenliste an, dass Optionen folgen, in diesem Fall ist die Option Detail. Wie Sie unten sehen können, gibt die Detailoption Ihnen die Perzentile, die vier größten und kleinsten Werte, Messgrößen der zentralen Tendenz und Varianz, etc. Beachten Sie, dass zusammenfassen. Und andere Befehle können abgekürzt werden: wir könnten sum acsk3, d eingegeben haben. Es scheint, als ob einige der Klassengrßen irgendwie negativ wurden, als ob ein negatives Vorzeichen fälschlicherweise vor ihnen eingegeben wurde. Lassen Sie uns eine Tabelle der Klassengröße zu sehen, ob dies plausibel erscheint. In der Tat, es scheint, dass einige der Klasse Größen irgendwie negativen Vorzeichen vor ihnen gesetzt. Lets Blick auf die Schule und Bezirk Zahl für diese Beobachtungen zu sehen, wenn sie aus dem gleichen Bezirk kommen. Tatsächlich kommen sie alle aus dem Distrikt 140. Sehen wir uns alle Beobachtungen für den Distrikt 140 an. Alle Beobachtungen aus dem Distrikt 140 scheinen dieses Problem zu haben. Wenn Sie ein solches Problem finden, möchten Sie zurück zur ursprünglichen Quelle der Daten, um die Werte zu überprüfen. Wir müssen zeigen, dass wir diesen Fehler zu Illustrationszwecken hergestellt haben und dass die tatsächlichen Daten kein solches Problem hatten. Lets vortäuschen, dass wir mit Bezirk 140 überprüft und es gab ein Problem mit den Daten gibt, wurde ein Bindestrich versehentlich vor der Klasse Größen setzen sie negativ gesetzt. Wir machen eine Notiz, um dies zu beheben Lets fortsetzen Überprüfung unserer Daten. Werfen wir einen Blick auf einige grafische Methoden für die Inspektion von Daten. Für jede Variable ist es sinnvoll, diese mit Hilfe eines Histogramms, eines Kastenplots und eines Stamm-und-Blatt-Plots zu untersuchen. Diese Diagramme können Sie Informationen über die Form Ihrer Variablen besser als einfache numerische Statistik können. Wir wissen bereits über das Problem mit acsk3. Aber sehen, wie diese grafischen Methoden das Problem mit dieser Variable aufgedeckt haben würde. Zuerst zeigen wir ein Histogramm für acsk3. Dies zeigt uns die Beobachtungen, wo die durchschnittliche Klassengröße negativ ist. Ebenso hätte ein Boxplot diese Beobachtungen auch auf unsere Aufmerksamkeit gerichtet. Sie sehen die äußeren negativen Beobachtungen Weg am unteren Rand des Boxplot. Schließlich hätte ein Stiel-und-Blatt-Plot auch dazu beigetragen, diese Beobachtungen zu identifizieren. Dieses Diagramm zeigt die genauen Werte der Beobachtungen, was darauf hinweist, dass es drei -21s, zwei -20s und ein -19. Es empfiehlt sich, alle Graphen für die zu analysierenden Variablen zu zeichnen. Aus Platzgründen lassen wir diese Graphen für alle Variablen weg. Allerdings, bei der Untersuchung der Variablen, die Stamm-und-Blatt-Plot für voll erschien eher ungewöhnlich. Bis jetzt haben wir nichts Problematisches mit dieser Variable gesehen, aber schauen Sie sich die Stamm-und Blatt-Plot für voll unten. Es zeigt 104 Beobachtungen, bei denen der Prozentsatz mit einem vollen Berechtigungsnachweis weniger als eins ist. Dies ist mehr als 25 der Schulen, und scheint sehr ungewöhnlich. Schauen wir uns die Häufigkeitsverteilung von full an, um zu sehen, ob wir dies besser verstehen können. Die Werte gehen von 0,42 auf 1,0, springen dann auf 37 und steigen von dort aus hoch. Es scheint, als ob einige der Prozentsätze tatsächlich als Proportionen, z. B. 0.42 wurde anstelle von 42 oder 0.96 eingegeben, die wirklich 96 sein sollten. Lets sehen, aus welchem ​​Bezirk diese Daten stammen. Wir bemerken, daß alle 104 Beobachtungen, bei denen der Vollwert kleiner oder gleich Eins war, aus dem Distrikt 401 stammten. Wie viele Beobachtungen sich im Bezirk 401 mit dem Zählbefehl befinden, sehen wir, daß das Viertel 401 104 Beobachtungen aufweist. Alle Beobachtungen aus diesem Bezirk scheinen als Prozentsätze anstelle von Prozentsätzen aufgezeichnet zu werden. Wieder, lassen Sie uns sagen, dass dies ein Vorwand Problem, das wir in die Daten zur Veranschaulichung eingesetzt. Wenn dies ein wirkliches Lebensproblem wäre, würden wir mit der Quelle der Daten überprüfen und das Problem überprüfen. Wir werden eine Notiz machen, um dieses Problem auch in den Daten zu beheben. Eine weitere nützliche graphische Technik zum Screening Ihrer Daten ist eine Scatterplot-Matrix. Während dies wahrscheinlich als diagnostisches Werkzeug, das nach Nichtlinearitäten und Ausreißern in Ihren Daten sucht, relevant ist, kann es auch ein nützliches Daten-Screening-Tool sein, das möglicherweise Informationen in den gemeinsamen Verteilungen Ihrer Variablen enthüllt, die aus der Untersuchung univariater Verteilungen nicht ersichtlich sind . Betrachten wir die Scatterplot-Matrix für die Variablen in unserem Regressionsmodell. Dies deckt die Probleme auf, die wir bereits identifiziert haben, d. h. die negativen Klassengrößen und der Prozentsatz der vollen Anmeldedaten werden als Proportionen eingegeben. Wir haben drei Probleme in unseren Daten identifiziert. Es gibt viele fehlende Werte für die Mahlzeiten. Es wurden Negative zufällig eingefügt, bevor einige der Klassengrößen (acsk3) und mehr als ein Viertel der Werte für Vollprofile anstelle von Prozentsätzen waren. Die korrigierte Version der Daten heißt elemapi2. Wir verwenden diese Datei und wiederholen unsere Analyse und sehen, ob die Ergebnisse die gleichen wie unsere ursprüngliche Analyse sind. Zuerst können wir unsere ursprüngliche Regressionsanalyse wiederholen. Nun können wir die korrigierte Datendatei verwenden und die Regressionsanalyse wiederholen. Wir sehen einen gewissen Unterschied in den Ergebnissen. In der ursprünglichen Analyse (oben) war acsk3 nahezu signifikant, aber in der korrigierten Analyse (unten) zeigen die Ergebnisse diese Variable nicht signifikant, möglicherweise aufgrund der Fälle, in denen die Klassengröße gegeben wurde Negativen Wert. Ebenso war der Prozentsatz der Lehrer mit vollständigem Anmeldeinformationen nicht signifikant in der ursprünglichen Analyse, ist aber signifikant in der korrigierten Analyse, möglicherweise aufgrund der Fälle, in denen der Wert als der Anteil mit voller Anmeldeinformationen statt der Prozent gegeben wurde. Beachten Sie auch, dass die korrigierte Analyse auf 398 Beobachtungen statt 313 Beobachtungen basiert, da die vollständigen Daten für die Mahlzeiten Variable, die viele fehlende Werte hatte erhalten. Von diesem Punkt an werden wir die korrigierten, elemapi2 verwenden. Datendatei. Möglicherweise möchten Sie diese auf Ihrem Computer speichern, damit Sie es in zukünftigen Analysen verwenden können. Bisher haben wir einige Themen in Data Checkingverification abgedeckt, aber wir haben nicht wirklich diskutiert Regressionsanalyse selbst. Lets jetzt reden mehr über die Durchführung Regressionsanalyse in Stata. 1.3 Einfache lineare Regression Am Anfang stehen einige Beispiele für einfache lineare Regression unter Verwendung von Stata. Bei dieser Art der Regression haben wir nur eine Prädiktorvariable. Diese Variable kann kontinuierlich sein, dh sie kann alle Werte innerhalb eines Bereichs annehmen, zum Beispiel Alter oder Höhe, oder sie kann dichotom sein, was bedeutet, daß die Variable nur einen von zwei Werten, beispielsweise 0 oder 1, annehmen kann Wird die Verwendung von kategorischen Variablen mit mehr als zwei Ebenen in Kapitel 3 behandelt. Es gibt nur eine Antwort oder abhängige Variable, und sie ist kontinuierlich. In Stata wird die abhängige Variable unmittelbar nach dem Regress-Befehl gefolgt von einer oder mehreren Prädiktorvariablen aufgelistet. Lets untersuchen, die Beziehung zwischen der Größe der Schule und der akademischen Leistung zu sehen, ob die Größe der Schule im Zusammenhang mit der akademischen Leistung. Für dieses Beispiel ist api00 die abhängige Variable und die Registrierung der Prädiktor. Lets Überprüfung dieser Ausgabe ein bisschen mehr sorgfältig. Zuerst sehen wir, dass der F-Test statistisch signifikant ist, was bedeutet, dass das Modell statistisch signifikant ist. Der R-Quadrat von .1012 bedeutet, dass etwa 10 der Varianz von api00 durch das Modell berücksichtigt wird, in diesem Fall registrieren. Der t-Test für die Registrierung ist gleich -6.70 und ist statistisch signifikant, was bedeutet, dass der Regressionskoeffizient für die Anmeldung signifikant von Null verschieden ist. Beachten Sie, dass (-6.70) 2 44.89, die die gleiche ist wie die F-Statistik (mit einigen Rundungsfehler). Der Koeffizient für die Einschreibung ist -.1998674 oder etwa -2, was bedeutet, dass für eine Ein-Einheit Anstieg der Anmeldung. Würden wir erwarten, dass eine .2-Unit-Abnahme in api00. Mit anderen Worten, eine Schule mit 1100 Studenten würde erwartet, dass ein api Gäste 20 Einheiten niedriger als eine Schule mit 1000 Studenten haben. Die Konstante ist 744.2514, und dies ist der vorhergesagte Wert, wenn die Registrierung gleich Null ist. In den meisten Fällen ist die Konstante nicht sehr interessant. Wir haben eine annotierte Ausgabe vorbereitet, die die Ausgabe aus dieser Regression zusammen mit einer Erläuterung von jedem der darin enthaltenen Elemente zeigt. Zusätzlich zum Erhalten der Regressionstabelle kann es nützlich sein, ein Scatterplot der vorhergesagten und der Ergebnisvariablen mit der Regressionslinie, die gezeichnet ist, zu sehen. Nachdem Sie eine Regression ausgeführt haben, können Sie eine Variable erstellen, die die vorhergesagten Werte mit dem Vorhersagebefehl enthält. Sie können diese Werte an einem beliebigen Punkt nach dem Ausführen eines Regress-Befehls abrufen, aber denken Sie daran, dass, sobald Sie eine neue Regression ausführen, die vorhergesagten Werte auf der letzten Regression basieren. Um vorhergesagte Werte zu erstellen, geben Sie einfach eine Vorhersage ein, und der Name einer neuen Variablen gibt Ihnen die eingegebenen Werte. In diesem Beispiel wird unser neuer Variablenname fv sein. So werden wir tippen Wenn wir den Listenbefehl verwenden, sehen wir, dass für jede Beobachtung ein angepaßter Wert erzeugt wurde. Im Folgenden können wir ein Scatterplot der Ergebnisvariable, api00 und dem Prädiktor, einschreiben. Wir können Streuung mit lfit kombinieren, um ein Streudiagramm mit gepaßten Werten zu zeigen. Wie Sie sehen, scheinen einige der Punkte Ausreißer zu sein. Wenn Sie die Option mlabel (snum) auf dem Befehl scatter verwenden, können Sie die Schulnummer für jeden Punkt sehen. So können wir z. B. sehen, dass einer der Ausreißer Schule 2910 ist. Wie wir bereits gesehen haben, kann der Vorhersagebefehl verwendet werden, um vorhergesagte (angepaßte) Werte nach dem Regress zu erzeugen. Sie können auch Residuen erhalten, indem Sie den Befehl predict verwenden, gefolgt von einem Variablennamen, in diesem Fall e. Mit der Restoption. Dieser Befehl kann verkürzt werden, um e, resid oder e vorhersagen. Die folgende Tabelle zeigt einige der anderen Werte, die mit der Vorhersageoption erstellt werden können. 1.4 Multiple Regression Nun, betrachten wir ein Beispiel der multiplen Regression, in denen wir eine Ergebnis (abhängige) Variable und mehrere Prädiktoren haben. Bevor wir mit unserem nächsten Beispiel beginnen, müssen wir eine Entscheidung bezüglich der Variablen treffen, die wir erstellt haben, weil wir ähnliche Variablen mit unserer multiplen Regression erstellen werden, und wir wollen die Variablen nicht verwirren lassen. Zum Beispiel haben wir in der einfachen Regression eine Variable fv für unsere prognostizierten (angepassten) Werte und e für die Residuen erstellt. Wenn wir für unser nächstes Beispiel vorhergesagte Werte erzeugen wollen, könnten wir den vorhergesagten Wert etwas anderes nennen, z. B. Fvmr. Aber das könnte beginnen, verwirrend. Wir konnten die Variablen, die wir erstellt haben, mit drop fv e löschen. Stattdessen können die Daten im Speicher gelöscht und die elemapi2-Datendatei erneut verwendet werden. Wenn wir in den nächsten Kapiteln neue Beispiele anführen, werden wir die vorhandene Datendatei löschen und die Datei wieder neu starten. Für dieses multiple Regressionsbeispiel werden wir die abhängige Variable, api00, zurückrechnen. Auf alle Prädiktorvariablen im Datensatz. Lets untersuchen die Ausgabe aus dieser Regressionsanalyse. Wie bei der einfachen Regression schauen wir auf den p-Wert des F-Tests, um zu sehen, ob das Gesamtmodell signifikant ist. Bei einem p-Wert von null bis vier Dezimalstellen ist das Modell statistisch signifikant. Das R-Quadrat ist 0,8446, was bedeutet, dass etwa 84 der Variabilität von api00 durch die Variablen im Modell berücksichtigt werden. In diesem Fall deutet das eingestellte R-Quadrat darauf hin, dass etwa 84 der Variabilität von api00 durch das Modell berücksichtigt werden, auch unter Berücksichtigung der Anzahl der Vorhersagevariablen im Modell. Die Koeffizienten für jede der Variablen geben die Änderungsmenge an, die man in api00 erwarten kann, wenn man eine einheitliche Änderung des Wertes dieser Variablen erhält, vorausgesetzt, daß alle anderen Variablen im Modell konstant gehalten werden. Betrachten wir zum Beispiel die Variable ell. Wir erwarten eine Abnahme von 0,86 in der api00-Wertung für jede Einheitsteigerung in ell. Dass alle anderen Variablen im Modell konstant gehalten werden. Die Interpretation von viel der Ausgabe aus der multiplen Regression ist die gleiche wie für die einfache Regression. Wir haben eine annotierte Ausgabe vorbereitet, die die Ausgabe dieser multiplen Regressionsanalyse genauer erklärt. Sie können sich fragen, was eine 0.86 Änderung in ell wirklich bedeutet, und wie Sie die Stärke dieses Koeffizienten auf den Koeffizienten für eine andere Variable vergleichen können, sagen Mahlzeiten. Um dieses Problem zu lösen, können wir dem Regress-Befehl, der Beta genannt wird, eine Option hinzufügen. Was uns die standardisierten Regressionskoeffizienten gibt. Die Beta-Koeffizienten werden von einigen Forschern verwendet, um die relative Stärke der verschiedenen Prädiktoren im Modell zu vergleichen. Da die Beta-Koeffizienten alle in Standardabweichungen gemessen werden, können sie statt der Einheiten der Variablen miteinander verglichen werden. In anderen Worten, die Beta-Koeffizienten sind die Koeffizienten, die Sie erhalten würden, wenn die Ergebnisse und Prädiktor-Variablen wurden alle verwandelt Standard-Scores, auch als z-Scores, bevor Sie die Regression. Da die Koeffizienten in der Beta-Spalte alle in denselben standardisierten Einheiten liegen, können Sie diese Koeffizienten vergleichen, um die relative Stärke jedes der Prädiktoren zu bestimmen. In diesem Beispiel hat Mahlzeiten den größten Beta-Koeffizienten, -0,66 (in absoluten Wert), und acsk3 hat die kleinste Beta, 0,013. Somit führt ein Standardabweichungsanstieg bei den Mahlzeiten zu einer Abweichung von 0,66 Standardabweichung im vorhergesagten api00. Wobei die anderen Variablen konstant gehalten werden. Und eine Standardabweichung in acsk3. Die wiederum zu einer 0,013 Standardabweichungszunahme im vorhergesagten api00 führt, wobei die anderen Variablen in dem Modell konstant gehalten werden. Bei der Interpretation dieser Ausgabe, denken Sie daran, dass die Differenz zwischen den Zahlen, die in der Coef. Spalte und die Beta-Säule in den Maßeinheiten. Zum Beispiel, um den Rohkoeffizienten für ell zu beschreiben, würden Sie sagen, dass eine Ein-Einheit-Abnahme in ell eine .86-Einheitszunahme in der vorhergesagten api00.quot ergeben würde. Für den standardisierten Koeffizienten (Beta) würden Sie jedoch sagen, ein Standard Abweichung in ell würde eine 0,15 Standardabweichung erhöhen in der vorhergesagten api00.quot Der Befehl listcoef gibt umfangreichere Ausgabe in Bezug auf standardisierte Koeffizienten. Es ist nicht Teil von Stata, aber Sie können es über das Internet wie folgt herunterladen. Und folgen Sie dann den Anweisungen (siehe auch Wie kann ich den Befehl findit verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Jetzt haben wir listcoef heruntergeladen. Können wir es so ausführen. Vergleichen wir die Regress-Ausgabe mit dem listcoef-Ausgang. Sie werden feststellen, dass die Werte, die in der Coef. T und Pgtt-Werte in beiden Ausgängen die gleichen sind. Die in der Spalte Beta der Regress-Ausgabe aufgeführten Werte entsprechen den Werten in der bStadXY-Spalte von listcoef. Die bStdX-Spalte gibt die Einheitsänderung in Y an, die mit einer Standardabweichungsänderung in X erwartet wird. Die bStdY-Spalte gibt die Standardabweichungsänderung in Y an, die mit einer Einheitsänderung in X erwartet wird. Die SDofX-Spalte gibt die Standardabweichung jeder Vorhersagevariablen an das Model. Zum Beispiel ist der bStdX für ell -21,3, was bedeutet, dass ein Standardabweichungsanstieg in ell zu einer erwarteten Abnahme von 21,3 Einheiten in api00 führen würde. Der bStdY-Wert für ell von -0.0060 bedeutet, dass für eine Einheit, ein Prozent, eine Erhöhung der englischsprachigen Lernenden eine 0,006 Standardabweichungabnahme in api00 erwarten würde. Da die bStdX-Werte in Standardeinheiten für die Prädiktorvariablen sind, können Sie diese Koeffizienten verwenden, um die relative Stärke der Prädiktoren zu vergleichen, wie Sie Beta-Koeffizienten vergleichen würden. Der Unterschied ist, dass BStdX-Koeffizienten als Änderungen in den Einheiten der Ergebnisvariablen statt in standardisierten Einheiten der Ergebnisvariablen interpretiert werden. Zum Beispiel ist die BStdX für Mahlzeiten gegenüber ell -94 versus -21 oder etwa viermal so groß, dasselbe Verhältnis wie das Verhältnis der Beta-Koeffizienten. Wir haben eine annotierte Ausgabe erstellt, die die Ausgabe von listcoef genauer erklärt. Bisher haben wir uns mit dem Testen einer einzelnen Variablen zu einem Zeitpunkt beschäftigt, zum Beispiel mit Blick auf den Koeffizienten für ell und bestimmen, ob dies signifikant ist. Wir können auch Sätze von Variablen unter Verwendung des Testbefehls testen, um zu sehen, ob der Satz von Variablen signifikant ist. Zuerst starten wir mit dem Testen einer einzelnen Variablen, ell. Mit dem Testbefehl. Wenn Sie diesen Ausgang mit der Ausgabe der letzten Regression vergleichen, sehen Sie, dass das Ergebnis des F-Tests, 16.67, mit dem Quadrat des Ergebnisses des t-Tests in der Regression übereinstimmt (-4.0832 16.67). Beachten Sie, dass Sie die gleichen Ergebnisse erhalten könnten, wenn Sie die folgenden eingegeben, da Stata standardmäßig auf den Vergleich der Begriff (e) auf 0 verglichen wird. Vielleicht ein interessanter Test wäre, um zu sehen, wenn der Beitrag der Klasse Größe signifikant ist. Da die Informationen über die Klassengröße in zwei Variablen, acsk3 und acs46 enthalten sind. Wir beide mit dem Testbefehl. Der signifikante F-Test, 3.95, bedeutet, dass der kollektive Beitrag dieser beiden Variablen signifikant ist. Eine Möglichkeit, dies zu denken, besteht darin, dass es einen signifikanten Unterschied zwischen einem Modell mit acsk3 und acs46 im Vergleich zu einem Modell ohne sie gibt, d. h. es gibt einen signifikanten Unterschied zwischen dem quotfullquot-Modell und den quotreduzierten Quotmodellen. Schließlich, als Teil der Durchführung einer multiplen Regressionsanalyse könnten Sie daran interessiert sein, die Korrelationen zwischen den Variablen im Regressionsmodell zu sehen. Sie können dies mit dem korrelieren Befehl wie unten gezeigt tun. Betrachten wir die Korrelationen mit api00. Sehen wir Mahlzeiten und haben die beiden stärksten Korrelationen mit api00. Diese Korrelationen sind negativ, dh, wenn der Wert einer Variablen untergeht, geht der Wert der anderen Variable in die Höhe. Zu wissen, dass diese Variablen stark mit api00 assoziiert sind. Könnten wir vorhersagen, dass es sich um statistisch signifikante Prädiktorvariablen im Regressionsmodell handelt. Wir können auch den Befehl pwcorr verwenden, um paarweise Korrelationen durchzuführen. Der wichtigste Unterschied zwischen correlate und pwcorr ist die Art und Weise, in der fehlende Daten behandelt werden. Mit korrelieren. Eine Beobachtung oder ein Fall wird fallengelassen, wenn eine Variable einen fehlenden Wert hat, mit anderen Worten, korrelieren verwendet listwise. Auch casewise genannt, Streichung. Pwcorr verwendet paarweises Löschen, dh die Beobachtung wird nur gelöscht, wenn ein fehlender Wert für das Paar der Variablen korreliert ist. Zwei Optionen, die Sie mit pwcorr verwenden können. Aber nicht mit korrelieren. Sind die sig-Option, die die Signifikanzwerte für die Korrelationen und die obs-Option, die die Anzahl der Beobachtungen in der Korrelation verwendet geben wird. Eine solche Option ist bei corr nicht notwendig, da Stata die Anzahl der Beobachtungen oben am Ausgang anzeigt. 1.5 Transforming Variables Früher konzentrierten wir uns auf das Screening Ihrer Daten auf mögliche Fehler. Im nächsten Kapitel werden wir uns auf Regressionsdiagnosen konzentrieren, um zu überprüfen, ob Ihre Daten die Annahmen der linearen Regression erfüllen. Hier werden wir uns auf die Frage der Normalität konzentrieren. Einige Forscher glauben, dass lineare Regression erfordert, dass die Ergebnisse (abhängige) und Prädiktor-Variablen normal verteilt werden. Wir müssen dieses Problem klären. In Wirklichkeit sind es die Residuen, die normal verteilt werden müssen. Tatsächlich müssen die Residuen nur dann normal sein, wenn die t-Tests gültig sind. Die Schätzung der Regressionskoeffizienten erfordert keine normal verteilten Residuen. Da wir an gültigen t-Tests interessiert sind, werden wir Fragen der Normalität untersuchen. Eine häufige Ursache für nicht normal verteilte Residuen sind nicht normal verteilte Ergebnisse und Vorhersagevariablen. Lassen Sie uns also die Verteilung unserer Variablen erforschen und wie wir sie in eine normalere Form umwandeln könnten. Beginnt mit einem Histogramm der Variablenregistrierung. Die wir früher in der einfachen Regression gesehen haben. Wir können die normale Option verwenden, um eine normale Kurve auf diesem Diagramm zu überlagern, und die Option bin (20), 20 Bins zu verwenden. Die Verteilung sieht nach rechts schräg aus. Sie können auch Etiketten der Achsen ändern. Beispielsweise verwenden wir die xlabel () - Option für die Beschriftung der x-Achse unten und kennzeichnen sie von 0 bis 1600, die um 100 inkrementiert werden. Histogramme sind empfindlich für die Anzahl der Bins oder Spalten, die in der Anzeige verwendet werden. Eine Alternative zu Histogrammen ist die Kerneldichtedichte, die die Wahrscheinlichkeitsdichte der Variablen annähert. Kernel density plots have the advantage of being smooth and of being independent of the choice of origin, unlike histograms. Stata implements kernel density plots with the kdensity command. Not surprisingly, the kdensity plot also indicates that the variable enroll does not look normal. Now lets make a boxplot for enroll . using graph box command. Note the dots at the top of the boxplot which indicate possible outliers, that is, these data points are more than 1.5(interquartile range) above the 75th percentile. This boxplot also confirms that enroll is skewed to the right. There are three other types of graphs that are often used to examine the distribution of variables symmetry plots, normal quantile plots and normal probability plots. A symmetry plot graphs the distance above the median for the i-th value against the distance below the median for the i-th value. A variable that is symmetric would have points that lie on the diagonal line. As we would expect, this distribution is not symmetric. A normal quantile plot graphs the quantiles of a variable against the quantiles of a normal (Gaussian) distribution. qnorm is sensitive to non-normality near the tails, and indeed we see considerable deviations from normal, the diagonal line, in the tails. This plot is typical of variables that are strongly skewed to the right. Finally, the normal probability plot is also useful for examining the distribution of variables. pnorm is sensitive to deviations from normality nearer to the center of the distribution. Again, we see indications of non-normality in enroll . Having concluded that enroll is not normally distributed, how should we address this problem First, we may try entering the variable as-is into the regression, but if we see problems, which we likely would, then we may try to transform enroll to make it more normally distributed. Potential transformations include taking the log, the square root or raising the variable to a power. Selecting the appropriate transformation is somewhat of an art. Stata includes the ladder and gladder commands to help in the process. Ladder reports numeric results and gladder produces a graphic display. Lets start with ladder and look for the transformation with the smallest chi-square. The log transform has the smallest chi-square. Lets verify these results graphically using gladder . This also indicates that the log transformation would help to make enroll more normally distributed. Lets use the generate command with the log function to create the variable lenroll which will be the log of enroll. Note that log in Stata will give you the natural log, not log base 10. To get log base 10, type log10(var) . Now lets graph our new variable and see if we have normalized it. We can see that lenroll looks quite normal. We would then use the symplot . qnorm and pnorm commands to help us assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.


No comments:

Post a Comment