Wednesday 17 May 2017

Trunkiert Regression In Stata Forex

Willkommen am Institut für Digitale Forschung und Bildung Stata Annotierte Ausgabe Trunkierte Regression Diese Seite zeigt ein Beispiel für eine trunkierte Regressionsanalyse mit Fußnoten, die die Ausgabe erklären. Ein trunkiertes Regressionsmodell prognostiziert eine Ergebnisvariable, die auf eine abgeschnittene Probe ihrer Verteilung beschränkt ist. Zum Beispiel, wenn wir das Alter der lizenzierten Autofahrer vor Fahrsituationen vorhersagen wollen, wird unsere Ergebnisvariable mit 16 (die gesetzliche Fahrzeit in den USA) abgeschnitten. Während die Bevölkerung der Altersgruppen unter 16, unsere Stichprobe der Bevölkerung nicht. Es ist wichtig, den Unterschied zwischen abgeschnittenen und zensierten Daten zu beachten. Bei zensierten Daten gibt es Einschränkungen für die Messskala, die es uns nicht erlauben, den wahren Wert der abhängigen Variablen trotz einer gewissen Messung davon zu kennen. Betrachten Sie den Tacho in einem Auto. Der Geschwindigkeitsmesser kann Geschwindigkeiten bis zu 120 Meilen pro Stunde messen, aber alle Geschwindigkeiten gleich oder größer als 120 mph werden als 120 mph gelesen werden. So, wenn der Tachometer misst die Geschwindigkeit zu 120 Meilen pro Stunde, könnte das Auto 120 Meilen pro Stunde oder eine größere Geschwindigkeit - wir haben keine Möglichkeit zu wissen. Zensierte Daten schlagen Grenzwerte für die Messskala der Ergebnisvariablen vor, während abgeschnittene Daten die Grenzwerte für die Ergebnisvariable in der interessierenden Stichprobe einschränken. In diesem Beispiel werden wir studieren Studium der Schüler in einem speziellen GATE (begabten und talentierten Ausbildung) Programm. Wir wollen die Leistung (achiv) als Funktion des Geschlechts, der Sprachkenntnisse und der mathematischen Fähigkeiten (weiblich, langscore und mathscore im Datensatz) modellieren. Ein wichtiges Anliegen ist, dass die Schüler eine Mindestleistung von 40, um das spezielle Programm eingeben müssen. Somit wird die Stichprobe mit einem Erreichungspunkt von 39 abgeschnitten. Zuerst können wir die Daten untersuchen. Nun können wir ein trunkiertes Regressionsmodell in Stata mit dem truncreg-Befehl erzeugen. Zuerst werden die Ergebnisvariable, dann die Prädiktoren und die untere und und obere Grenze aufgelistet. Unsere Daten sind nur linksbündig, so dass wir nur eine untere Grenze, ll (40) angeben. Trunkierte Regression Ausgabe a. (Anmerkung: 0 verkürzt) - Dies zeigt an, wie viele Beobachtungen im Modell Variablenwerte unterhalb der unteren Grenze oder oberhalb der oberen Grenze des Funktionsaufrufs ermittelt haben. In diesem Beispiel ist es die Anzahl der Beobachtungen, bei denen achiv lt 40. Der minimale Wert von achiv, der in der Datenzusammenfassung aufgelistet wurde, war 41, so dass es keine Beobachtungen gab, die abgeschnitten wurden. B. Passendes Vollmodell - Dies ist die Iterationsgeschichte des abgeschnittenen Regressionsmodells. Es listet die Log-Likelihoods bei jeder Iteration auf. Die abgeschnittene Regression verwendet eine Maximum-Likelihood-Schätzung, die eine iterative Prozedur ist. Die erste Iteration (Iteration 0) ist die logarithmische Wahrscheinlichkeit des Quotnullquot - oder Quotemptyquot-Modells, dh eines Modells ohne Prädiktoren. Bei der nächsten Iteration (Iteration 1) werden die spezifizierten Prädiktoren in das Modell aufgenommen. In diesem Beispiel sind die Prädiktoren weiblich, langscore und mathscore. Bei jeder Iteration erhöht sich die Protokollwahrscheinlichkeit, weil das Ziel darin besteht, die Protokollwahrscheinlichkeit zu maximieren. Wenn die Differenz zwischen aufeinanderfolgenden Iterationen sehr klein ist, wird angenommen, dass das Modell den Wert "convergeverquot" hat und die Iteration stoppt. Weitere Informationen zu diesem Prozess für binäre Ergebnisse finden Sie unter Regressionsmodelle für kategoriale und begrenzte abhängige Variablen von J. Scott Long (Seite 52-61). C. Lower - Zeigt den unteren Grenzwert für die Ergebnisvariable an. In diesem Beispiel ist die untere Grenze 40. d. Upper - Zeigt den oberen Grenzwert für die Ergebnisvariable an. In diesem Beispiel haben wir keine Obergrenze angegeben, daher wird angenommen, dass sie unendlich ist. D. h. Log likelihood - Dies ist die Log-Wahrscheinlichkeit des eingebauten Modells. Es wird in dem Likelihood Ratio Chi-Quadrat Test verwendet, ob alle Prädiktoren Regressionskoeffizienten im Modell gleichzeitig Null sind. F. Anzahl obs - Dies ist die Anzahl der Beobachtungen im Datensatz, bei denen die Ergebnis - und Prädiktorvariablen alle nicht fehlende Werte haben. G. Wald chi2 (3) - Dies ist die Wald-Chi-Quadrat-Statistik. Es wird verwendet, um die Hypothese zu testen, dass mindestens einer der Prädiktoren Regressionskoeffizienten ungleich Null ist. Die Zahl in den Klammern gibt die Freiheitsgrade der Chi-Quadrat-Verteilung an, die zum Testen der Wald-Chi-Quadrat-Statistik verwendet wird, und wird durch die Anzahl der Prädiktoren im Modell (3) definiert. H. Prob gt chi2 - Dies ist die Wahrscheinlichkeit, eine Wald-Test-Statistik so extrem zu erhalten, oder mehr, als die beobachtete Statistik unter der Nullhypothese, dass die Nullhypothese ist, dass alle Regressionskoeffizienten über beide Modelle gleichzeitig gleich Null sind. Mit anderen Worten, dies ist die Wahrscheinlichkeit, diese Chi-Quadrat-Statistik (89.85) oder ein weiteres Extrem zu erhalten, wenn es tatsächlich keine Wirkung der Prädiktorvariablen gibt. Dieser p-Wert wird mit einer spezifizierten Alpha-Ebene verglichen, unsere Bereitschaft, einen Typ-I-Fehler zu akzeptieren, der typischerweise auf 0,05 oder 0,01 eingestellt ist. Der kleine p-Wert aus dem Test, lt0,0001, würde zu dem Schluss kommen, dass mindestens einer der Regressionskoeffizienten im Modell ungleich Null ist. Der Parameter der Chi-Quadrat-Verteilung, die verwendet wird, um die Nullhypothese zu testen, wird durch die Freiheitsgrade in der vorherigen Zeile, chi2 (3), definiert. ich. Achiv - Dies ist die Ergebnisvariable, die vom Modell vorhergesagt wird. J Coef. - Dies sind die Regressionskoeffizienten. Sie werden in derselben Weise wie die OLS-Regressionskoeffizienten interpretiert: Für eine Erhöhung der Prädiktorvariablen um eine Einheit ändert sich der Erwartungswert der Ergebnisvariablen durch den Regressionskoeffizienten, wenn die anderen Prädiktorvariablen im Modell konstant gehalten werden. Weiblich - Die erwartete Leistung für eine Studentin ist 2.290933 Einheiten niedriger als die erwartete Leistung Punktzahl für einen männlichen Studenten, während alle anderen Variablen in der Modellkonstante. Mit anderen Worten, wenn zwei Schüler, eine weibliche und eine männliche, identische Sprach-und Mathe-Scores, würde die vorhergesagte Leistung Punktzahl der männlichen 2.290933 Einheiten höher als die vorhergesagte Leistung des weiblichen Studenten. Langscore - Dies ist die geschätzte Regressionsschätzung für eine Einheitserhöhung im Langscore. Da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler ihre Langscore um einen Punkt zu erhöhen, würde ihre vorhergesagte Leistung Punktzahl um 5,064698 Einheiten erhöhen, während die anderen Variablen in der Modell-Konstante. So werden die Schüler mit höheren Sprachkenntnissen haben höhere vorhergesagte Ergebnisse als Schüler mit niedrigeren Sprach-Scores, halten die anderen Variablen konstant. Mathscore - Dies ist die geschätzte Regression Schätzung für eine Einheit Erhöhung der Mathscore. Da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler ihre Mathscore um einen Punkt zu erhöhen, würde ihre vorhergesagte Leistung Punktzahl um 5.004054 Einheiten erhöhen, während die anderen Variablen in der Modell-Konstante. So werden die Schüler mit höheren Mathe-Scores haben höhere vorhergesagte Leistungspunkte als Studenten mit niedrigeren Mathe-Scores, halten die anderen Variablen konstant. Cons - Dies ist die Regressionsschätzung, wenn alle Variablen im Modell bei Null ausgewertet werden. Für einen männlichen Schüler (die Variable weiblich bei null bewertet) mit langscore und mathscore von null, ist die vorhergesagte Leistung Punktzahl -0.2940047. Beachten Sie, dass die Auswertung von Langscore und Mathscore bei Null außerhalb des Bereichs der plausiblen Testergebnisse liegt. K. Std. Err. - Dies sind die Standardfehler der einzelnen Regressionskoeffizienten. Sie werden sowohl bei der Berechnung der z-Teststatistik, hochgestelltes l und dem Konfidenzintervall des Regressionskoeffizienten, Hochscript n verwendet. L. Z - Die Teststatistik z ist das Verhältnis des Coef. Zu den Std. Err. Des jeweiligen Prädiktors. Der z-Wert folgt einer Standard-Normalverteilung, die verwendet wird, um gegen eine zweiseitige alternative Hypothese zu testen, dass das Coef. Nicht gleich Null ist. M Pgtz - Dies ist die Wahrscheinlichkeit, dass die z-Teststatistik (oder eine extremere Teststatistik) unter der Nullhypothese beobachtet werden würde, dass ein spezieller Prädiktor-Regressionskoeffizient null ist, da der Rest der Prädiktoren im Modell vorliegt. Für eine gegebene Alpha-Ebene bestimmt Pgtz, ob die Nullhypothese zurückgewiesen werden kann oder nicht. Wenn Pgtz kleiner als alpha ist, dann kann die Nullhypothese verworfen und die Parameterabschätzung als statistisch signifikant auf dieser Alpha-Ebene betrachtet werden. Weiblich - Die z-Teststatistik für das Prädiktor-Weibchen ist (-2.2909331.490333) -1.54 mit einem zugehörigen p-Wert von 0.124. Wenn wir unsere Alpha-Ebene auf 0,05 setzen, würden wir es versäumen, die Nullhypothese zurückzuweisen und zu folgern, dass der Regressionskoeffizient für weiblich nicht statistisch unterschiedlich von Null gewesen ist, wenn langscore und mathscore im Modell liegen. Langscore - Die z-Teststatistik für das Prädiktor-Langscore ist (5.0646981.037769) 4.88 mit einem zugehörigen p-Wert von lt0.001. Wenn wir unseren Alpha-Pegel auf 0,05 setzen, würden wir die Nullhypothese zurückweisen und darauf schließen, dass der Regressionskoeffizient für Langscore sich als statistisch von Null unterscheidet und die Mathematik im Modell liegt. Mathscore - Die z-Teststatistik für den Prädiktor mathscore ist (5.0040540.9555717) 5.24 mit einem zugehörigen p-Wert von lt0.001. Wenn wir unsere Alpha-Ebene auf 0,05 setzen, würden wir die Nullhypothese zurückweisen und folgern, dass der Regressionskoeffizient für Mathscore sich als statistisch von Null unterscheidet, wenn Frauen und Langscore im Modell vorliegen. Cons - Die z-Teststatistik für den Intercept, cons. Ist (-0.29400476.204858) -0.05 mit einem zugehörigen p-Wert von 0.962. Wenn wir unseren Alpha-Pegel auf 0,05 setzen, würden wir die Nullhypothese nicht zurückweisen und darauf schließen, dass Nachteile nicht als statistisch unterschiedlich von null gefunden wurden. Langscore und mathscore sind im Modell und werden bei Null ausgewertet. N ist. 95 Konf. Interval - Dies ist das Vertrauensintervall (CI) für einen individuellen Koeffizienten, wenn die anderen Prädiktoren im Modell sind. Für einen gegebenen Prädiktor mit einem Niveau von 95 Vertrauen, sagen wir, dass wir 95 zuversichtlich, dass der Quottruequot-Koeffizient zwischen der unteren und oberen Grenze des Intervalls liegt. Es wird als das Coef berechnet. (Z 9452) (Std. Err.), Wobei z 9452 ein kritischer Wert auf die Standardnormalverteilung ist. Der CI ist äquivalent zu der z-Teststatistik: Wenn die CI Null enthält, kann wed die Nullhypothese nicht zurückweisen, dass ein bestimmter Regressionskoeffizient Null ist, wenn die anderen Prädiktoren im Modell liegen. Ein Vorteil eines CI ist, dass es illustrativ ist es bietet einen Bereich, wo der Quottruequot-Parameter liegen kann. O. Sigma - Dies ist der geschätzte Standardfehler der Regression. In diesem Beispiel ist der Wert 7,739053 vergleichbar mit dem quadratischen Grundfehler, der bei einer OLS-Regression erhalten würde. Wenn wir eine OLS-Regression mit dem gleichen Ergebnis und Prädiktoren liefen, wäre unsere RMSE 6.8549. Dies zeigt an, wie stark das Ergebnis von dem vorhergesagten Wert variiert. Sigma annähernd diese Menge für die abgeschnittene Regression. Der Inhalt dieser Website sollte nicht als eine Anerkennung für ein bestimmtes Website-, Buch - oder Softwareprodukt der Universität von Kalifornien ausgelegt werden. Die OLS-Regression ist eine weit verbreitete Technik, und es gibt viele Varianten der klassischen Regression. Unter ihnen sind die tobit und abgeschnitten Regressionen. Ihre Verwendung wird empfohlen, wenn die abhängige (Y) Variable in gewisser Weise eingeschränkt wird. Beide haben ein gemeinsames Merkmal. Die Y-Variable wird als latente Variable (mit Y bezeichnet) als beobachtete Variable behandelt. Dies wirft mehrere Komplikationen im Vergleich zu den klassischen OLS. Ich beschloss, dieses Thema zu behandeln, weil ich diese Art von Analyse in meinem Papier auf die Schwarz-Weiß-Score Änderungen in der GSS Wordsum-Test angewendet haben. Diese Techniken sind in SPSS nicht verfügbar. Ein Grund mag sein, dass diese Techniken hauptsächlich von Ökonomen (die vor allem Stata verwenden) angewendet werden, nicht von Psychologen (die vor allem SPSS verwenden und diese Techniken gar nicht kennen). Allerdings ist auch das Problem der Datenzensur und der Datenverkürzung auf dem Gebiet der Psychologie relevant. Für eine abhängige Variable, die entweder am unteren Ende oder am oberen Ende ihrer Verteilung zensiert wird, wird die tobit (oder zensierte) Regression vorgeschlagen. Oder beides. Zensieren ist im Grunde ein Problem der Boden - und Deckeneffekte. Zum Beispiel werden einige Personen bei einem bestimmten Schwellenwert () gestapelt, da sie keine höhere oder niedrigere Punktzahl auf der Variablen haben können. Dies kann aufgrund der unterschiedlichen Ursachen der Test kann zu einfach oder zu schwierig sein. Aber Zensur kann eine andere Form annehmen. Eine Einkommensvariable kann in Kategorien, z. B. 10.000-20.0000, etc. 8230, aber dann am Ende, unsere letzte Kategorie kann so etwas wie 8220100000 und über8221 werden. In diesem Fall wird die Variable am oberen Ende zensiert. Wie oben erwähnt, ist es möglich, eine Datenzensur an beiden Enden vorzusehen, und in diesem Fall spezifizieren wir eine Zwei-Grenze-Umlagerungsregression (indem der Wert für niedrigere und obere zensierte Werte eingestellt wird) siehe Long (1997, S. 212) -213) für eine Entwicklung. Zum Beispiel im Versicherungsschutz gibt es eine Mindestdeckung, eine maximale Deckung und Werte dazwischen. Die abgeschnittene Regression wird für eine abhängige Variable vorgeschlagen, für die ihre Verteilung nicht repräsentativ für die gesamte Population ist. Trunkierung ist im wesentlichen ein Problem der Bereichsbeschränkung (obwohl es ungenau ist, die Trunkierung mit der Bereichsbeschränkung auszugleichen). Zum Beispiel können die Daten für Leute, die langlebige Waren gekauft haben gesammelt worden sein. Aber Leute, die diese Waren nicht kaufen, z. B. Ihre Preisniveaus, sollen also von unten abgeschnitten werden (statt oben). Dies ist nicht zu sagen, dass OLS zwangsläufig voreingenommen ist. Es hängt vom Ziel der Analyse ab. Wenn wir an dem Wert von Y für die gesamte Population interessiert sind, ist OLS voreingenommen. Aber wenn wir nur an unserem Teilbeispiel interessiert sind, reicht das OLS aus (siehe das Stata-Handbuch). Jedoch müssen wir uns bewusst sein, dass, wenn wir einen Teil der Daten auf diese Weise weglassen, die gestutzten Datenpunkte auch nicht zufällig fehlen (weil der Wert von Y für abgeschnittene und nicht abgeschnittene Beobachtungen unterschiedlich ist). Eine graphische Darstellung von Zensur und Trunkierung wird von Long (1997) gegeben: In Panel A ist die 8220latent8221-Variable Y, die tobit - und trunkierte Regressionen versuchen (basierend auf dem Satz von unabhängigen Variablen) zu schätzen. Beim Zensieren werden die Beobachtungen zensiert und auf Null gestapelt, wenn 1. Für die Verkürzung werden die Obervationen jedoch buchstäblich verschwinden, wenn sie unter dem Schwellenwert 1 liegen (oder gleich sind). Beide Techniken verwenden die maximale Wahrscheinlichkeit (ML), um die Wirkung von Die Änderungen der unabhängigen Variablen (Xs) auf den erwarteten (dh 8220potential8221) Wert der abhängigen Variablen (Y) bei einer Gaußschen (dh Normalverteilung). Da der erwartete Wert der abhängigen Variablen latent ist (d. h. nicht beobachtet), ist es nicht möglich, standardisierte Koeffizienten zu erhalten, sofern wir nicht eine spezielle Prozedur anwenden (Long, 1997, S. 207-208). Wie bei tobit erlaubt die Technik eine Zersetzung der Wirkung von X auf dem latenten Y (d. H. Dem Tobungskoeffizienten) in zwei Teile. Die Veränderung der Wahrscheinlichkeit, über dem zensierten Wert zu liegen, multipliziert mit dem erwarteten Wert von Y, wenn oben, plus der Änderung des erwarteten Y für die Fälle oberhalb des zensierten Werts multipliziert mit der Wahrscheinlichkeit, über dem zensierten Wert zu liegen (McDonald amp Moffitt, 1980 ). Mathematisch ist die latente Y-Variable im Tobelmodell gegeben durch: EyXi F (z) x (EyXi) Ey x (F (z) Xi) wobei F (z) der Anteil der Fälle (dh Wahrscheinlichkeit) EyXi ist die Änderung des Erwartungswertes von Y für Fälle oberhalb der Schwelle, die einer unabhängigen Variablen zugeordnet ist, F (z) Xi die Änderung der Wahrscheinlichkeit, über dem Schwellenwert zu liegen, der einer unabhängigen Variablen zugeordnet ist. Long (1997, S. 196) stellt die Formel in einer intuitiveren Weise vor: E (y) Pr (Unzensiert) x E (yygt) Pr (Zensiert) x E (yy y) Pr für die Wahrscheinlichkeit, E (y) für erwartet Y und ygt für bedingte y und y den Wert von y, wenn y zensiert wird (im Long8217s-Buch (siehe S.197)). Wenn wir nur an den Änderungen der Xs auf dem latenten Y interessiert sind, können die Koeffizienten, die aus der TB-Regression erhalten werden, auf die gleiche Weise interpretiert werden wie jene, die aus der OLS-Regression gewonnen werden (Roncek, 1992). Die Formel für die trunkierte Regression findet sich in Long (1997, S. 194) und im Stata-Handbuch für truncreg-Funktion. Wir haven8217t eine detaillierte Antwort, warum OLS ist inkonsistent mit abgeschnittenen Daten, wenn unser Interesse konzentriert sich auf die Bevölkerung Schätzungen. Eine entscheidende Annahme der OLS-Regression ist die Unabhängigkeit der Fehler (Residuen). Die Residuen müssen den Mittelwert Null haben und mit allen Erklärungsvariablen unkorreliert sein. Das Problem hierbei ist, dass verkürzte Daten die Probenauswahl (n) mit dem Fehlerterm (u) korrelieren. Wooldridge (2012, S. 616-617) liefert ein Beispiel mit einem Selektionsindikator s, dh s1, wenn wir alle Daten beobachten oder s0 andernfalls, wobei s1, wenn der Y-Hut niedriger oder gleich dem Schwellenwert ist (unter Berücksichtigung der Daten Wird von oben abgeschnitten). Äquivalent dazu ist s1, wenn u-X, wobei X eine Abkürzung für 0 1X1 2X2, 8230 ist. Dies bedeutet, dass der Wert von s covaries mit u. Long (1997) illustriert die Konsequenzen von Zensierung und Trunkierung für die OLS-Schätzung mit Abbildung 7.2. Die durchgezogene Linie ergibt sich aus der OLS-Schätzung von Y, die nicht zensiert wird. Die lange gestrichelte Linie OLS mit zensierten Daten hat einen niedrigeren Ab - schnitt und eine steilere Steigung wegen der vielen Werte, die auf Null gesetzt sind (als Dreiecke dargestellt), knapp unterhalb der horizontalen Schwellenlinie 1, die die linke Seite des langen gestrichelten Bildes nach unten ziehen Linie. Die kurze gestrichelte Linie wird durch eine OLS-Schätzung mit Datenpunkten unter 1 gegeben, die abgeschnitten (d. H. Entfernt) werden, anstatt zensiert zu werden, und zeigt einen höheren Intercept und eine kleinere Steigung. Abbildung 7.7 (Seite 202) zeigt auch sehr einfach die Auswirkungen von Zensur und Trunkierung. Der Unterschied besteht darin, dass die Zensurdatenpunkte gleich der Schwelle sind und nicht darunter liegen. Die Punkte unterhalb der Schwelle 2 sind abgeschnittene Datenpunkte. E (yx) in der durchgezogenen Linie ist die korrekte Schätzung. E (yygt2x) ist durch die gestrichelte Linie angegeben. Wir sehen, dass die lange gestrichelte Linie von der durchgezogenen Linie nicht unterscheidbar ist, wenn wir uns zur rechten Seite bewegen, aber die lange gestrichelte Linie ist über der durchgezogenen Linie, wenn wir nach links bewegen. Dies liegt daran, dass es wenige (viele) Datenpunkte gibt, die rechts (links) abgeschnitten sind. Die lange gestrichelte Linie wird näher und näher, als wir nach links bewegen. Wir sehen auch, dass es Kreise entlang der horizontalen Linie 2 gibt. Dies sind zensierte Datenpunkte. Die durch E (yx) dargestellte kurze gestrichelte Linie ist etwas unterhalb der langen gestrichelten Linie an der linken Seite der x-Achse, da die zensierten Fälle nicht eliminiert wurden. Beide Arten der Regression erfordern Normalität und homoscedastic von Residuen, auch im Fall von tobit, die immer eine zensierte Verteilung als nicht normal betrachtet. Da die Y-Variable jedoch keine beobachtbare ist, können wir unsere Restvariable nicht durch Y-Y-Y erhalten, da wir Y anstelle von Y verwenden müssen. Bei der Umkehrung der Regressionen muss ein komplexes Verfahren angewendet werden, um die verallgemeinerten Residuen und Verhaltensweisen zu erhalten Der Test der Normalität (Cameron amp Trivedi, 2009, S. 535-538). Ein besonderes Merkmal dieser Arten von Regressionen ist, dass ein standardisierter Koeffizient in der Regel nicht in statistischen Software berichtet wird, weil seine Berechnung nicht einfach ist. Normalerweise werden die vollständig standardisierten Koeffizienten mit dem Operationskoeffizienten (X) SD (Y) SD (X) erhalten. Roncek (1992, S. 506) zeigt, dass der Standardtomenkoeffizient durch den Koeffizienten (x) f (z) sigma erhalten werden kann. F (z) die Einheitsdichte ist, ist dies (meiner Meinung nach) eine komplizierte Art, die Formel darzustellen, weil man die zweideutige f (z) durch die intuitive Notation SD (X) ersetzt haben könnte. 8220Sigma8221 ist der geschätzte Standardfehler des Todesregressionsmodells (normalerweise gemeldet durch die Software) und ist vergleichbar mit dem geschätzten mittleren quadratischen Fehler in der OLS-Regression. Weil aber Sigma die Varianz von Y ist, die an die Menge der X-Variablen gebunden ist und dass sie nicht gleich dem unbedingten Y sein muss, was wir brauchen, dann argumentiert Long (1997, S. 207-208), dass die unbedingte Varianz von Y sollte Mit der quadratischen Form berechnet werden: wobei Var (x) die geschätzte Kovarianzmatrix unter den x8217s ist und die ML - Schätzung der Varianz von. So schlägt Long die Formel coeff (X) SD (X) y vor. Obwohl die standardisierten Koeffizienten in der Regel von Psychologen bevorzugt werden, mögen die Ökonomen (und insbesondere die Ökonometriker) standardisierte Koeffizienten nicht, und wahrscheinlich empfehlen sie ihre Verwendung nicht. Schließlich ist anzumerken, dass OLS nicht immer mit Daten mit Probenselektion unvereinbar ist (Wooldridge, 2012, S. 615-616). Wir werden sein Beispiel des s-Indikators der Probenselektion erneut verwenden. Wenn die Probenselektion (en) zufällig in dem Sinne ist, daß s unabhängig von X und u ist, ist die OLS unparteiisch. Aber OLS bleibt unvoreingenommen, auch wenn s von erklärenden X-Variablen und zusätzlichen zufälligen Terme abhängt, die unabhängig von X und u sind. Wenn IQ ein wichtiger Prädiktor ist, aber für einige Leute fehlt, so dass s1, wenn IQv und s0, wenn IQltv, wobei v eine nicht beobachtete Zufallsvariable ist, die unabhängig von IQ, u und den anderen X-Variablen ist, dann ist s noch unabhängig von U Es ist keine Voraussetzung, daß s unkorreliert mit X unabhängigen Variablen ist, unter der Bedingung, daß X-Variablen mit u unkorreliert sind, weil es bedeutet, daß das Produkt von s und X auch mit den Residuen u unkorreliert sein muß.


No comments:

Post a Comment