Saturday, 29 April 2017

Interpolieren Sie Fehlende Daten In Stata Forex


Also, ich habe Panel-Daten, die wie folgt aussehen: Die Daten, die fehlen, ist, weil wir nicht in der Lage, vollständige Daten in den Jahresberichten der Banken im Datensatz aufgelistet finden. Es gibt kein reales Muster für fehlende Werte, abgesehen von einigen Perioden, wie die in dem Bild veranschaulichten, sind die fehlenden Werte meistens zufällig. Beispiel: ein fehlender Wert im Jahr 2000, ein anderer fehlender Wert im Jahr 2002 und so weiter. Die Banken sind insgesamt fünf, und wir zählen vierteljährliche Daten für den Zeitraum 1998Q1 bis 2013Q1. Wir haben eine vollständige Serie für eine der Variablen, beta. Die anderen vier sind alle fehlen einige Werte. Ich habe gesucht, aber havent in der Lage, eine Antwort auf die folgenden Fragen zu bekommen: 1) Ist es wichtig, dass mein Datensatz fehlende Werte in einigen der Variablen hat 2) Was ist die richtige Methode für das Ausfüllen der fehlenden Werte verwenden Wenn seine Möglich, können Sie es mit Stata Nick veranschaulichen Diese Frage ist ausdrücklich zu fehlenden Daten und daher ist quasi Thema auf dieser Website. Herman: Wir ermutigen die Leute jedoch, Fragen softwareneutraler zu stellen: Statt quothow zu fragen, mache ich X in Stata, wenn ich fragen darf, was ich tun soll Stata. quot Das öffnet Ihre Frage zu weit mehr Experten (die meisten von ihnen nicht verwenden, Stata), stark erhöht die Chance, die Sie erhalten eine gute Antwort. Ich habe die Option interpolieren und extrapolieren verwendet, und es scheint eine gute Arbeit in dem Sinne, dass die Werte erzeugt ziemlich gut die Daten, und es erzeugt eine Reihe von ausgewogenen Schätzungen von getan haben Die fehlenden Werte. Ich denke, ich werde daran halten, und sehen, ob ich einige weitere beraten mit einem meiner Professoren finden können. Vielen Dank für Ihre Antwort Nick ndash Herman Haugland I39m nicht ein stata Experte, leider, aber ich weiß, dass R hat eine robuste Reihe von Paketen Unterstützung Imputation für Zeitreihen-Querschnitt-Daten. Amelia II kommt vor allem in den Sinn, da es für diesen expliziten Zweck gebaut wurde. Ndash Sycorax Nov 14 14 um 19: 40Missing Values ​​Diese Ausgabe ist die erste in einer Reihe von Artikeln, die die Daten Vorbereitung Aspekt der Zeitreihenanalyse zu erforschen. Datenvorbereitung wird oft von Analysten übersehen, aber wir glauben, dass es eine entscheidende Phase ist, die einen großen Einfluss auf den gesamten Analyse - und Modellierungsprozess ausübt. Die überwiegende Mehrheit der Zeitreihen und ökonometrischen Theorien nehmen Eingangs - zeitreihen stationär und homogen auf, wobei gleichmäßig beabstandete Beobachtungen und Werte vorhanden und real sind. In der Praxis behandeln wir häufig Proben mit fehlenden Werten, ungleichmäßig beabsichtigte Beobachtungen mögliche Ausreißer, Mittelwertvarianzabhängigkeit, eingeschränkte Wertebereiche und andere Phänomene. Das Ziel dieser Reihe von Artikeln ist es, jedes dieser Probleme anzugehen und praktische Methoden zur Überwindung dieser Probleme einzuführen. In dieser Ausgabe beginnen wir mit den Stichprobenannahmen der Zeitreihen: gleicher Abstand und Vollständigkeit. Dann betrachten wir eine Zeitreihe mit fehlenden Werten und diskutieren, wie sie in Excel dargestellt werden, mit Hilfe der NumXL-Verarbeitung. Schließlich schauen wir uns auf ungleiche Zeitreihen, wie sie ins Leben gerufen sind, wie sie mit dem fehlenden Werte-Szenario zusammenhängen und was damit zu tun hat. Zeitreihen-Sampling Die gemeinsame (perfekte) Situation für eine Zeitreihen-Probe ist eine, die gleichmäßig beabstandete Beobachtungen und aktuelle Werte für alle Punkte aufweist. Dies entsteht, weil Beobachtungen bewusst in gleichmäßigen Intervallen (kontinuierlicher Prozess) durchgeführt werden. Oder weil der Prozeß nur Ausgänge in einem solchen Zeitintervall erzeugt (diskreter Prozeß). Ferner kann die Zeiteinheit für eine Abtastperiode (d. H. Schritt) zwischen zwei aufeinanderfolgenden Beobachtungen entweder absolut (z. B. täglich, wöchentlich, monatlich oder jährlich) oder auf der Basis eines Feiertagskalenders (d. h. angepasst für Wochenende und Feiertage) sein. Zum Beispiel basiert eine tägliche finanzielle Zeitreihe der IBM Aktienschließpreise auf dem NYSE Feiertagskalender, also wird jede Beobachtung an einem NYSE-Handelstag (openclose) genommen. In Bezug auf Zeitreihenmodellierung und Prognose ist es nicht wichtig, ob wir absolute Zeit nutzen oder ob wir uns an Wochenenden und Feiertagen anpassen. Wichtig ist, wie wir die Out-of-Sample-Daten interpretieren, da sie auch auf der gleichen Sampling-Methode basieren. Als nächstes können wir untersuchen, einige Fälle, in denen die Eingabe Zeitreihen ist nicht so perfekt. Problem 1: Fehlende Werte In einigen Situationen ergeben ein oder mehrere Beobachtungsdaten ungültige oder fehlende Werte. Diese Werte werden als nicht-a-Werte oder kurz NaN bezeichnet. In Excel wird NaN durch die spezielle NA-Darstellung identifiziert, und es können nur wenige eingebaute Funktionen zur Erkennung (zB NA (), ISNA (.), IFERROR (.) Usw. verwendet oder ignoriert werden (zB MIN (. ), MAX (.)) Und andere Funktionen sind nicht unterstützend. In der Zeitreihenanalyse treffen wir häufig auf fehlende Wertephänomene, entweder in der ursprünglichen Rohzeitreihe oder als Folge eines Zeitreihenoperators (z. B. Verzögerung, Differenzierung usw.). F: Was können wir mit einer Zeitreihe mit fehlenden Werten machen? NumXL hat zwei einfache Regeln: Die fehlenden Werte am Anfang oder am Ende der Zeitreihe werden einfach ignoriert. NumXL schneidet die Eingabezeitreihe ab dem 1. nicht fehlenden Wert ab und endet mit dem letzten nicht fehlenden Wert. Die dazwischenliegenden fehlenden Werte werden als ernsthafte Fehler in den Eingangszeitreihen betrachtet, und NumXL kann sie nicht verarbeiten. Diese Regeln betrachten die Frage, wie wir mit fehlenden Zwischenwerten umgehen. Es wurden viele Techniken vorgeschlagen, um Zeitreihen mit fehlenden Daten zu behandeln, aber wir können diese Vorschläge mit zwei Prinzipien zusammenfassen: Ignorieren und Interpolieren. Die Ignorier-Lösung fällt einfach den fehlenden Wert aus der Zeitreihe. Hierzu können Sie die Funktion NumXL RMNA (.) Verwenden. Sie sollten diese Lösung jedoch vorsichtig ansprechen, da sie die Probenahme der Zeitreihen selbst verändert. INTERPOLATE Der interpolierte Ansatz ersetzt die fehlenden Werte durch interpolierte Werte. Es gibt mehrere Interpolation in Excel-Algorithmen: linear, Polynom, Glättung, Spline, Filterung usw. Interpolation in Excel ändert nicht die Häufigkeit der Probenahme, kann aber die wahrgenommene Dynamik des zugrundeliegenden Prozesses beeinflussen, wenn sie für mehrere Punkte verwendet wird In der Zeitreihe. NumXL kommt mit einer Interpolation in Excel-Funktion INTERPOLATE - die vier (4) verschiedene Interpolation in Excel-Algorithmen unterstützt: Forward amp Rückwärtsflachinterpolation in Excel Linearverstärker Kubische Splineinterpolation in Excel HINWEIS: Die Interpolationsfunktion verwirft alle Punkte mit fehlenden Werten Kann die Funktion direkt auf dem Rohdatensatz ohne Zwischenvorbereitung verwenden. Ausgabe 2: Ungleichmäßig beabstandete Zeitreihen Ungleichmäßig beabstandete Zeitreihen sind in vielen Anwendungen im realen Leben üblich, wenn Messungen durch praktische Bedingungen eingeschränkt werden. Die Unregelmäßigkeit der Beobachtungen kann mehrere grundsätzliche Gründe haben. Erstens ist jeder ereignisgesteuerte Sammelvorgang (bei dem Beobachtung gesammelt wird, wenn ein Ereignis eintritt) inhärent unregelmäßig. Zweitens werden bei solchen Anwendungen wie Sensornetzwerken oder einer verteilten Überwachungsinfrastruktur Datenerfassung verteilt und Sammelagenten können nicht leicht miteinander synchronisiert werden. Darüber hinaus können die Abtastintervalle und Richtlinien unterschiedlich sein. Schließlich können Messungen nicht regelmäßig durchgeführt werden oder müssen aufgrund von Ereignissen (entweder vorhersehbar oder nicht) unterbrochen werden. Anmerkung: Im Gegensatz zum gleichgroßen Zeitreihenfall können Zwischenbeobachtungen mit fehlenden Werten ohne Verlust von Informationen sicher aus der ursprünglichen Serie fallengelassen werden, und offensichtlich ist auch die resultierende Folge ungleichmäßig beabstandet. Viele Techniken wurden vorgeschlagen, um Zeitreihen mit fehlenden Daten zu behandeln, die in der Grenze als unregelmäßig abgetastet betrachtet werden können. In der Datenanalyse-Praxis ist Unregelmäßigkeit ein anerkanntes Datenmerkmal, und Praktiker behandeln es heuristisch. Lösung 1: Umwandlung in gleichmäßig beabstandete Zeitreihen IGNORE die Unregelmäßigkeit in den Zeiten und behandeln die Daten, als ob es regelmäßig wäre. BEISPIEL mit einer niedrigeren Abtastrate. Die Reduktion vereinfacht das Problem auf eine, die bereits gründlich analysiert wurde und für die viele Ansätze zur Verfügung stehen. Hinweis: Für eine Preis-Zeitreihe erfordert Down-Sampling die letzte Beobachtung in der neuen Probenperiode. Für diese Strategieprotokollrückkehr ist die erneute Abtastung die kumulative Rückkehr aller Perioden in den ursprünglichen Abtastperioden. P INTERPOLATE: Interpolieren Sie die fehlenden Zwischenwerte und konvertieren Sie die Serie in eine mit gleich beabstandeten Abtastzeiten. Während dies eine vernünftige Heuristik für den Umgang mit fehlenden Werten ist, führt die Interpolation im Excel-Prozess typischerweise zu einer signifikanten Verzerrung (zB Glättung der Daten), die die Dynamik des Prozesses ändert, so dass diese Modelle nicht angewandt werden können, wenn die Daten wirklich ungleich sind Beabstandet. Kernel Glättung Brownian Bridging: Eine Reihe von Autoren haben vorgeschlagen, mit kontinuierlichen Diffusion Prozesse, um fehlende Werte zu finden. Um einen fehlenden Wert zu interpolieren, nehmen wir grundsätzlich eine Brownsche Bewegung zwischen den Werten unmittelbar vor und nach den nicht fehlenden Beobachtungen an. Anmerkung: Ab dem Datum dieser Ausgabe unterstützt NumXL nicht die Brown-Bridging-Interpolation in Excel-Methode. Lösung II - Ungleichmäßig beabstandete Zeitreihen Modelle Diese Modelle sind etwas komplexer als ihre gleichmäßig beabstandeten Gegenstückmodelle und viele können als eine Erweiterung der gleichmäßig beabstandeten Zeitreihenmodelle betrachtet werden.

No comments:

Post a Comment