Verlustfunktion - Loss function

In der mathematischen Optimierungs- und Entscheidungstheorie ist eine Verlustfunktion oder Kostenfunktion (manchmal auch als Fehlerfunktion bezeichnet ) eine Funktion, die ein Ereignis oder Werte einer oder mehrerer Variablen auf eine reelle Zahl abbildet, die intuitiv einige mit dem Ereignis verbundene "Kosten" darstellt. Ein Optimierungsproblem versucht, eine Verlustfunktion zu minimieren. Eine Zielfunktion ist entweder eine Verlustfunktion oder ihr Gegenteil (in bestimmten Bereichen auch Belohnungsfunktion , Gewinnfunktion , Nutzenfunktion , Fitnessfunktion usw. genannt), in welchem Fall sie maximiert werden soll.

In der Statistik wird typischerweise eine Verlustfunktion für die Parameterschätzung verwendet , und das fragliche Ereignis ist eine Funktion der Differenz zwischen geschätzten und wahren Werten für eine Dateninstanz. Das Konzept, so alt wie Laplace , wurde Mitte des 20. Jahrhunderts von Abraham Wald wieder in die Statistik eingeführt . Im Kontext der Wirtschaftswissenschaften sind dies zum Beispiel meist wirtschaftliche Kosten oder Bedauern . In der Klassifizierung ist es die Strafe für eine falsche Klassifizierung eines Beispiels. In der Versicherungsmathematik wird es insbesondere seit den Arbeiten von Harald Cramér in den 1920er Jahren im Versicherungskontext verwendet, um über Prämien gezahlte Leistungen zu modellieren . Bei optimaler Steuerung ist der Verlust die Strafe dafür, dass ein gewünschter Wert nicht erreicht wird. Im Finanzrisikomanagement wird die Funktion auf einen monetären Verlust abgebildet.

Beispiele

Reue

Leonard J. Savage argumentierte, dass die Verlustfunktion mit nicht-bayesianischen Methoden wie Minimax auf der Idee des Bedauerns basieren sollte , dh der mit einer Entscheidung verbundene Verlust sollte die Differenz zwischen den Konsequenzen der besten Entscheidung sein, die hätte getroffen werden können getroffen worden wären, wenn die zugrunde liegenden Umstände bekannt waren und die Entscheidung, die tatsächlich getroffen wurde, bevor sie bekannt wurden.

Quadratische Verlustfunktion

Die Verwendung einer quadratischen Verlustfunktion ist beispielsweise bei der Verwendung von Verfahren der kleinsten Quadrate üblich . Sie ist aufgrund der Eigenschaften von Varianzen oft mathematisch besser handhabbar als andere Verlustfunktionen und außerdem symmetrisch: Ein Fehler über dem Ziel verursacht den gleichen Verlust wie der gleiche Fehler unterhalb des Ziels. Wenn das Ziel t ist , dann ist eine quadratische Verlustfunktion

\lambda(x)=C(tx)^{2}\;

für ein konstantes C ; Der Wert der Konstanten macht bei einer Entscheidung keinen Unterschied und kann ignoriert werden, indem er gleich 1 gesetzt wird.

Viele gängige Statistiken , einschließlich t-Tests , Regressionsmodelle , Versuchsplanung und vieles mehr, verwenden Methoden der kleinsten Quadrate , die unter Verwendung der linearen Regressionstheorie angewendet werden , die auf der quadratischen Verlustfunktion basiert.

Die quadratische Verlustfunktion wird auch bei linear-quadratischen Optimalsteuerungsproblemen verwendet . Bei diesen Problemen kann es auch ohne Unsicherheit möglich sein, die gewünschten Werte aller Zielvariablen nicht zu erreichen. Oft drückt sich der Verlust als quadratische Form in den Abweichungen der interessierenden Variablen von ihren gewünschten Werten aus; Dieser Ansatz ist handhabbar, da er zu linearen Bedingungen erster Ordnung führt . Im Kontext der stochastischen Steuerung wird der Erwartungswert der quadratischen Form verwendet.

0-1 Verlustfunktion

In der Statistik und Entscheidungstheorie ist eine häufig verwendete Verlustfunktion die 0-1-Verlustfunktion

L({\hat{y}},y)=I({\hat{y}}\neq y),\,

wo ist die anzeigefunktion . $I$

Konstruktion von Verlust- und Zielfunktionen

In vielen Anwendungen werden Zielfunktionen, einschließlich Verlustfunktionen als Sonderfall, durch die Problemformulierung bestimmt. In anderen Situationen muss die Präferenz des Entscheidungsträgers ermittelt und durch eine skalarwertige Funktion (auch Nutzenfunktion genannt) in einer für die Optimierung geeigneten Form dargestellt werden – das Problem, das Ragnar Frisch in seinem Nobelpreisvortrag hervorgehoben hat. Die existierenden Methoden zur Konstruktion objektiver Funktionen werden in den Proceedings zweier spezieller Konferenzen zusammengetragen. Insbesondere zeigte Andranik Tangian , dass die am besten verwendbaren objektiven Funktionen – quadratisch und additiv – durch einige Indifferenzpunkte bestimmt werden. Er nutzte diese Eigenschaft in den Modellen, um diese objektiven Funktionen aus ordinalen oder kardinalen Daten zu konstruieren , die durch computergestützte Interviews mit Entscheidungsträgern erhoben wurden. Unter anderem konstruierte er Zielfunktionen, um die Budgets für 16 westfälische Hochschulen und die europäischen Fördermittel zum Ausgleich der Arbeitslosenquoten optimal auf 271 deutsche Regionen zu verteilen.

Erwarteter Verlust

In manchen Kontexten ist der Wert der Verlustfunktion selbst eine Zufallsgröße, da er vom Ergebnis einer Zufallsvariablen X abhängt .

Statistiken

Sowohl die frequentistische als auch die Bayessche statistische Theorie beinhalten das Treffen einer Entscheidung basierend auf dem erwarteten Wert der Verlustfunktion; diese Größe wird jedoch unter den beiden Paradigmen unterschiedlich definiert.

Frequentist erwarteter Verlust

Wir definieren zunächst den erwarteten Verlust im frequentistischen Kontext. Es wird bestimmt , indem der Erwartungswert in Bezug auf die Wahrscheinlichkeitsverteilung, erhalten P _θ , der beobachteten Daten, X . Dies wird auch als Risikofunktion der Entscheidungsregel δ und des Parameters θ bezeichnet . Hier hängt die Entscheidungsregel vom Ergebnis von X ab . Die Risikofunktion ist gegeben durch:

R(\theta ,\delta )=\operatorname {E} _{\theta }L{\big (}\theta ,\delta (X){\big )}=\int _{X}L{ \big(}\theta,\delta(x){\big)}\,\mathrm{d} P_{\theta}(x).

Dabei ist θ ein fester, aber möglicherweise unbekannter Naturzustand, X ist ein stochastisch aus einer Population gezogener Beobachtungsvektor , ist der Erwartungswert über alle Populationswerte von X , dP _θ ist ein Wahrscheinlichkeitsmaß über dem Ereignisraum von X (parametrisiert durch θ ) und das Integral wird über den gesamten Träger von X ausgewertet . $\operatorname {E} _{\theta }$

Bayes'scher erwarteter Verlust

Bei einem Bayes-Ansatz wird der Erwartungswert anhand der Posterior-Verteilung $π$ ^* des Parameters θ berechnet :

\rho(\pi^{*},a)=\int_{\Theta}L(\theta,a)\,\mathrm {d}\pi^{*}(\theta).

Man sollte dann die Aktion a ^* wählen, die den erwarteten Verlust minimiert. Obwohl dies dazu führt, dass die gleiche Aktion gewählt wird, die bei Verwendung des Frequentistenrisikos gewählt würde, liegt der Schwerpunkt des Bayesschen Ansatzes darauf, dass man nur daran interessiert ist, die optimale Aktion unter den tatsächlich beobachteten Daten zu wählen, während die Wahl der tatsächlichen frequentistischen optimalen Entscheidungsregel, was eine Funktion aller möglichen Beobachtungen ist, ist ein viel schwierigeres Problem.

Beispiele in der Statistik

Für einen skalaren Parameter θ , eine Entscheidungsfunktion , deren Ausgang ist ein Schätzwert von θ und eine quadratische Verlustfunktion ( squared error Verlust ) ${\hat {\theta}}$

L(\theta,{\hat{\theta}})=(\theta -{\hat{\theta}})^{2},

die Risikofunktion wird zum mittleren quadratischen Fehler der Schätzung,

R(\theta ,{\hat {\theta}})=\operatorname {E} _{\theta}(\theta -{\hat {\theta}})^{2}.

Bei der Dichteschätzung ist der unbekannte Parameter die Wahrscheinlichkeitsdichte selbst. Die Verlustfunktion wird typischerweise als Norm in einem geeigneten Funktionsraum gewählt . Zum Beispiel für L ² norm ,

L(f,{\hat{f}})=\|f-{\hat{f}}\|_{2}^{2}\,,

die Risikofunktion wird zum mittleren integrierten quadratischen Fehler

R(f,{\hat{f}})=\operatorname {E} \|f-{\hat {f}}\|^{2}.\,

Wirtschaftliche Wahl unter Unsicherheit

In der Ökonomie wird die Entscheidungsfindung unter Unsicherheit häufig mit der von Neumann-Morgenstern-Nutzfunktion der unsicheren Zinsvariablen, wie dem Vermögen am Ende der Periode, modelliert . Da der Wert dieser Variablen ungewiss ist, ist auch der Wert der Nutzenfunktion unsicher; es ist der erwartete Nutzenwert, der maximiert wird.

Entscheidungsregeln

Eine Entscheidungsregel trifft eine Wahl unter Verwendung eines Optimalitätskriteriums. Einige häufig verwendete Kriterien sind:

Minimax : Wählen Sie die Entscheidungsregel mit dem niedrigsten schlimmsten Verlust – d. h. minimieren Sie den schlimmsten (maximal möglichen) Verlust:

{\underset {\delta }{\operatorname {arg\,min} }}\\max _{\theta\in\theta}\R(\theta,\delta).

Invarianz : Wählen Sie die optimale Entscheidungsregel, die eine Invarianzanforderung erfüllt.
Wählen Sie die Entscheidungsregel mit dem geringsten durchschnittlichen Verlust (dh minimieren Sie den Erwartungswert der Verlustfunktion):

{\underset {\delta }{\operatorname {arg\,min} }}\operatorname {E} _{\theta\in\Theta}[R(\theta,\delta)]={\underset { \delta }{\operatorname {arg\,min} }}\ \int _{\theta \in \theta }R(\theta ,\delta )\,p(\theta )\,d\theta .

Auswahl einer Verlustfunktion

Eine solide statistische Praxis erfordert die Auswahl eines Schätzers, der mit der tatsächlich akzeptablen Abweichung im Kontext eines bestimmten angewendeten Problems übereinstimmt. Somit hängt bei der angewandten Verwendung von Verlustfunktionen die Auswahl, welches statistische Verfahren zum Modellieren eines angewendeten Problems zu verwenden ist, davon ab, dass die Verluste bekannt sind, die unter den besonderen Umständen des Problems als falsch auftreten.

Ein gängiges Beispiel ist die Schätzung des „ Standorts “. Unter typischen statistischen Annahmen ist der Mittelwert oder Durchschnitt die Statistik zum Schätzen des Standorts, die den erwarteten Verlust minimiert, der unter der quadratischen Fehlerverlustfunktion erfahren wird , während der Median der Schätzer ist, der den erwarteten Verlust minimiert, der unter der absoluten Differenzverlustfunktion erfahren wird. Unter anderen, weniger verbreiteten Umständen wären jedoch andere Schätzer optimal.

Wenn ein Agent in der Ökonomie risikoneutral ist , wird die Zielfunktion einfach als erwarteter Wert einer Geldgröße ausgedrückt, wie etwa Gewinn, Einkommen oder Vermögen am Ende der Periode. Bei risikoaversen oder risikoliebenden Agenten wird der Verlust als das Negative einer Nutzenfunktion gemessen , und die zu optimierende Zielfunktion ist der Erwartungswert des Nutzens.

Andere Kostenmaße sind möglich, beispielsweise Mortalität oder Morbidität im Bereich der öffentlichen Gesundheit oder der Sicherheitstechnik .

Für die meisten Optimierungsalgorithmen ist es wünschenswert, eine Verlustfunktion zu haben, die global stetig und differenzierbar ist .

Zwei sehr häufig verwendete Verlustfunktionen sind der quadrierte Verlust , , und der absolute Verlust , . Der absolute Verlust hat jedoch den Nachteil, dass er bei nicht differenzierbar ist . Der quadrierte Verlust hat den Nachteil, dass er die Tendenz hat, von Ausreißern dominiert zu werden – wenn über eine Menge von 's summiert wird (wie in ), ist die Endsumme eher das Ergebnis einiger besonders großer a -Werte als an Ausdruck des durchschnittlichen a -Wertes. $L(a)=a^{2}$ $L(a)=|a|$ $a=0$ $a$ $\sum_{i=1}^{n}L(a_{i})$

Die Wahl einer Verlustfunktion ist nicht willkürlich. Sie ist sehr restriktiv und manchmal kann die Verlustfunktion durch ihre wünschenswerten Eigenschaften charakterisiert werden. Zu den Auswahlprinzipien zählen beispielsweise das Erfordernis der Vollständigkeit der Klasse der symmetrischen Statistik bei iid- Beobachtungen, das Prinzip der vollständigen Information und einige andere.

W. Edwards Deming und Nassim Nicholas Taleb argumentieren, dass empirische Realität und nicht schöne mathematische Eigenschaften die einzige Grundlage für die Auswahl von Verlustfunktionen sein sollten, und reale Verluste sind oft mathematisch nicht schön und nicht differenzierbar, stetig, symmetrisch usw. Zum Beispiel eine Person, die vor der Schließung des Flugzeuggates ankommt, kann das Flugzeug immer noch machen, eine Person, die danach ankommt, kann dies nicht, eine Diskontinuität und Asymmetrie, die eine Ankunft mit etwas Verspätung viel teurer macht als eine etwas frühere Ankunft. Bei der Arzneimitteldosierung können die Kosten für zu wenig Arzneimittel eine mangelnde Wirksamkeit sein, während die Kosten für eine zu hohe Dosierung eine tolerierbare Toxizität sein können, ein weiteres Beispiel für Asymmetrie. Verkehr, Rohre, Balken, Ökologien, Klimazonen usw. können eine erhöhte Belastung oder Belastung mit bis zu einem gewissen Punkt nur geringfügig ändern, dann stauen oder katastrophal brechen. Diese Situationen, argumentieren Deming und Taleb, sind in realen Problemen üblich, vielleicht häufiger als klassische glatte, kontinuierliche, symmetrische Differentialfälle.

Siehe auch

Verweise

Weiterlesen

Aretz, Kevin; Bartram, Söhnke M.; Papst, Peter F. (April–Juni 2011). „Asymmetrische Verlustfunktionen und die Rationalität der erwarteten Aktienrenditen“. Internationale Zeitschrift für Prognosen . 27 (2): 413–437. doi : 10.1016/j.ijforecast.2009.10.008 . SSRN 889323 .
Berger, James O. (1985). Statistische Entscheidungstheorie und Bayes'sche Analyse (2. Aufl.). New York: Springer-Verlag. Bibcode : 1985sdtb.book.....B . ISBN 978-0-387-96098-2. MR 0.804.611 .

Cecchetti, S. (2000). "Geldpolitik gestalten: Ziele und Regeln" . Oxford Review der Wirtschaftspolitik . 16 (4): 43–59. doi : 10.1093/oxrep/16.4.43 .

Horowitz, Ann R. (1987). "Verlustfunktionen und öffentliche Ordnung". Zeitschrift für Makroökonomie . 9 (4): 489–504. doi : 10.1016/0164-0704(87)90016-4 .

Waud, Roger N. (1976). „Asymmetrische Dienstprogrammfunktionen für politische Entscheidungsträger und optimale Politik unter Unsicherheit“. Ökonometrie . 44 (1): 53–66. doi : 10.2307/1911380 . JSTOR 1911380 .

Languages

In other projects