Eksponentiel distribution - Exponential distribution

Eksponentiel
Sandsynlighedstæthedsfunktion
plot af sandsynlighedstæthedsfunktionen for den eksponentielle fordeling
Kumulativ fordelingsfunktion
Kumulativ fordelingsfunktion
Parametre sats eller omvendt skala
Support
PDF
CDF
Kvantil
Betyde
Median
Mode
Variation
Skævhed
Eks. kurtosis
Entropi
MGF
CF
Fisher oplysninger
Kullback-Leibler divergens

I sandsynlighedsregning og statistik , den eksponentielle fordeling er sandsynlighedsfordelingen af tiden mellem begivenhederne i en Poisson punkt proces , det vil sige, en proces, hvor begivenheder forekommer kontinuerligt og uafhængigt ved en konstant gennemsnitlig hastighed. Det er et særligt tilfælde af gammafordelingen . Det er den kontinuerlige analog af den geometriske fordeling , og det har nøgleegenskaben at være hukommelsesløs . Udover at blive brugt til analyse af Poisson -punktprocesser findes den i forskellige andre sammenhænge.

Den eksponentielle fordeling er ikke den samme som klassen af eksponentielle fordelingsfamilier, som er en stor klasse af sandsynlighedsfordelinger, der inkluderer den eksponentielle fordeling som et af dens medlemmer, men også omfatter normalfordelingen , binomialfordelingen , gammafordelingen , Poisson , og mange andre.

Definitioner

Sandsynlighedstæthedsfunktion

Den Tæthedsfunktionen (pdf) af en eksponentiel fordeling er

Her er λ > 0 parameteren for fordelingen, ofte kaldet hastighedsparameteren . Fordelingen understøttes i intervallet  [0, ∞) . Hvis en tilfældig variabel X har denne fordeling, skriver vi  X ~ Exp ( λ ) .

Den eksponentielle fordeling udviser uendelig delbarhed .

Kumulativ fordelingsfunktion

Den kumulative fordelingsfunktion er givet af

Alternativ parametrering

Den eksponentielle fordeling er undertiden parametriseret i forhold til skalaparameteren β = 1/ λ , hvilket også er middelværdien:

Ejendomme

Gennemsnit, varians, øjeblikke og median

Image
Middelværdien er sandsynlighedsmassecentret, det er det første øjeblik .
Image
Medianen er forbillede F −1 (1/2).

Middelværdien eller den forventede værdi af en eksponentielt fordelt tilfældig variabel X med hastighedsparameter λ er givet ved

I lyset af de givne eksempler nedenfor , det giver mening: hvis du modtager telefonopkald med en gennemsnitlig hastighed på 2 per time, så kan du forvente at vente en halv time for hvert opkald.

Den varians af X er givet ved

standardafvigelsen er lig med middelværdien.

De øjeblikke af X , for er givet ved

De centrale øjeblikke i X , for er givet af

hvor ! n er subfaktorien til n

Den mediane af X er givet ved

hvor ln refererer til den naturlige logaritme . Således er den absolutte forskel mellem middelværdi og median

i overensstemmelse med den median-gennemsnitlige ulighed .

Hukommelsesløshed

En eksponentielt fordelt tilfældig variabel T adlyder forholdet

Dette kan ses ved at overveje den komplementære kumulative fordelingsfunktion :

Når T fortolkes som ventetiden på et arrangement for at forekomme i forhold til nogle indledende tid, denne relation betyder, at hvis T er betinget af en manglende overholdelse af begivenheden over nogle indledende tidsperiode s , fordelingen af den resterende ventetid er det samme som den oprindelige ubetingede fordeling. For eksempel, hvis en hændelse ikke er sket efter 30 sekunder, er den betingede sandsynlighed for, at forekomsten vil tage mindst 10 sekunder mere, lig med den ubetingede sandsynlighed for at observere hændelsen mere end 10 sekunder efter den indledende tid.

Den eksponentielle fordeling og den geometriske fordeling er de eneste hukommelsesløse sandsynlighedsfordelinger .

Den eksponentielle fordeling er følgelig også nødvendigvis den eneste kontinuerlige sandsynlighedsfordeling, der har en konstant fejlfrekvens .

Quantiles

Tukey -anomali -kriterier for eksponentiel sandsynlighedsfordelingsfunktion.
Tukey -kriterier for anomalier.

Den fraktil funktion (inverse kumulative fordelingsfunktion) for Exp ( λ ) er

De kvartiler er derfor:

  • første kvartil: ln (4/3)/ λ
  • median : ln (2)/ λ
  • tredje kvartil: ln (4)/ λ

Og som en konsekvens er interkvartilområdet ln (3)/ λ .

Kullback – Leibler divergens

Den rettede Kullback - Leibler -divergens i nats af ("tilnærmelsesvis" distribution) fra ('sand' distribution) er givet af

Maksimal entropifordeling

Blandt alle kontinuerlige sandsynlighedsfordelinger med understøttelse [0, ∞) og middelværdi μ har den eksponentielle fordeling med λ = 1/ μ den største differentielle entropi . Med andre ord er det den maksimale entropi -sandsynlighedsfordeling for en tilfældig variant X, der er større end eller lig med nul, og for hvilken E [ X ] er fast.

Fordeling af minimum af eksponentielle tilfældige variabler

Lad X 1 ,…, X n være uafhængige eksponentielt fordelte tilfældige variabler med hastighedsparametre λ 1 ,…, λ n . Derefter

er også eksponentielt fordelt med parameter

Dette kan ses ved at overveje den komplementære kumulative fordelingsfunktion :

Indekset for variablen, der opnår minimum, fordeles i henhold til den kategoriske fordeling

Et bevis kan ses ved at lade . Derefter,

Noter det

er ikke eksponentielt fordelt.

Fælles øjeblikke med eksponentiel ordrestatistik

Lad være uafhængige og identisk fordelte eksponentielle tilfældige variabler med hastighedsparameter λ . Lad betegne den tilsvarende ordrestatistik . For , det fælles øjeblik af ordren statistik og er givet af

Dette kan ses ved at påberåbe sig loven om total forventning og den hukommelsesløse egenskab:

Den første ligning følger af loven om total forventning . Den anden ligning udnytter det faktum, at når vi betinges , skal den følge det . Den tredje ligning er afhængig af den hukommelsesløse ejendom, der skal erstattes med .

Summen af ​​to uafhængige eksponentielle tilfældige variabler

Sandsynlighedsfordelingsfunktionen (PDF) af en sum af to uafhængige tilfældige variabler er sammenviklingen af ​​deres individuelle PDF -filer . Hvis og er uafhængige eksponentielle tilfældige variabler med respektive frekvensparametre, og sandsynlighedstætheden for er givet ved

Entropien for denne distribution er tilgængelig i lukket form: forudsat (uden tab af generalitet), derefter
hvor er Euler-Mascheroni-konstanten , og er digamma-funktionen .

I tilfælde af parametre med samme hastighed er resultatet en Erlang -fordeling med form 2 og parameter, som igen er et specielt tilfælde af

gammadistribution .

Relaterede distributioner

  • Hvis så |
X - μ | ~ Exp (β).
  • Hvis X ~ Pareto (1, λ) log derefter ( X ) ~ Exp (λ).
  • Hvis X ~ SkewLogistic (θ), så .
  • Hvis X i ~ U (0, 1) derefter
  • Den eksponentielle distribution er en grænse for en skaleret beta -distribution :
  • Eksponentiel distribution er et specielt tilfælde af type 3 Pearson distribution .
  • Hvis X ~ Exp (λ) og X i ~ Exp (λ i ) derefter:
    • , lukning under skalering med en positiv faktor.
    • 1 +  X ~ BenktanderWeibull (λ, 1), hvilket reducerer til en afkortet eksponentiel fordeling.
    • ke X ~ Pareto ( k , λ).
    • e −X ~ Beta (λ, 1).
    • 1/ke X ~ PowerLaw ( k , λ)
    • , Rayleigh -distributionen
    • , Weibull -distributionen
    • μ - β log (λ X ) ∼ Gumbel (μ, β) .
    • , en geometrisk fordeling på 0,1,2,3, ...
    • , en geometrisk fordeling på 1,2,3,4, ...
    • Hvis også Y ~ Erlang ( n , λ) eller derefter
    • Hvis også λ ~ Gamma ( k , θ) (form, skala parametrisering) derefter den marginale fordeling af X er Lomax ( k , 1 / θ), gamma blandingen
    • λ 1 X 1 - λ 2 Y 2 ~ Laplace (0, 1) .
    • min { X 1 , ..., X n } ~ Exp (λ 1 + ... + λ n ).
    • Hvis også λ i = λ så:
      • Erlang ( k , λ) = Gamma ( k , λ −1 ) = Gamma ( k , λ) (i ( k , θ) og (α, β) parametrering henholdsvis) med et heltal form parameter k.
      • X i - X j ~ Laplace (0, λ −1 ).
    • Hvis også X i er uafhængige, så:
      • ~ U (0, 1)
      • har sandsynlighedstæthedsfunktion . Dette kan bruges til at opnå et
  • konfidensinterval for .
  • Hvis også λ = 1:
    • , den logistiske fordeling
    • μ - σ log ( X ) ~ GEV (μ, σ, 0) .
    • Yderligere hvis så (
  • K-distribution )
  • Hvis også λ = 1/2 så X ∼ χ2
    2
    ; dvs. X har en chi-kvadratisk fordeling med 2 frihedsgrader . Derfor:
  • Hvis og ~
  • Poisson ( X ) derefter ( geometrisk fordeling )
  • Den Hoyt fordeling kan opnås fra eksponentiel fordeling og arcsinus fordeling
  • Andre relaterede distributioner:

    Statistisk slutning

    Antag nedenfor, at tilfældig variabel X er eksponentielt fordelt med hastighedsparameter λ, og er

    n uafhængige prøver fra X , med prøve middelværdi .

    Parameterestimering

    Den maksimale sandsynlighedsestimator for λ er konstrueret som følger:

    Den Likelihoodfunktionen for λ, givet en uafhængig og identisk fordelte prøve x = ( x 1 , ..., x n ) trækkes fra variable, er:

    hvor:

    er prøveværdien.

    Afledningen af ​​sandsynlighedsfunktionens logaritme er:

    Derfor er det maksimale sandsynlighedsestimat for satsparameteren:

    Dette er ikke en upartisk estimator af, selv om det

    er en upartisk MLE -estimator for og fordelingsmiddelværdien.

    Bias for er lig med

    hvilket giver den bias-korrigerede maksimale sandsynlighedsestimator

    Omtrentlig minimizer af forventet kvadratfejl

    Antag at du har mindst tre prøver. Hvis vi søger en minimizer af forventet gennemsnitlig kvadratisk fejl (se også: Bias -varians -afvejning ), der ligner det maksimale sandsynlighedsestimat (dvs. en multiplikativ korrektion til sandsynlighedsestimatet), har vi:

    Dette er fremstillet af middelværdien og variansen af inverse-gammafordelingen : .

    Fisher oplysninger

    The Fisher information , betegnet , for en estimator af satsen parameter er givet som:

    Tilslutning af distribution og løsning giver:

    Dette bestemmer mængden af ​​information, hver uafhængig prøve af en eksponentiel distribution bærer om den ukendte hastighedsparameter .

    Tillidsintervaller

    100 (1 - α)% konfidensinterval for hastighedsparameteren for en eksponentiel fordeling er givet ved:

    hvilket også er lig med:
    hvor χ2
    p , v
    er 100 ( p ) percentilen af chi-kvadratfordelingen med v- frihedsgrader , n er antallet af observationer af inter-ankomsttider i prøven, og x-bar er prøvegennemsnittet. En simpel tilnærmelse til de nøjagtige interval -endepunkter kan udledes ved hjælp af en normal tilnærmelse til χ2
    p , v
    fordeling. Denne tilnærmelse giver følgende værdier for et 95% konfidensinterval:

    Denne tilnærmelse kan være acceptabel for prøver, der indeholder mindst 15 til 20 elementer.

    Bayesisk slutning

    Den konjugat forud for den eksponentielle fordeling er gammafordelingen (hvoraf den eksponentielle fordeling er et særligt tilfælde). Følgende parameterisering af gamma -sandsynlighedsdensitetsfunktionen er nyttig:

    Den bageste fordeling p kan derefter udtrykkes i form af sandsynlighedsfunktionen defineret ovenfor og en gamma forud:

    Nu er den bageste densitet p blevet specificeret op til en manglende normaliseringskonstant. Da den har form af en gamma pdf, kan denne let udfyldes, og man opnår:

    Her kan hyperparameteret α tolkes som antallet af tidligere observationer og β som summen af ​​de tidligere observationer. Det bageste middel her er:

    Forekomst og applikationer

    Forekomst af begivenheder

    Den eksponentielle fordeling forekommer naturligt, når længden af ​​ankomsttiden i en homogen Poisson-proces beskrives .

    Den eksponentielle fordeling kan ses som en kontinuerlig pendant til den geometriske fordeling , som beskriver antallet af Bernoulli -forsøg, der er nødvendige for, at en diskret proces kan ændre tilstand. I modsætning hertil beskriver den eksponentielle fordeling tiden for en kontinuerlig proces til at ændre tilstand.

    I virkelige scenarier er antagelsen om en konstant hastighed (eller sandsynlighed pr. Tidsenhed) sjældent opfyldt. For eksempel varierer antallet af indgående telefonopkald alt efter tidspunktet på dagen. Men hvis vi fokuserer på et tidsinterval, hvor hastigheden er nogenlunde konstant, f.eks. Fra 14.00 til 16.00 i løbet af arbejdsdage, kan den eksponentielle fordeling bruges som en god omtrentlig model for tiden, indtil det næste telefonopkald kommer. Lignende forbehold gælder for følgende eksempler, der giver cirka eksponentielt fordelte variabler:

    • Tiden, indtil en radioaktiv partikel henfalder , eller tiden mellem klik på en Geiger -tæller
    • Den tid det tager før dit næste telefonopkald
    • Tiden til misligholdelse (ved betaling til virksomhedens gældsindehavere) i reduceret form kreditrisikomodellering

    Eksponentielle variabler kan også bruges til at modellere situationer, hvor visse hændelser forekommer med en konstant sandsynlighed pr. Længdenhed, såsom afstanden mellem mutationer på en DNA -streng eller mellem roadkills på en given vej.

    I køteori modelleres servicetiderne for agenter i et system (f.eks. Hvor lang tid det tager for en bankkasser osv. At betjene en kunde) ofte som eksponentielt distribuerede variabler. (Kundernes ankomst er f.eks. Også modelleret af Poisson -distributionen, hvis ankomsterne er uafhængige og distribueret ens.) Længden af ​​en proces, der kan betragtes som en sekvens af flere uafhængige opgaver, følger Erlang -distributionen (som er distributionen af summen af ​​flere uafhængige eksponentielt fordelte variabler). Pålidelighedsteori og pålidelighedsteknik gør også omfattende brug af den eksponentielle distribution. På grund af denne hukommelsesløse egenskab ved denne distribution er den velegnet til at modellere den konstante farehastighedsdel af badekarskurven, der bruges i pålidelighedsteorien. Det er også meget praktisk, fordi det er så let at tilføje fejlfrekvenser i en pålidelighedsmodel. Den eksponentielle fordeling er imidlertid ikke hensigtsmæssig til at modellere den samlede levetid for organismer eller tekniske anordninger, fordi "fejlfrekvensen" her ikke er konstant: flere fejl opstår for meget unge og for meget gamle systemer.

    Image
    Monteret kumulativ eksponentiel distribution til årligt maksimalt 1-dages nedbør ved hjælp af CumFreq

    I fysik , hvis du observerer en gas ved en bestemt temperatur og tryk i et ensartet tyngdefelt , følger højderne af de forskellige molekyler også en omtrentlig eksponentiel fordeling, kendt som den barometriske formel . Dette er en konsekvens af entropi -ejendommen nævnt nedenfor.

    Inden for hydrologi bruges den eksponentielle fordeling til at analysere ekstreme værdier af sådanne variabler som månedlige og årlige maksimumværdier for daglig nedbør og vandløbsmængder.

    Det blå billede illustrerer et eksempel på, hvordan den eksponentielle fordeling tilpasses årligt til maksimalt en-dages nedbør, der også viser 90% tillidsbæltet baseret på den binomiske fordeling . Nedbørsdataene er repræsenteret ved at plotte positioner som en del af den kumulative frekvensanalyse .

    I ledelse af operationsstuer fordeles operationsvarigheden for en kategori af operationer uden typisk arbejdskontnet (som på et skadestue, der omfatter alle former for operationer).

    Forudsigelse

    Efter at have observeret en stikprøve af n datapunkter fra en ukendt eksponentiel distribution er en fælles opgave at bruge disse prøver til at forudsige fremtidige data fra den samme kilde. En almindelig forudsigende fordeling over fremtidige prøver er den såkaldte plug-in distribution, dannet ved at tilslutte et passende estimat for hastighedsparameteren λ til den eksponentielle densitetsfunktion. Et almindeligt estimatvalg er det, der er givet ved princippet om maksimal sandsynlighed, og ved hjælp af dette giver den forudsigelige tæthed over en fremtidig prøve x n +1 , betinget af de observerede prøver x = ( x 1 , ..., x n ) givet af

    Den bayesianske tilgang giver en forudsigelig fordeling, der tager højde for usikkerheden ved den estimerede parameter, selvom dette kan afgørende afhænge af valget af prior.

    En forudsigende fordeling fri for spørgsmålene om valg af prioriteter, der opstår under den subjektive bayesianske tilgang er

    som kan betragtes som

    1. en hyppig tillidsfordeling , opnået ved fordelingen af ​​den afgørende mængde ;
    2. en profilforudsigende sandsynlighed, opnået ved at eliminere parameteren λ fra den fælles sandsynlighed for x n +1 og λ ved maksimalisering;
    3. en objektiv Bayesiansk prediktiv posterior distribution, opnået ved hjælp af den ikke-informative Jeffreys forud for 1/ λ ;
    4. betinget normaliseret maksimal sandsynlighed (CNML) forudsigende fordeling, ud fra informationsteoretiske overvejelser.

    Nøjagtigheden af ​​en forudsigelig fordeling kan måles ved hjælp af afstanden eller divergensen mellem den sande eksponentielle fordeling med hastighedsparameter, λ 0 , og den forudsigelige fordeling baseret på prøven x . Den Kullback-Leibler divergens er en almindeligt anvendt, parametrering fri mål for forskellen mellem to fordelinger. Lad Δ ( λ 0 || p ) betegne Kullback - Leibler -divergensen mellem en eksponentiel med hastighedsparameter λ 0 og en forudsigelig fordeling p, det kan vises, at

    hvor forventningen tages med hensyn til den eksponentielle fordeling med hastighedsparameter λ 0 ∈ (0, ∞) , og ψ (·) er digamma -funktionen. Det er klart, at CNML-forudsigelsesfordelingen er strengt bedre end den maksimale sandsynligheds-plug-in-distribution med hensyn til gennemsnitlig Kullback – Leibler-divergens for alle stikprøvestørrelser n > 0 .

    Beregningsmetoder

    Generering af eksponentielle varianter

    En konceptuelt meget enkel metode til generering af eksponentielle varianter er baseret på invers transform sampling : I betragtning af en tilfældig variant U trukket fra den ensartede fordeling på enhedsintervallet (0, 1) , er varianten

    har en eksponentiel fordeling, hvor F −1 er den kvantile funktion , defineret af

    Desuden, hvis U er ensartet på (0, 1), så er 1 - U også . Dette betyder, at man kan generere eksponentielle varianter som følger:

    Andre metoder til generering af eksponentielle varianter diskuteres af Knuth og Devroye.

    En hurtig metode til at generere et sæt færdigbestilte eksponentielle varianter uden at bruge en sorteringsrutine er også tilgængelig.

    Se også

    Referencer

    eksterne links