DAX inneholder noen statistiske aggregasjonsfunksjoner, for eksempel gjennomsnitt, varians og standardavvik. Andre typiske statistiske beregninger krever at du skriver lengre DAX-uttrykk. Excel, fra dette synspunktet, har et mye rikere språk. De statistiske mønstrene er en samling av vanlige statistiske beregninger: median, modus, glidende gjennomsnitt, prosentil og kvartil. Vi vil gjerne takke Colin Banfield, Gerard Brueckl og Javier Guilln, hvis blogger inspirerte noen av de følgende mønstrene. Grunnmønster Eksempel Formlene i dette mønsteret er løsningen på spesifikke statistiske beregninger. Du kan bruke standard DAX-funksjoner til å beregne gjennomsnittet (aritmetisk gjennomsnitt) av et sett med verdier. GJENNOMSNITT . returnerer gjennomsnittet av alle tallene i en numerisk kolonne. AVERAGEA. returnerer gjennomsnittet av alle tallene i en kolonne, og håndterer både tekst og ikke-numeriske verdier (ikke-numeriske og tomme tekstverdier teller som 0). AVERAGEX. beregne gjennomsnittet på et uttrykk evaluert over et bord. Flytende gjennomsnitt Det glidende gjennomsnittet er en beregning for å analysere datapunkter ved å opprette en rekke gjennomsnitt av forskjellige delsett av hele datasettet. Du kan bruke mange DAX teknikker til å gjennomføre denne beregningen. Den enkleste teknikken bruker AVERAGEX, itererer et bord med ønsket granularitet og beregner for hver iterasjon uttrykket som genererer det enkle datapunktet som skal brukes i gjennomsnittet. For eksempel beregner følgende formel det bevegelige gjennomsnittet for de siste 7 dagene, forutsatt at du bruker en datatabell i datamodellen din. Ved å bruke AVERAGEX beregner du automatisk målingene på hvert granularitetsnivå. Når du bruker et mål som kan aggregeres (for eksempel SUM), kan en annen tilgang basert på CALCULATE være raskere. Du finner denne alternative tilnærmingen i det komplette mønsteret av Moving Average. Du kan bruke standard DAX-funksjoner til å beregne variansen av et sett med verdier. VAR. S. returnerer variansen av verdier i en kolonne som representerer en prøvepopulasjon. VAR. P. returnerer variansen av verdier i en kolonne som representerer hele befolkningen. VARX. S. returnerer variansen til et uttrykk evaluert over et tabell som representerer en prøvepopulasjon. VARX. P. returnerer variansen til et uttrykk evaluert over et bord som representerer hele befolkningen. Standardavvik Du kan bruke standard DAX-funksjoner til å beregne standardavviket for et sett med verdier. STDEV. S. returnerer standardavviket til verdier i en kolonne som representerer en prøvepopulasjon. STDEV. P. returnerer standardavviket til verdier i en kolonne som representerer hele befolkningen. STDEVX. S. returnerer standardavviket til et uttrykk evaluert over en tabell som representerer en prøvepopulasjon. STDEVX. P. returnerer standardavviket til et uttrykk evaluert over en tabell som representerer hele befolkningen. Medianen er den numeriske verdien som skiller den øvre halvdelen av en befolkning fra den nedre halvdelen. Hvis det er et merkelig antall rader, er medianen middelverdien (sortering av rader fra laveste verdi til høyeste verdi). Hvis det er et jevnt antall rader, er det gjennomsnittet av de to middelverdiene. Formelen ignorerer blanke verdier, som ikke anses som en del av befolkningen. Resultatet er identisk med MEDIAN-funksjonen i Excel. Figur 1 viser en sammenligning mellom resultatet returnert av Excel og den tilsvarende DAX-formelen for medianberegningen. Figur 1 Eksempel på medianberegning i Excel og DAX. Modusen er verdien som vises oftest i et sett med data. Formelen ignorerer blanke verdier, som ikke anses som en del av befolkningen. Resultatet er identisk med MODE og MODE. SNGL-funksjonene i Excel, som bare returnerer minimumsverdien når det er flere moduser i settet av verdier som vurderes. Excel-funksjonen MODE. MULT ville returnere alle modi, men du kan ikke implementere det som et mål i DAX. Figur 2 sammenligner resultatet som returneres av Excel med den tilsvarende DAX-formelen for modusberegningen. Figur 2 Eksempel på modusberegning i Excel og DAX. Percentil percentilen er verdien under hvilken en gitt prosentandel av verdiene i en gruppe faller. Formelen ignorerer blanke verdier, som ikke anses som en del av befolkningen. Beregningen i DAX krever flere trinn, beskrevet i Fullmønster-delen, som viser hvordan man får de samme resultatene av Excel-funksjonene PERCENTILE, PERCENTILE. INC og PERCENTILE. EXC. Kvartilene er tre poeng som deler et sett med verdier i fire like grupper, hver gruppe består av en fjerdedel av dataene. Du kan beregne kvartilene ved hjelp av Percentilmønsteret ved å følge disse korrespondansene: Første kvartil lavere kvartil 25. prosentandel Andre kvartilmedian 50. prosentil Tredje kvartil øvre kvartil 75. prosentil Fullstendig mønster Noen få statistiske beregninger har en lengre beskrivelse av det komplette mønsteret fordi Du kan ha forskjellige implementeringer avhengig av datamodeller og andre krav. Flytende gjennomsnitt Vanligvis vurderer du det bevegelige gjennomsnittet ved å referere til granularitetsnivået for dagen. Den generelle malen med følgende formel har disse markørene: ltnumberofdaysgt er antall dager for glidende gjennomsnitt. ltdatecolumngt er datakolonnen i datortabellen hvis du har en eller datakolonnen i tabellen som inneholder verdier hvis det ikke finnes en egen datatabell. ltmeasuregt er målet til å beregne som det bevegelige gjennomsnittet. Det enkleste mønsteret bruker AVERAGEX-funksjonen i DAX, som automatisk bare vurderer de dagene som det er en verdi for. Som et alternativ kan du bruke følgende mal i datamodeller uten datatabell og med et mål som kan aggregeres (for eksempel SUM) over hele perioden som vurderes. Den forrige formelen vurderer en dag uten tilsvarende data som et mål som har 0 verdi. Dette kan bare skje når du har et eget datatabell, som kan inneholde dager for hvilke det ikke er noen tilsvarende transaksjoner. Du kan fikse nevneren for gjennomsnittet ved å bruke kun antall dager for hvilke transaksjoner bruker følgende mønster, hvor: ltfacttablegt er tabellen relatert til datatabellen og inneholder verdier beregnet av målingen. Du kan bruke funksjonene DATESBETWEEN eller DATESINPERIOD i stedet for FILTER, men disse fungerer bare i en vanlig datatabell, mens du kan bruke det ovenfor beskrevne mønsteret også til ikke-vanlige datatabeller og til modeller som ikke har datortabell. For eksempel vurdere de forskjellige resultatene som produseres av følgende to tiltak. I figur 3 kan du se at det ikke er salg på 11. september 2005. Denne datoen er imidlertid inkludert i datortabellen, slik at det er 7 dager (fra 11. september til 17. september) som bare har 6 dager med data. Figur 3 Eksempel på en flytende gjennomsnittlig beregning vurderer og ignorerer datoer uten salg. Tiltaket Moving Average 7 Days har et lavere nummer mellom 11. september og 17. september fordi det vurderer 11. september som en dag med 0 salg. Hvis du vil ignorere dager uten salg, må du bruke målet Moving Average 7 Days No Zero. Dette kan være riktig tilnærming når du har en komplett datortabell, men du vil ignorere dager uten transaksjoner. Ved hjelp av den flytende gjennomsnittlige 7-dagers formel, er resultatet riktig, fordi AVERAGEX bare vurderer bare ikke-tomme verdier. Husk at du kan forbedre ytelsen til et bevegelig gjennomsnitt ved å fortsette verdien i en beregnet kolonne i et bord med ønsket granularitet, for eksempel dato eller dato og produkt. Den dynamiske beregningsmetoden med et mål gir imidlertid muligheten til å bruke en parameter for antall dager i glidende gjennomsnitt (for eksempel erstatte ltnumberofdaysgt med et mål som implementerer Parameter Tabellmønsteret). Medianen tilsvarer den 50. prosentpoeng, som du kan beregne ved hjelp av Persentilmønsteret. Medianmønsteret gjør det imidlertid mulig å optimalisere og forenkle medianberegningen ved hjelp av et enkelt mål, i stedet for de flere tiltakene som kreves av Percentil-mønsteret. Du kan bruke denne tilnærmingen når du beregner medianen for verdier som er inkludert i ltvaluecolumngt, som vist nedenfor: For å forbedre ytelsen, vil du kanskje fortsette verdien av et mål i en beregnet kolonne hvis du vil oppnå medianen for resultatene av et mål i datamodellen. Men før du gjør denne optimaliseringen, bør du implementere MedianX-beregningen basert på følgende mal, ved å bruke disse markørene: ltgranularitytablegt er tabellen som definerer beregningens granularitet. For eksempel kan det være datatabellen hvis du vil beregne medianen til et mål beregnet på dagnivå, eller det kan være VALUES (8216DateYearMonth) hvis du vil beregne medianen til et mål beregnet på månedenivå. ltmeasuregt er målet for å beregne for hver rad av ltgranularitytablegt for medianberegningen. ltmeasuretablegt er tabellen som inneholder data som brukes av ltmeasuregt. For eksempel, hvis ltgranularitytablegt er en dimensjon som 8216Date8217, vil ltmeasuretablegt være 8216Internet Sales8217 som inneholder kolonnen for Internett-salgsmengde summet av Internett Total Sales-måleen. For eksempel kan du skrive medianen av Internett Total Salg for alle Kunder i Eventyrverker som følger: Tips Følgende mønster: brukes til å fjerne rader fra ltgranularitytablegt som ikke har tilsvarende data i gjeldende utvalg. Det er en raskere måte enn å bruke følgende uttrykk: Du kan imidlertid erstatte hele CALCULATETABLE uttrykket med bare ltgranularitytablegt hvis du vil vurdere tomme verdier av ltmeasuregt som 0. Utførelsen av MedianX-formel avhenger av antall rader i tabell iterated og på kompleksiteten av tiltaket. Hvis ytelsen er dårlig, kan du fortsette med det lette resultatet i en beregnet kolonne av lttablegt, men dette vil fjerne muligheten til å bruke filtre til medianberegningen på spørringstidspunktet. Percentile Excel har to forskjellige implementeringer av percentilberegning med tre funksjoner: PERCENTILE, PERCENTILE. INC og PERCENTILE. EXC. De returnerer alle K-th-prosentverdien, hvor K er i området 0 til 1. Forskjellen er at PERCENTILE og PERCENTILE. INC anser K som et inkluderende utvalg, mens PERCENTILE. EXC anser K-området 0 til 1 som eksklusiv . Alle disse funksjonene og deres DAX-implementeringer mottar en prosentilverdi som parameter, som vi kaller K. ltKgt-prosentilverdien ligger i området 0 til 1. De to DAX-implementeringene av percentil krever noen få tiltak som er liknende, men forskjellige nok til å kreve to forskjellige sett med formler. Tiltakene som er definert i hvert mønster er: KPerc. Den prosentile verdien det tilsvarer ltKgt. PercPos. Punktilstandens posisjon i det sorterte sett av verdier. ValueLow. Verdien under prosentilstanden. ValueHigh. Verdien over prosentilposisjonen. Percentil. Den endelige beregningen av percentilen. Du trenger ValueLow og ValueHigh-målene hvis PercPos inneholder en desimaldel, fordi du må interpolere mellom ValueLow og ValueHigh for å returnere riktig prosentilverdi. Figur 4 viser et eksempel på beregningene som ble gjort med Excel - og DAX-formler, ved hjelp av begge algoritmer av prosentil (inklusiv og eksklusiv). Figur 4 Percentile beregninger ved hjelp av Excel-formler og tilsvarende DAX-beregning. I de følgende avsnittene utfører Percentile-formlene beregningen på verdier lagret i en tabellkolonne, DataValue, mens PercentileX-formlene utfører beregningen på verdier returnert av et mål beregnet ved en gitt granularitet. Percentil Inklusiv Percentil Inklusiv implementering er følgende. Percentil Eksklusiv Percentil Eksklusiv implementering er følgende. PercentileX Inklusive PercentileX Inklusiv implementering er basert på følgende mal, ved hjelp av disse markørene: ltgranularitytablegt er tabellen som definerer beregningens granularitet. For eksempel kan det være datatabellen hvis du vil beregne percentilen til et mål på dagens nivå, eller det kan være VALUES (8216DateYearMonth) hvis du vil beregne percentilen av et mål på månedenivået. ltmeasuregt er målet for å beregne for hver rad av ltgranularitytablegt for percentilberegning. ltmeasuretablegt er tabellen som inneholder data som brukes av ltmeasuregt. For eksempel, hvis ltgranularitytablegt er en dimensjon som 8216Date, 8217, så vil ltmeasuretablegt være 8216Sales8217 som inneholder summekolonnen summert av totalbeløpsmålet. For eksempel kan du skrive PercentileXInc av Total Salg for alle datoene i datatabellen som følger: PercentileX Exclusive PercentileX Exclusive implementeringen er basert på følgende mal, med samme markører som brukes i PercentileX Inclusive: For eksempel, du kan skrive PercentileXExc av Total Salg for alle datoene i datatabellen som følger: Hold meg informert om kommende mønstre (nyhetsbrev). Fjern merket for å laste ned filen fritt. Publisert 17. mars 2014 byMoving gjennomsnittlige og eksponensielle utjevningsmodeller Som et første skritt i å bevege seg utover gjennomsnittlige modeller, kan random walk-modeller og lineære trendmodeller, nonseasonal mønstre og trender ekstrapoleres ved hjelp av en glidende eller utjevningsmodell. Den grunnleggende forutsetningen bak gjennomsnittlige og utjevningsmodeller er at tidsserien er lokalt stasjonær med et sakte varierende middel. Derfor tar vi et flytende (lokalt) gjennomsnitt for å anslå dagens verdi av gjennomsnittet, og deretter bruke det som prognosen for nær fremtid. Dette kan betraktes som et kompromiss mellom den gjennomsnittlige modellen og den tilfeldige-walk-uten-drift-modellen. Den samme strategien kan brukes til å estimere og ekstrapolere en lokal trend. Et glidende gjennomsnitt kalles ofte en quotsmoothedquot-versjon av den opprinnelige serien, fordi kortsiktig gjennomsnittsverdi medfører utjevning av støtene i den opprinnelige serien. Ved å justere graden av utjevning (bredden på det bevegelige gjennomsnittet), kan vi håpe å finne en slags optimal balanse mellom ytelsen til de gjennomsnittlige og tilfeldige turmodellene. Den enkleste typen gjennomsnittlig modell er. Enkel (likevektet) Flytende gjennomsnitt: Værvarselet for verdien av Y på tidspunktet t1 som er laget på tidspunktet t, er det enkle gjennomsnittet av de nyeste m-observasjonene: (Her og andre steder vil jeg bruke symbolet 8220Y-hat8221 til å stå for en prognose av tidsserien Y som ble gjort så tidlig som mulig ved en gitt modell.) Dette gjennomsnittet er sentrert ved period-t (m1) 2, noe som innebærer at estimatet av det lokale middel vil ha en tendens til å ligge bak den sanne verdien av det lokale gjennomsnittet med ca. (m1) 2 perioder. Således sier vi at gjennomsnittsalderen for dataene i det enkle glidende gjennomsnittet er (m1) 2 i forhold til perioden for prognosen beregnes. Dette er hvor lang tid det vil være å prognostisere prognoser bak vendepunkter i dataene . For eksempel, hvis du er gjennomsnittlig de siste 5 verdiene, vil prognosene være ca 3 perioder sent i å svare på vendepunkter. Merk at hvis m1, den enkle glidende gjennomsnittlige (SMA) modellen er lik den tilfeldige turmodellen (uten vekst). Hvis m er veldig stor (sammenlignbar med lengden på estimeringsperioden), svarer SMA-modellen til den gjennomsnittlige modellen. Som med hvilken som helst parameter i en prognosemodell, er det vanlig å justere verdien av k for å oppnå den beste kvote kvoten til dataene, dvs. de minste prognosefeilene i gjennomsnitt. Her er et eksempel på en serie som ser ut til å vise tilfeldige svingninger rundt et sakte varierende middel. Først kan vi prøve å passe den med en tilfeldig walk-modell, noe som tilsvarer et enkelt bevegelige gjennomsnitt på 1 sikt: Den tilfeldige turmodellen reagerer veldig raskt på endringer i serien, men i så måte velger den mye av kvotenivået i data (tilfeldige svingninger) samt quotsignalquot (det lokale gjennomsnittet). Hvis vi i stedet prøver et enkelt glidende gjennomsnitt på 5 termer, får vi et smidigere sett med prognoser: Det 5-tiden enkle glidende gjennomsnittet gir betydelig mindre feil enn den tilfeldige turmodellen i dette tilfellet. Gjennomsnittsalderen for dataene i denne prognosen er 3 ((51) 2), slik at den har en tendens til å ligge bak vendepunktene med tre perioder. (For eksempel ser det ut til at en nedtur har skjedd i perioden 21, men prognosene vender seg ikke til flere perioder senere.) Legg merke til at de langsiktige prognosene fra SMA-modellen er en horisontal rettlinje, akkurat som i tilfeldig gang modell. Således antar SMA-modellen at det ikke er noen trend i dataene. Mens prognosene fra den tilfeldige turmodellen ganske enkelt er lik den siste observerte verdien, er prognosene fra SMA-modellen lik et veid gjennomsnitt av de siste verdiene. De konfidensgrenser som beregnes av Statgraphics for de langsiktige prognosene for det enkle glidende gjennomsnittet, blir ikke større da prognoseperioden øker. Dette er åpenbart ikke riktig. Dessverre er det ingen underliggende statistisk teori som forteller oss hvordan konfidensintervallene skal utvide seg for denne modellen. Det er imidlertid ikke så vanskelig å beregne empiriske estimater av konfidensgrensene for lengre horisontprognoser. For eksempel kan du sette opp et regneark der SMA-modellen skulle brukes til å prognose 2 trinn foran, 3 trinn fremover, etc. i den historiske dataprøven. Du kan deretter beregne utvalgsstandardavvikene til feilene i hver prognosehorisont, og deretter konstruere konfidensintervaller for langsiktige prognoser ved å legge til og trekke ut multipler av riktig standardavvik. Hvis vi prøver et 9-sikt enkelt glidende gjennomsnitt, får vi enda jevnere prognoser og mer av en bremseeffekt: Gjennomsnittsalderen er nå 5 perioder (91) 2). Hvis vi tar et 19-årig glidende gjennomsnitt, øker gjennomsnittsalderen til 10: Legg merke til at prognosene nå faller bakom vendepunkter med ca 10 perioder. Hvilken mengde utjevning er best for denne serien Her er et bord som sammenligner feilstatistikken sin, også et gjennomsnitt på tre sikt: Modell C, 5-års glidende gjennomsnitt, gir den laveste verdien av RMSE med en liten margin over 3 term og 9-sikt gjennomsnitt, og deres andre statistikker er nesten identiske. Så, blant modeller med svært like feilstatistikk, kan vi velge om vi foretrekker litt mer respons eller litt mer glatt i prognosene. (Tilbake til toppen av siden.) Browns Simple Exponential Smoothing (eksponentielt vektet glidende gjennomsnitt) Den enkle glidende gjennomsnittsmodellen beskrevet ovenfor har den uønskede egenskapen som den behandler de siste k-observasjonene, like og fullstendig ignorerer alle foregående observasjoner. Intuitivt bør tidligere data diskonteres på en mer gradvis måte - for eksempel bør den siste observasjonen få litt mer vekt enn 2. siste, og den 2. siste skal få litt mer vekt enn den 3. siste, og så videre. Den enkle eksponensielle utjevning (SES) - modellen oppnår dette. La 945 betegne en quotsmoothing constantquot (et tall mellom 0 og 1). En måte å skrive modellen på er å definere en serie L som representerer dagens nivå (dvs. lokal middelverdi) av serien som estimert fra data til nå. Verdien av L ved tid t beregnes rekursivt fra sin egen tidligere verdi slik: Således er den nåværende glattede verdien en interpolering mellom den forrige glattede verdien og den nåværende observasjonen, hvor 945 styrer nærheten til den interpolerte verdien til den nyeste observasjon. Forventningen for neste periode er bare den nåværende glatte verdien: Tilsvarende kan vi uttrykke neste prognose direkte i forhold til tidligere prognoser og tidligere observasjoner, i en hvilken som helst av de tilsvarende versjoner. I den første versjonen er prognosen en interpolasjon mellom forrige prognose og tidligere observasjon: I den andre versjonen blir neste prognose oppnådd ved å justere forrige prognose i retning av den forrige feilen med en brøkdel av 945. Er feilen gjort ved tid t. I den tredje versjonen er prognosen et eksponentielt vektet (dvs. nedsatt) glidende gjennomsnitt med rabattfaktor 1-945: Interpolasjonsversjonen av prognoseformelen er den enkleste å bruke hvis du implementerer modellen på et regneark: det passer inn i en enkeltcelle og inneholder cellehenvisninger som peker på forrige prognose, forrige observasjon og cellen der verdien av 945 er lagret. Merk at hvis 945 1 er SES-modellen tilsvarer en tilfeldig turmodell (uten vekst). Hvis 945 0 er SES-modellen ekvivalent med den gjennomsnittlige modellen, forutsatt at den første glattede verdien er satt lik gjennomsnittet. (Gå tilbake til toppen av siden.) Gjennomsnittsalderen for dataene i prognosen for enkel eksponensiell utjevning er 1 945 i forhold til perioden for prognosen beregnes. (Dette skal ikke være åpenbart, men det kan enkelt vises ved å vurdere en uendelig serie.) Derfor har den enkle, glidende gjennomsnittlige prognosen en tendens til å ligge bak vendepunktene med rundt 1 945 perioder. For eksempel, når 945 0,5 lag er 2 perioder når 945 0.2 lag er 5 perioder når 945 0,1 lag er 10 perioder, og så videre. For en gitt gjennomsnittlig alder (det vil si mengden lag), er prognosen for enkel eksponensiell utjevning (SES) noe bedre enn SMA-prognosen (Simple Moving Average) fordi den legger relativt mer vekt på den siste observasjonen - dvs. det er litt mer quotresponsivequot for endringer som oppstod i den siste tiden. For eksempel har en SMA-modell med 9 vilkår og en SES-modell med 945 0,2 begge en gjennomsnittlig alder på 5 for dataene i prognosene, men SES-modellen legger mer vekt på de siste 3 verdiene enn SMA-modellen og ved Samtidig er det ikke 8220forget8221 om verdier som er mer enn 9 år gamle, som vist i dette diagrammet. En annen viktig fordel ved SES-modellen over SMA-modellen er at SES-modellen bruker en utjevningsparameter som er kontinuerlig variabel, slik at den lett kan optimaliseres ved å bruke en quotsolverquot-algoritme for å minimere den gjennomsnittlige kvadratfeilen. Den optimale verdien av 945 i SES-modellen for denne serien viser seg å være 0,2961, som vist her: Gjennomsnittsalderen for dataene i denne prognosen er 10,2961 3,4 perioder, noe som ligner på et 6-sikt enkelt glidende gjennomsnitt. De langsiktige prognosene fra SES-modellen er en horisontal rett linje. som i SMA-modellen og den tilfeldige turmodellen uten vekst. Vær imidlertid oppmerksom på at konfidensintervallene som beregnes av Statgraphics, divergerer nå på en rimelig måte, og at de er vesentlig smalere enn konfidensintervallene for den tilfeldige turmodellen. SES-modellen antar at serien er noe mer forutsigbar enn den tilfeldige turmodellen. En SES-modell er faktisk et spesielt tilfelle av en ARIMA-modell. slik at den statistiske teorien om ARIMA-modeller gir et solid grunnlag for beregning av konfidensintervall for SES-modellen. Spesielt er en SES-modell en ARIMA-modell med en ikke-sesongforskjell, en MA (1) og ikke en konstant periode. ellers kjent som en quotARIMA (0,1,1) modell uten constantquot. MA (1) - koeffisienten i ARIMA-modellen tilsvarer mengden 1-945 i SES-modellen. For eksempel, hvis du passer på en ARIMA (0,1,1) modell uten konstant til serien analysert her, viser den estimerte MA (1) - koeffisienten seg å være 0,7029, som er nesten nøyaktig en minus 0,2961. Det er mulig å legge til antagelsen om en konstant lineær trend uten null som en SES-modell. For å gjøre dette oppgir du bare en ARIMA-modell med en ikke-sesongforskjell og en MA (1) - sikt med en konstant, dvs. en ARIMA-modell (0,1,1) med konstant. De langsiktige prognosene vil da ha en trend som er lik den gjennomsnittlige trenden observert over hele estimeringsperioden. Du kan ikke gjøre dette i forbindelse med sesongjustering, fordi sesongjusteringsalternativene er deaktivert når modelltypen er satt til ARIMA. Du kan imidlertid legge til en konstant langsiktig eksponensiell trend for en enkel eksponensiell utjevningsmodell (med eller uten sesongjustering) ved å bruke inflasjonsjusteringsalternativet i prognoseprosedyren. Den aktuelle kvoteringskvoten (prosentvekst) per periode kan estimeres som hellingskoeffisienten i en lineær trendmodell som er montert på dataene i forbindelse med en naturlig logaritme transformasjon, eller det kan være basert på annen uavhengig informasjon om langsiktige vekstutsikter . (Tilbake til toppen av siden.) Browns Lineær (dvs. dobbel) Eksponensiell utjevning SMA-modellene og SES-modellene antar at det ikke er noen trend av noe slag i dataene (som vanligvis er OK eller i det minste ikke altfor dårlig for 1- trinnvise prognoser når dataene er relativt støyende), og de kan modifiseres for å inkorporere en konstant lineær trend som vist ovenfor. Hva med kortsiktige trender Hvis en serie viser en varierende vekstnivå eller et syklisk mønster som skiller seg tydelig ut mot støyen, og hvis det er behov for å prognose mer enn 1 periode framover, kan estimering av en lokal trend også være et problem. Den enkle eksponensielle utjevningsmodellen kan generaliseres for å oppnå en lineær eksponensiell utjevning (LES) modell som beregner lokale estimater av både nivå og trend. Den enkleste tidsvarierende trendmodellen er Browns lineær eksponensiell utjevningsmodell, som bruker to forskjellige glatte serier som er sentrert på forskjellige tidspunkter. Forutsigelsesformelen er basert på en ekstrapolering av en linje gjennom de to sentrene. (En mer sofistikert versjon av denne modellen, Holt8217s, blir diskutert nedenfor.) Den algebraiske form av Brown8217s lineær eksponensiell utjevningsmodell, som den enkle eksponensielle utjevningsmodellen, kan uttrykkes i en rekke forskjellige, men liknende former. Denne standardmodellen er vanligvis uttrykt som følger: La S betegne den enkeltglattede serien som er oppnådd ved å anvende enkel eksponensiell utjevning til serie Y. Dvs. verdien av S ved period t er gitt av: (Husk at, under enkle eksponensiell utjevning, dette ville være prognosen for Y ved periode t1.) Lad deretter Squot betegne den dobbeltslettede serien oppnådd ved å anvende enkel eksponensiell utjevning (ved hjelp av samme 945) til serie S: Endelig prognosen for Y tk. for noe kgt1, er gitt av: Dette gir e 1 0 (det vil si lure litt, og la den første prognosen være den samme første observasjonen) og e 2 Y 2 8211 Y 1. hvoretter prognosene genereres ved å bruke ligningen ovenfor. Dette gir de samme monterte verdiene som formelen basert på S og S dersom sistnevnte ble startet med S 1 S 1 Y 1. Denne versjonen av modellen brukes på neste side som illustrerer en kombinasjon av eksponensiell utjevning med sesongjustering. Holt8217s Lineær eksponensiell utjevning Brown8217s LES-modell beregner lokale estimater av nivå og trend ved å utjevne de siste dataene, men det faktum at det gjør det med en enkelt utjevningsparameter, stiller en begrensning på datamønstrene som den kan passe: nivået og trenden er ikke tillatt å variere til uavhengige priser. Holt8217s LES-modellen løser dette problemet ved å inkludere to utjevningskonstanter, en for nivået og en for trenden. Til enhver tid t, som i Brown8217s modell, er det et estimat L t på lokalt nivå og et estimat T t av den lokale trenden. Her beregnes de rekursivt fra verdien av Y observert ved tid t og de forrige estimatene av nivået og trenden ved to likninger som gjelder eksponensiell utjevning til dem separat. Hvis estimert nivå og trend ved tid t-1 er L t82091 og T t-1. henholdsvis, da var prognosen for Y tshy som ville vært gjort på tidspunktet t-1, lik L t-1 T t-1. Når den faktiske verdien er observert, beregnes det oppdaterte estimatet av nivået rekursivt ved å interpolere mellom Y tshy og dens prognose, L t-1 T t 1, med vekt på 945 og 1- 945. Forandringen i estimert nivå, nemlig L t 8209 L t82091. kan tolkes som en støyende måling av trenden på tidspunktet t. Det oppdaterte estimatet av trenden beregnes deretter rekursivt ved å interpolere mellom L t 8209 L t82091 og det forrige estimatet av trenden, T t-1. ved bruk av vekter av 946 og 1-946: Fortolkningen av trend-utjevningskonstanten 946 er analog med den for nivåutjevningskonstanten 945. Modeller med små verdier på 946 antar at trenden bare endrer seg veldig sakte over tid, mens modeller med større 946 antar at det endrer seg raskere. En modell med en stor 946 mener at den fjerne fremtiden er veldig usikker, fordi feil i trendberegning blir ganske viktig når det regnes med mer enn en periode framover. (Tilbake til toppen av siden.) Utjevningskonstantene 945 og 946 kan estimeres på vanlig måte ved å minimere gjennomsnittlig kvadratfeil i de 1-trinns prognosene. Når dette gjøres i Statgraphics, viser estimatene seg å være 945 0.3048 og 946 0.008. Den svært små verdien av 946 betyr at modellen tar svært liten endring i trenden fra en periode til den neste, så i utgangspunktet prøver denne modellen å estimere en langsiktig trend. I analogi med begrepet gjennomsnittlig alder av dataene som brukes til å estimere det lokale nivået i serien, er gjennomsnittsalderen for dataene som brukes til estimering av lokal trenden, proporsjonal med 1 946, men ikke akkurat lik den . I dette tilfellet viser det seg å være 10 006 125. Dette er et svært nøyaktig tall, forutsatt at nøyaktigheten av estimatet av 946 er virkelig 3 desimaler, men det er av samme generelle størrelsesorden som prøvestørrelsen på 100, så denne modellen er i gjennomsnitt over ganske mye historie i estimering av trenden. Prognoseplanet nedenfor viser at LES-modellen anslår en litt større lokal trend i slutten av serien enn den konstante trenden som er estimert i SEStrend-modellen. Også den estimerte verdien på 945 er nesten identisk med den som oppnås ved å montere SES-modellen med eller uten trend, så dette er nesten den samme modellen. Nå ser disse ut som rimelige prognoser for en modell som skal estimere en lokal trend. Hvis du 8220eyeball8221 ser dette, ser det ut som om den lokale trenden har vendt nedover på slutten av serien. Hva har skjedd Parametrene til denne modellen har blitt estimert ved å minimere den kvadriske feilen på 1-trinns prognoser, ikke langsiktige prognoser, i hvilket tilfelle trenden gjør ikke en stor forskjell. Hvis alt du ser på er 1-trinns feil, ser du ikke det større bildet av trender over (si) 10 eller 20 perioder. For å få denne modellen mer i tråd med øyehals ekstrapoleringen av dataene, kan vi manuelt justere trendutjevningskonstanten slik at den bruker en kortere basislinje for trendestimering. Hvis vi for eksempel velger å sette 946 0,1, er gjennomsnittsalderen for dataene som brukes til å estimere den lokale trenden 10 perioder, noe som betyr at vi gjennomsnittsverdi trenden over de siste 20 perioder eller så. Here8217s hva prognosen tomten ser ut hvis vi setter 946 0,1 mens du holder 945 0.3. Dette ser intuitivt fornuftig ut på denne serien, selv om det er sannsynlig farlig å ekstrapolere denne trenden mer enn 10 perioder i fremtiden. Hva med feilstatistikken Her er en modell sammenligning for de to modellene vist ovenfor, samt tre SES-modeller. Den optimale verdien av 945. For SES-modellen er ca. 0,3, men tilsvarende resultater (med henholdsvis litt mer responstid) oppnås med 0,5 og 0,2. (A) Holts lineær eksp. utjevning med alfa 0,3048 og beta 0,008 (B) Holts lineær eksp. utjevning med alfa 0,3 og beta 0,1 (C) Enkel eksponensiell utjevning med alfa 0,5 (D) Enkel eksponensiell utjevning med alfa 0,3 (E) Enkel eksponensiell utjevning med alfa 0,2 Deres statistikk er nesten identisk, slik at vi virkelig kan velge på grunnlag av 1-trinns prognosefeil i dataprøven. Vi må falle tilbake på andre hensyn. Hvis vi sterkt tror at det er fornuftig å basere dagens trendoverslag på hva som har skjedd i løpet av de siste 20 perioder eller så, kan vi gjøre en sak for LES-modellen med 945 0,3 og 946 0,1. Hvis vi ønsker å være agnostiker om det er en lokal trend, kan en av SES-modellene være enklere å forklare, og vil også gi mer mid-of-the-road prognoser for de neste 5 eller 10 periodene. (Tilbake til toppen av siden.) Hvilken type trend-ekstrapolering er best: Horisontal eller lineær Empirisk bevis tyder på at hvis dataene allerede er justert (om nødvendig) for inflasjon, kan det være uhensiktsmessig å ekstrapolere kortsiktig lineær trender veldig langt inn i fremtiden. Trender som tyder på i dag, kan løsne seg i fremtiden på grunn av ulike årsaker som forverring av produkt, økt konkurranse og konjunkturnedganger eller oppgang i en bransje. Av denne grunn utfører enkle eksponensielle utjevning ofte bedre ut av prøven enn det ellers kunne forventes, til tross for sin kvadratiske kvadratiske horisontal trend-ekstrapolering. Dampede trendmodifikasjoner av den lineære eksponensielle utjevningsmodellen brukes også i praksis til å introdusere en konservatismeddel i sine trendprognoser. Den demonstrede LES-modellen kan implementeres som et spesielt tilfelle av en ARIMA-modell, spesielt en ARIMA-modell (1,1,2). Det er mulig å beregne konfidensintervall rundt langsiktige prognoser produsert av eksponentielle utjevningsmodeller, ved å betrakte dem som spesielle tilfeller av ARIMA-modeller. (Pass på: ikke alle programmer beregner konfidensintervaller for disse modellene riktig.) Bredden på konfidensintervaller avhenger av (i) RMS-feilen i modellen, (ii) type utjevning (enkel eller lineær) (iii) verdien (e) av utjevningskonstanten (e) og (iv) antall perioder fremover du forutsetter. Generelt sprer intervallene raskere da 945 blir større i SES-modellen, og de sprer seg mye raskere når lineær snarere enn enkel utjevning brukes. Dette emnet blir diskutert videre i ARIMA-modellene i notatene. (Tilbake til toppen av siden.) Lar oss forestille oss at vi har en rekke heltall slik: Gjennomsnittet er oppnådd med følgende formel A (1n) xi (med i 1 til n). Så: x1n x2n. xnn Vi deler nåverdien med antall verdier og legger til det forrige resultatet til den returnerte verdien. Reduksjonsmetode underskrift er Reduksjon tilbakeringingsfunksjonen tar følgende parametere: s. Resultat av forrige beregning c. Nåværende verdi (fra gjeldende indeks) i. Nåværende arrayelementer indeksverdi a. Den nåværende reduserte Array Den andre reduserer parameteren er standardverdien. (Brukes dersom arrayet er tomt). Så gjennomsnittlig reduseringsmetode vil være: Hvis du foretrekker at du kan opprette en egen funksjon, og så bare henvise til tilbakekallingsmetoden signaturen eller Øk Array-prototypen direkte. Det er mulig å dele verdien hver gang reduksjonsmetoden kalles. Eller enda bedre. Ved hjelp av den tidligere definerte Array. protoype. sum () - metoden, optimaliserer prosessen min kaller divisjonen bare en gang :) Deretter på et hvilket som helst Array-objekt av omfanget: NB: Et tomt utvalg med retur et NaN-ønske er mer korrekt enn 0 i min synspunkt og kan være nyttig i spesielle brukstilfeller.
No comments:
Post a Comment