Friday 16 June 2017

Mover Média Sazonalidade


Implementação da planilha de ajuste sazonal e suavização exponencial É direto realizar ajustes sazonais e ajustar modelos de suavização exponencial usando o Excel. As imagens de tela e os gráficos abaixo são tirados de uma planilha que foi configurada para ilustrar o ajuste sazonal multiplicativo e o alisamento exponencial linear nos seguintes dados de vendas trimestrais da Outboard Marine: Para obter uma cópia do próprio arquivo de planilha, clique aqui. A versão do alisamento exponencial linear que será usada aqui para fins de demonstração é a versão Brown8217s, apenas porque pode ser implementada com uma única coluna de fórmulas e há apenas uma constante de suavização para otimizar. Normalmente, é melhor usar a versão Holt8217s que possui constantes de suavização separadas para nível e tendência. O processo de previsão prossegue da seguinte forma: (i) primeiro os dados são ajustados sazonalmente (ii), então, as previsões são geradas para os dados dessazonalizados por meio de alisamento exponencial linear e (iii) finalmente, as previsões sazonalmente ajustadas são quantitativas para obter previsões para a série original . O processo de ajuste sazonal é realizado nas colunas D a G. O primeiro passo no ajuste sazonal é calcular uma média móvel centrada (realizada aqui na coluna D). Isso pode ser feito tomando a média de duas médias de um ano que são compensadas por um período relativo um ao outro. (Uma combinação de duas médias de compensação em vez de uma única média é necessária para fins de centralização quando o número de estações é igual.) O próximo passo é calcular a proporção para a média móvel - i. e. Os dados originais divididos pela média móvel em cada período - o que é realizado aqui na coluna E. (Isso também é chamado de quottrend-cyclequot componente do padrão, na medida em que os efeitos da tendência e do ciclo comercial podem ser considerados como sendo tudo isso Permanece após uma média de um ano inteiro de dados. Claro, mudanças mensais que não são devidas à sazonalidade podem ser determinadas por muitos outros fatores, mas a média de 12 meses suaviza sobre eles em grande medida.) O índice sazonal estimado para cada estação é calculado primeiro calculando a média de todas as proporções para essa estação particular, o que é feito nas células G3-G6 usando uma fórmula AVERAGEIF. Os índices médios são então redimensionados de modo que somam exatamente 100 vezes o número de períodos em uma estação, ou 400 neste caso, o que é feito nas células H3-H6. Abaixo na coluna F, as fórmulas VLOOKUP são usadas para inserir o valor do índice sazonal apropriado em cada linha da tabela de dados, de acordo com o trimestre do ano que representa. A média móvel centrada e os dados ajustados sazonalmente acabam parecendo assim: Note que a média móvel normalmente se parece com uma versão mais suave da série sazonalmente ajustada, e é mais curta em ambas as extremidades. Outra planilha no mesmo arquivo do Excel mostra a aplicação do modelo de alisamento exponencial linear aos dados dessazonalizados, começando na coluna G. Um valor para a constante de alisamento (alfa) é inserido acima da coluna de previsão (aqui, na célula H9) e Por conveniência, é atribuído o nome do intervalo quotAlpha. quot (O nome é atribuído usando o comando quotInsertNameCreatequot.) O modelo LES é inicializado definindo as duas primeiras previsões iguais ao primeiro valor real da série dessazonalizada. A fórmula usada aqui para a previsão LES é a forma recursiva de equação única do modelo Brown8217s: Esta fórmula é inserida na célula correspondente ao terceiro período (aqui, célula H15) e copiada para baixo a partir daí. Observe que a previsão LES para o período atual refere-se às duas observações anteriores e aos dois erros de previsão precedentes, bem como ao valor de alpha. Assim, a fórmula de previsão na linha 15 refere-se apenas a dados que estavam disponíveis na linha 14 e anteriores. (Claro que, se desejássemos usar um alisamento exponencial simples em vez de linear, podemos substituir a fórmula SES aqui. Poderíamos também usar Holt8217s em vez do modelo LES Brown8217s, o que exigiria mais duas colunas de fórmulas para calcular o nível e a tendência Que são usados ​​na previsão.) Os erros são computados na próxima coluna (aqui, coluna J) subtraindo as previsões dos valores reais. O erro quadrático médio equivocado é calculado como a raiz quadrada da variância dos erros mais o quadrado da média. (Isto segue a identidade matemática: VARIÂNCIA MSE (erros) (MÉDIA (erros)) 2. No cálculo da média e variância dos erros nesta fórmula, os dois primeiros períodos são excluídos porque o modelo na verdade não inicia a previsão até O terceiro período (linha 15 na planilha). O valor ideal de alfa pode ser encontrado alterando o alfa manualmente até encontrar o RMSE mínimo, ou então você pode usar o quotSolverquot para executar uma minimização exata. O valor de alfa que o Solver encontrou é mostrado aqui (alfa0.471). Geralmente é uma boa idéia traçar os erros do modelo (em unidades transformadas) e também calcular e traçar suas autocorrelações em atrasos de até uma estação. Aqui está uma série de séries temporais dos erros (ajustados sazonalmente): as autocorrelações de erro são calculadas usando a função CORREL () para calcular as correlações dos erros com elas mesmas atrasadas por um ou mais períodos - os detalhes são mostrados no modelo de planilha . Aqui está um enredo das autocorrelações dos erros nos primeiros cinco atrasos: as autocorrelações nos intervalos 1 a 3 são muito próximas de zero, mas o pico no intervalo 4 (cujo valor é 0,35) é um pouco incômodo - sugere que a O processo de ajuste sazonal não foi completamente bem sucedido. No entanto, na verdade, é apenas marginalmente significativo. 95 bandas de significância para testar se as autocorrelações são significativamente diferentes de zero são mais ou menos 2SQRT (n-k), onde n é o tamanho da amostra e k é o atraso. Aqui n é 38 e k varia de 1 a 5, então a raiz quadrada de n-menos-k é em torno de 6 para todos eles e, portanto, os limites para testar a significância estatística de desvios de zero são aproximadamente mais - Ou-menos 26, ou 0,33. Se você variar o valor de alfa à mão neste modelo do Excel, você pode observar o efeito sobre os gráficos de séries temporais e autocorrelação dos erros, bem como sobre o erro da raiz-médio-quadrado, que será ilustrado abaixo. Na parte inferior da planilha, a fórmula de previsão é citada no futuro, simplesmente substituindo as previsões por valores reais no ponto em que os dados reais se esgotaram - ou seja. Onde quotthe futurequot começa. (Em outras palavras, em cada célula onde um futuro valor de dados ocorreria, uma referência de célula é inserida, que aponta para a previsão feita para esse período.) Todas as outras fórmulas são simplesmente copiadas de cima: Observe que os erros para as previsões de O futuro é calculado para ser zero. Isso não significa que os erros reais serão zero, mas sim reflete apenas o fato de que, para fins de predição, estamos assumindo que os dados futuros serão iguais às previsões em média. As previsões resultantes para os dados dessazonalizados são assim: com este valor particular de alfa, otimizado para previsões de um período de antecedência, a tendência projetada é ligeiramente ascendente, refletindo a tendência local observada nos últimos 2 anos ou então. Para outros valores de alfa, uma projeção de tendência muito diferente pode ser obtida. Geralmente é uma boa idéia ver o que acontece com a projeção de tendência de longo prazo quando o alfa é variado, porque o valor que é melhor para a previsão de curto prazo não será necessariamente o melhor valor para prever o futuro mais distante. Por exemplo, aqui está o resultado que é obtido se o valor de alfa for ajustado manualmente para 0.25: A tendência de longo prazo projetada é agora negativa e não positiva. Com um menor valor de alfa, o modelo está colocando mais peso em dados mais antigos em A estimativa do nível e da tendência atuais e suas previsões de longo prazo refletem a tendência de queda observada nos últimos 5 anos em vez da tendência ascendente mais recente. Este gráfico também ilustra claramente como o modelo com um menor valor de alfa é mais lento para responder a pontos de referência nos dados e, portanto, tende a fazer um erro do mesmo sinal por vários períodos seguidos. Seus erros de previsão de 1 passo à frente são maiores em média do que os obtidos anteriormente (RMSE de 34,4 em vez de 27,4) e fortemente auto-correlacionados positivamente. A autocorrelação de lag-1 de 0,56 excede muito o valor de 0,33 calculado acima para um desvio estatisticamente significativo de zero. Como uma alternativa para diminuir o valor do alfa, a fim de introduzir mais conservadorismo em previsões de longo prazo, um fator de amortecimento de quotstend às vezes é adicionado ao modelo para que a tendência projetada se aplique depois de alguns períodos. O passo final na construção do modelo de previsão é quantificar as expectativas do LES, multiplicando-os pelos índices sazonais apropriados. Assim, as previsões não submetidas à coluna I são simplesmente o produto dos índices sazonais na coluna F e as previsões LES corrigidas sazonalmente na coluna H. É relativamente fácil calcular intervalos de confiança para as previsões de um passo antes feitas por este modelo: primeiro Computa o RMSE (erro da raiz-médio-quadrado, que é apenas a raiz quadrada do MSE) e depois calcula um intervalo de confiança para a previsão ajustada sazonalmente, adicionando e subtraindo duas vezes o RMSE. (Em geral, um intervalo de confiança 95 para uma previsão de um período anterior é aproximadamente igual ao ponto de previsão mais-ou-menos-duas vezes o desvio padrão estimado dos erros de previsão, assumindo que a distribuição do erro é aproximadamente normal e o tamanho da amostra É grande o suficiente, digamos, 20 ou mais. Aqui, o RMSE em vez do desvio padrão da amostra dos erros é a melhor estimativa do desvio padrão dos futuros erros de previsão porque leva também o viés, bem como as variações aleatórias em conta.) Os limites de confiança Para a previsão ajustada sazonalmente são então resgatados. Juntamente com a previsão, multiplicando-os pelos índices sazonais apropriados. Nesse caso, o RMSE é igual a 27,4 e a previsão ajustada sazonalmente para o primeiro período futuro (dezembro-93) é 273,2. Então o intervalo de confiança 95 ajustado sazonalmente é de 273,2-227,4 218,4 a 273,2227,4 328,0. Multiplicando esses limites pelo índice sazonal Decembers de 68,61. Obtemos limites de confiança inferiores e superiores de 149,8 e 225,0 em torno da previsão do ponto 93 de 187,4. Os limites de confiança para as previsões mais de um período adiante geralmente se ampliarão conforme o horizonte de previsão aumenta, devido à incerteza sobre o nível e a tendência, bem como os fatores sazonais, mas é difícil computá-los em geral por métodos analíticos. (A maneira apropriada de calcular os limites de confiança para a previsão LES é usando a teoria ARIMA, mas a incerteza nos índices sazonais é outra questão.) Se você quer um intervalo de confiança realista para uma previsão de mais de um período adiante, tomando todas as fontes de Erro em sua conta, sua melhor aposta é usar métodos empíricos: por exemplo, para obter um intervalo de confiança para uma previsão anterior de 2 passos, você poderia criar outra coluna na planilha para calcular uma previsão de duas etapas para cada período ( Ao inicializar a previsão de um passo a frente). Em seguida, calcule o RMSE dos erros de previsão de 2 passos e use isso como base para um intervalo de confiança de 2 etapas. 5.2 Suavização O Smoothing da série de tempo geralmente é feito para nos ajudar a melhorar padrões, tendências, por exemplo, no tempo Series. Geralmente suavizar a irregularidade irregular para ver um sinal mais claro. Para dados sazonais, podemos suavizar a sazonalidade para que possamos identificar a tendência. O Smoothing não nos fornece um modelo, mas pode ser um bom primeiro passo na descrição de vários componentes da série. O termo filtro às vezes é usado para descrever um procedimento de suavização. Por exemplo, se o valor suavizado para um determinado horário for calculado como uma combinação linear de observações para os tempos circundantes, pode-se dizer que aplicamos um filtro linear aos dados (não o mesmo que dizer que o resultado é uma linha reta, por o caminho). O uso tradicional do termo média móvel é que, em cada ponto do tempo, determinamos médias (possivelmente ponderadas) dos valores observados que circundam um determinado momento. Por exemplo, no tempo t. Uma média móvel centrada de comprimento 3 com pesos iguais seria a média de valores às vezes t -1. T. E t1. Para tirar a sazonalidade de uma série, para que possamos melhor ver a tendência, usaríamos uma média móvel com um período de duração sazonal. Assim, na série suavizada, cada valor suavizado foi calculado em média em todas as estações. Isso pode ser feito observando uma média móvel unilateral em que você mede todos os valores para os anos anteriores de dados ou uma média móvel centrada em que você usa valores antes e depois da hora atual. Para dados trimestrais, por exemplo, podemos definir um valor suavizado para o tempo t como (x t x t-1 x t-2 x t-3) 4, a média deste tempo e os 3 trimestres anteriores. No código R, este será um filtro unilateral. Uma média móvel centrada cria um pouco de dificuldade quando temos um número par de períodos de tempo no período sazonal (como costumamos fazer). Para suavizar a sazonalidade em dados trimestrais. Para identificar a tendência, a convenção usual é usar a média móvel alisada no tempo t é Suavizar a sazonalidade nos dados mensais. A fim de identificar a tendência, a convenção usual é usar a média móvel suavizada no tempo t é. Isto é, aplicamos o peso 124 aos valores nos tempos t6 e t6 e peso 112 a todos os valores em todos os momentos entre t5 e t5. No comando R filter, bem, especifique um filtro de frente e verso quando quisermos usar valores que venham antes e depois do tempo para o qual foram suavizados. Observe que na página 71 do nosso livro, os autores aplicam pesos iguais em uma média móvel sazonal centrada. Isso também está bem. Por exemplo, um suavizado trimestral pode ser alisado no tempo t é frac x frac x frac xt frac x frac x Um mensageiro mensal pode aplicar um peso de 113 a todos os valores desde os tempos t-6 até t6. O código que os autores usam na página 72 aproveita o comando rep que repete um valor um certo número de vezes. Eles não usam o parâmetro de filtro dentro do comando de filtro. Exemplo 1 Produção Trimestral de Cerveja na Austrália Tanto na Lição 1 quanto na Lição 4, analisamos uma série de produção trimestral de cerveja na Austrália. O código R que se segue cria uma série suavizada que nos permite ver o padrão de tendência e traça esse padrão de tendência no mesmo gráfico que as séries temporais. O segundo comando cria e armazena a série suavizada no objeto chamado trendpattern. Observe que, dentro do comando do filtro, o parâmetro chamado filtro fornece os coeficientes para o alisamento e os lados 2 fazem com que um cálculo centrado seja calculado. Beerprod scan (beerprod. dat) trendpattern filter (beerprod, filtro c (18, 14, 14, 14, 18), sides2) trama (beerprod, tipo b, principal tendência média móvel) linhas (trendpattern) Heres o resultado: Nós Pode subtrair o padrão de tendência dos valores dos dados para obter uma melhor visão da sazonalidade. Heres como isso seria feito: Seasonals beerprod - traço trendpattern (seasonals, tipo b, padrão sazonal principal para a produção de cerveja) O resultado segue: Outra possibilidade para a série de suavização ver tendência é o filtro one-sided filterpattern2 filter (beerprod, filtro c (14, 14, 14, 14), lados1) Com isso, o valor suavizado é a média do ano passado. Exemplo 2. Desemprego mensal dos EUA No trabalho de casa para a semana 4, você analisou uma série mensal de desemprego americano de 1948 a 1978. Heres um alisamento feito para olhar a tendência. (Time de tendência, mainTrend no desemprego dos EUA, 1948-1978, ano de xlab) Somente a tendência suavizada é plotada. (Figura 2.1). O segundo comando identifica as características do tempo do calendário da série. Isso faz com que o enredo tenha um eixo mais significativo. A trama segue. Para as séries não sazonais, você não deve suavizar qualquer extensão específica. Para alisar, você deve experimentar as médias móveis de diferentes intervalos. Esses períodos de tempo poderiam ser relativamente curtos. O objetivo é eliminar as bordas difíceis para ver qual tendência ou padrão podem estar lá. Outros métodos de suavização (Seção 2.4) A Seção 2.4 descreve várias alternativas sofisticadas e úteis para o alisamento médio móvel. Os detalhes podem parecer incompletos, mas isso é bom porque não queremos ficar atolados em muitos detalhes para esses métodos. Dos métodos alternativos descritos na Seção 2.4, lowess (regressão ponderada localmente) pode ser o mais utilizado. Exemplo 2 Continuação O traçado seguinte é linha de tendência suavizada para a série de desemprego dos EUA, encontrada usando um método mais suave, em que uma quantidade substancial (23) contribuiu para cada estimativa suavizada. Observe que isso suavizou a série de forma mais agressiva do que a média móvel. Os comandos utilizados foram desempregados (desemprego, começo c (1948,1), freq12) trama (lowess (desempregado, f 23), alavanca Lowess principal da tendência de desemprego dos EUA) Suavização exponencial simples A equação de previsão básica para o alisamento exponencial único é muitas vezes Dado como hat alpha xt (1-alpha) hat t text Previstamos o valor de x no tempo t1 para ser uma combinação ponderada do valor observado no tempo t e o valor previsto no tempo t. Embora o método seja chamado de método de suavização, é usado principalmente para previsões de curto prazo. O valor de é chamado de constante de suavização. Por qualquer motivo, 0.2 é uma escolha padrão popular de programas. Isso coloca um peso de .2 na observação mais recente e um peso de 1 .2 .8 na previsão mais recente. Com um valor relativamente pequeno, o alisamento será relativamente mais extenso. Com um valor relativamente grande, o alisamento é relativamente menos extenso à medida que mais peso será colocado no valor observado. Este é um método simples de previsão de um passo para a frente que, a primeira vista, parece não exigir um modelo para os dados. De fato, esse método é equivalente ao uso de um modelo ARIMA (0,1,1) sem constante. O procedimento ideal é ajustar um modelo ARIMA (0,1,1) ao conjunto de dados observado e usar os resultados para determinar o valor de. Isso é ideal no sentido de criar o melhor para os dados já observados. Embora o objetivo seja o alisamento e a previsão um passo a frente, a equivalência ao modelo ARIMA (0,1,1) traz um bom ponto. Não devemos aplicar cegamente alisamento exponencial porque o processo subjacente pode não ser bem modelado por um ARIMA (0,1,1). ARIMA (0,1,1) e Equivalência de Suavização Exponencial Considere um ARIMA (0,1,1) com média 0 para as primeiras diferenças, xt - x t-1: start hat amp amp xt theta1 wt amp amp xt theta1 (xt - hat t) amp amp (1 theta1) xt - theta1hat tende. Se deixarmos (1 1) e assim - (1) 1, vemos a equivalência com a equação (1) acima. Por que o Método é Chamado Suavização Exponencial Isso produz o seguinte: begin hat amp amp alpha phxt (1-alpha) alfa x (1-alfa) som amplificador amp alpha xt alfa (1-alfa) x (1-alfa) 2hat fim Continuar Desta forma, substituindo sucessivamente o valor previsto no lado direito da equação. Isso leva a: hat alpha alfa (1-alpha) x alfa (1-alfa) 2 x pontos alfa (1-alfa) jx pontos alfa (1-alfa) x1 texto A equação 2 mostra que o valor previsto é uma média ponderada De todos os valores passados ​​da série, com pesos exponencialmente alternativos à medida que avançamos na série. Suavização exponencial otimizada em R Basicamente, apenas nos ajustamos a ARIMA (0,1,1) aos dados e determinamos o coeficiente. Podemos examinar o ajuste do liso, comparando os valores previstos com a série real. O suavizado exponencial tende a ser usado mais como uma ferramenta de previsão do que um verdadeiro mais suave, por isso estava olhando para ver se nós temos um bom ajuste. Exemplo 3. N 100 observações mensais do logaritmo de um índice de preços do petróleo nos Estados Unidos. A série de dados é: Um ajuste ARIMA (0,1,1) em R deu um coeficiente MA (1) 0,3877. Assim (1 1) 1.3877 e 1- -0.3877. A equação de previsão de suavização exponencial é hat 1.3877xt - 0.3877hat t No momento 100, o valor observado da série é x 100 0.86601. O valor previsto para a série naquele momento é Assim, a previsão para o tempo 101 é 1.3877x - 0.3877hat 1.3877 (0.86601) -0.3877 (0.856789) 0.8696 A seguir, o quão bem é mais adequado para a série. É um bom ajuste. Isso é um bom sinal para a previsão, o objetivo principal para este mais suave. Aqui estão os comandos usados ​​para gerar a saída para este exemplo: planilha oilindex scan (oildata. dat) (oilindex, tipo b, registro principal da série de índice de óleo) expsmoothfit arima (oilindex, order c (0,1,1)) expsmoothfit Para ver os resultados de arima previstos oilindex - linhas de gráficos preditos expsmoothfitresiduais (linhas de indexação de óleo (indexação de óleo, tipo, alinhamento exponencial principal de índice de óleo) 1.3877oilindex100-0.3877predicteds100 previsão para o tempo 101 Suavização exponencial dupla Suavização exponencial dupla pode ser usada quando há Tendência (tanto a longo prazo quanto a curto prazo), mas sem sazonalidade. Essencialmente, o método cria uma previsão combinando estimativas exponencialmente suavizadas da tendência (inclinação de uma linha reta) e do nível (basicamente, a interceptação de uma linha reta). Dois pesos diferentes, ou parâmetros de suavização, são usados ​​para atualizar esses dois componentes em cada momento. O nível suavizado é mais ou menos equivalente a um simples alisamento exponencial dos valores de dados e a tendência suavizada é mais ou menos equivalente a um alisamento exponencial simples das primeiras diferenças. O procedimento é equivalente ao encaixe de um modelo ARIMA (0,2,2), sem constante pode ser realizada com um ajuste ARIMA (0,2,2). (1-B) 2 xt (1 theta1B theta2B2) wt. A série de tempo NavigationA é uma seqüência de observações de uma variável aleatória periódica. Exemplos são a demanda mensal de um produto, a matrícula anual em um departamento da universidade e o fluxo diário de um rio. As séries temporais são importantes para a pesquisa de operações, porque muitas vezes são os impulsionadores dos modelos de decisão. Um modelo de inventário requer estimativas de demandas futuras, um modelo de planejamento de cursos e de pessoal para um departamento universitário exige estimativas de fluxo de estudantes futuros e um modelo para fornecer avisos à população em uma bacia hidrográfica requer estimativas de fluxos de rios para o futuro imediato. A análise de séries temporais fornece ferramentas para selecionar um modelo que descreva a série temporal e usando o modelo para prever eventos futuros. A modelagem das séries temporais é um problema estatístico porque os dados observados são usados ​​em procedimentos computacionais para estimar os coeficientes de um modelo suposto. Os modelos assumem que as observações variam aleatoriamente sobre um valor médio subjacente que é uma função do tempo. Nessas páginas, restringimos a atenção ao uso de dados históricos da série temporal para estimar um modelo dependente do tempo. Os métodos são apropriados para a previsão automática e de curto prazo de informações usadas com freqüência, onde as causas subjacentes da variação do tempo não estão mudando marcadamente no tempo. Na prática, as previsões derivadas por esses métodos são posteriormente modificadas por analistas humanos que incorporam informações não disponíveis a partir dos dados históricos. Nosso objetivo principal nesta seção é apresentar as equações para os quatro métodos de previsão usados ​​no suplemento de Previsão: média móvel, alisamento exponencial, regressão e suavização exponencial dupla. Estes são chamados de métodos de suavização. Métodos não considerados incluem previsões qualitativas, regressão múltipla e métodos autorregressivos (ARIMA). Os interessados ​​em uma cobertura mais extensa devem visitar o site dos Princípios de Previsão ou ler um dos vários livros excelentes sobre o assunto. Usamos o livro Forecasting. Por Makridakis, Wheelwright e McGee, John Wiley amp Sons, 1983. Para usar a pasta de exercícios Exemplos do Excel, você deve ter o suplemento Forecasting instalado. Escolha o comando Relink para estabelecer os links para o suplemento. Esta página descreve os modelos utilizados para a previsão simples e a notação utilizada para a análise. Este método de previsão mais simples é a previsão média móvel. O método é simplesmente uma média das últimas observações m. É útil para séries temporais com uma média que muda lentamente. Este método considera todo o passado em sua previsão, mas pesa mais recentemente a experiência recente do que menos recente. Os cálculos são simples porque apenas a estimativa do período anterior e os dados atuais determinam a nova estimativa. O método é útil para séries temporais com uma média que muda lentamente. O método de média móvel não responde bem a uma série de tempo que aumenta ou diminui com o tempo. Aqui, incluímos um termo de tendência linear no modelo. O método de regressão aproxima o modelo construindo uma equação linear que fornece os mínimos quadrados ajustados às últimas observações m.

No comments:

Post a Comment