Testando a Normalidade usando SPSS Estatísticas Introdução Uma avaliação da normalidade dos dados é um pré-requisito para muitos testes estatísticos porque os dados normais são uma suposição subjacente no teste paramétrico. Existem dois métodos principais para avaliar a normalidade: graficamente e numericamente. Este guia de início rápido irá ajudá-lo a determinar se seus dados são normais e, portanto, que esta suposição é cumprida em seus dados para testes estatísticos. As abordagens podem ser divididas em dois temas principais: depender de testes estatísticos ou de inspeção visual. Os testes estatísticos têm a vantagem de fazer um julgamento objetivo da normalidade, mas são prejudicados por, por vezes, não ser sensível o suficiente em amostras de tamanhos baixos ou excessivamente sensíveis a grandes tamanhos de amostra. Como tal, alguns estatísticos preferem usar sua experiência para fazer um julgamento subjetivo sobre os dados de gráficos / gráficos. A interpretação gráfica tem a vantagem de permitir que o bom julgamento avalie a normalidade em situações em que os testes numéricos podem ser mais ou menos sensíveis, mas os métodos gráficos não têm objetividade. Se você não tem muita experiência interpretando a normalidade graficamente, provavelmente é melhor confiar nos métodos numéricos. Se pretender ser orientado através do teste de normalidade no SPSS Statistics para o teste estatístico específico que está a utilizar para analisar os seus dados, disponibilizamos guias completos no nosso conteúdo avançado. Para cada teste estatístico onde você precisa testar a normalidade, mostramos, passo a passo, o procedimento no SPSS Statistics, bem como como lidar com situações em que seus dados falham na suposição de normalidade (por exemplo, onde você pode tentar Para transformar seus dados para torná-lo normal algo que também mostrar-lhe como fazer usando SPSS Statistics). Você pode aprender sobre nosso conteúdo aprimorado em geral aqui ou como nós ajudamos com suposições aqui. No entanto, neste guia de início rápido, levamos você através dos conceitos básicos de teste de normalidade no SPSS Statistics. Estatísticas do SPSS Métodos de avaliação da normalidade O SPSS Statistics permite testar todos esses procedimentos dentro do Explore. comando. O Explorar. Comando pode ser usado de forma isolada se você estiver testando a normalidade em um grupo ou dividindo seu conjunto de dados em um ou mais grupos. Por exemplo, se você tem um grupo de participantes e você precisa saber se sua altura é normalmente distribuída, tudo pode ser feito dentro do Explore. comando. Se você dividir seu grupo em machos e fêmeas (isto é, você tem uma variável independente categórica), você pode testar a normalidade de altura tanto no grupo masculino quanto no grupo feminino usando apenas o Explorar. comando. Isso se aplica mesmo que você tenha mais de dois grupos. No entanto, se você tiver 2 ou mais variáveis categóricas independentes, o Explore. Comando por conta própria não é suficiente e você terá que usar o Split File. Comando também. SPSS Statistics Output O SPSS Statistics fornece muitas tabelas e gráficos com este procedimento. Uma das razões para isso é que o Explore. Comando não é usado apenas para o teste de normalidade, mas na descrição de dados de muitas maneiras diferentes. Ao testar a normalidade, estamos principalmente interessados na tabela de Testes de Normalidade e nos Gráficos Q-Q Normal. Nossos métodos numéricos e gráficos para testar a normalidade dos dados, respectivamente. Teste de Normalidade Shapiro-Wilk Publicado com permissão por escrito da SPSS Statistics, IBM Corporation. A tabela acima apresenta os resultados de dois testes bem conhecidos de normalidade, nomeadamente o Teste de Kolmogorov-Smirnov e o Teste de Shapiro-Wilk. O teste de Shapiro-Wilk é mais apropriado para amostras pequenas (lt 50 amostras), mas também pode lidar com tamanhos de amostra tão grandes quanto 2000. Por isso, usaremos o teste de Shapiro-Wilk como nosso meio numérico para avaliar a normalidade. Podemos ver, a partir da tabela acima, que para o grupo de cursos para principiantes, intermediários e avançados a variável dependente, Time, era normalmente distribuída. Como podemos saber isso Se o Sig. Valor do teste Shapiro-Wilk é maior que 0,05, os dados são normais. Se for inferior a 0,05, os dados desviam-se significativamente de uma distribuição normal. Se você precisa usar os valores de skewness e kurtosis para determinar a normalidade, em vez do teste de Shapiro-Wilk, você vai encontrá-los em nosso guia de normalidade. Você pode aprender mais sobre nosso conteúdo aprimorado aqui. Normal Q-Q Plot A fim de determinar a normalidade graficamente, podemos usar a saída de um normal Q-Q Plot. Se os dados forem normalmente distribuídos, os pontos de dados estarão próximos da linha diagonal. Se os pontos de dados se afastam da linha de uma maneira não linear óbvia, os dados não são normalmente distribuídos. Como podemos ver a partir do gráfico Q-Q normal abaixo, os dados são normalmente distribuídos. Se você não tem certeza de ser capaz de interpretar corretamente o gráfico, confiar nos métodos numéricos vez porque pode levar um pouco de experiência para julgar corretamente a normalidade dos dados com base em parcelas. Publicado com permissão por escrito da SPSS Statistics, IBM Corporation. Se você precisa saber o que Parcelas Normal Q-Q parecem quando distribuições não são normais (por exemplo, negativamente inclinado), você vai encontrá-los no nosso guia de teste de normalidade. Você pode aprender mais sobre nosso conteúdo aprimorado aqui. Bem-vindo ao Instituto de Pesquisa Digital e Educação Stata FAQ Como posso fazer um diagrama de dispersão com linha de regressão no Stata Stata torna muito fácil criar um diagrama de dispersão e linha de regressão usando o comando gráfico twoway. Vamos ilustrar isso usando o arquivo de dados hsb2. Aqui nós podemos fazer um scatterplot das variáveis escrever com read Podemos também mostrar um gráfico mostrando os valores previstos de write by read como mostrado abaixo. Tendo visto como fazer estes separadamente, podemos sobrepor-los em um gráfico como mostrado abaixo. E podemos até mostrar o valor ajustado com um intervalo de confiança para a média como mostrado abaixo. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Uma maneira realmente boa de encontrar periodicidade em qualquer série regular de dados é inspecionar seu espectro de energia após Eliminando qualquer tendência geral. A remoção preliminar da tendência (e diferenciação opcional para remover a correlação serial) é essencial para evitar períodos de confusão com outros comportamentos. O espectro de potência é a transformada de Fourier discreta da função de autocovariância de uma versão apropriadamente suavizada da série original. Se você pensar nas séries temporais como amostragem de uma forma de onda física, você pode estimar quanto da potência total das ondas é transportada dentro de cada freqüência. O espectro de potência (ou periodograma) representa a potência versus a frequência. Cíclicos (isto é, padrões repetitivos ou sazonais) aparecerão como grandes picos localizados em suas freqüências. Como exemplo, considere esta série temporal (simulada) de resíduos de uma medição diária tomada por um ano (365 valores). Os valores flutuam em torno de 0 sem quaisquer tendências evidentes, mostrando que todas as tendências importantes foram removidas. A flutuação parece aleatória: nenhuma periodicidade é aparente. Heres outro lote dos mesmos dados, desenhado para nos ajudar a ver possíveis padrões periódicos. Se você olhar realmente difícil, você pode ser capaz de discernir um padrão ruidoso, mas repetitivo que ocorre 11 a 12 vezes. As sequências longas de valores acima de zero e abaixo de zero sugerem pelo menos alguma autocorrelação positiva, mostrando que esta série não é completamente aleatória. Aqui está o periodograma, mostrado para freqüências de até 91 (um quarto do comprimento total da série). Foi construído com uma janela de Welch e normalizado à área da unidade (para o periodogram inteiro, não apenas a parte mostrada aqui). O poder parece ruído branco (pequenas flutuações aleatórias) mais dois picos proeminentes. Eles são difíceis de perder, não são maiores. O maior ocorre em um período de 12 eo menor em um período de 52. Este método tem assim detectado um ciclo mensal e um ciclo semanal nestes dados. Isso é realmente tudo o que há para ele. Para automatizar a detecção de ciclos (sazonalidade), basta verificar o periodograma (que é uma lista de valores) para máximos locais relativamente grandes. É hora de revelar como esses dados foram criados. Os valores são gerados a partir de uma soma de duas ondas senoidais, uma com frequência 12 (de amplitude quadrada 3/4) e outra com frequência 52 (de amplitude quadrática 1/4). Estes são o que os picos no periodograma detectado. Sua soma é mostrada como a espessa curva preta. Iid O ruído normal de variância 2 foi então adicionado, como mostrado pelas barras cinzentas claras que se estendem desde a curva preta até os pontos vermelhos. Este ruído introduziu os wiggles de baixo nível na parte inferior do periodograma, que de outra forma seria apenas um 0. O total de dois terços da variação total dos valores é não periódica e aleatória, o que é muito ruidoso: é por isso que a sua Tão difícil de distinguir a periodicidade apenas olhando para os pontos. No entanto (em parte porque há tantos dados) encontrar as freqüências com o periodograma é fácil eo resultado é claro. Instruções e bons conselhos para periodogramas de computação aparecem no site Numerical Recipes: procure a seção sobre estimativa do espectro de potência usando a FFT. R tem código para estimativa de periodograma. Essas ilustrações foram criadas no Mathematica 8, o periodograma foi computado com sua função de Fourier. A assumptionquotafter a remoção de qualquer trendquotis geral do calcanhar de Aquiles, como pode haver muitas tendências de tempo, muitas mudanças de nível, todos os quais foram excluídos em seu exemplo. A idéia de que as séries de entrada são deterministas na natureza voa no Face à possível presença de estrutura sazonal e regular da ARIMA. Os Valores Únicos Incomuns não-tratados distorcerão qualquer esquema de identificação baseado em periodograma devido a uma tendência descendente para as estimativas do periodograma que produzem não significância. Se os efeitos semanais e / ou mensais mudaram em algum ponto no passado, o procedimento baseado no periodograma falharia ndash IrishStat Sep 29 11 at 0:06 Irlandês Eu acho que seu comentário pode exagerar um pouco. É mais elementar para procurar e tratar quotUnusual One-Time Valuesquot (aka outliers), por isso só vale a pena mencionar para enfatizar que alguns estimadores de séries temporais podem ser sensíveis a outliers. O termo "determinista", em detrimento da natureza, desvirtua as idéias básicas: ninguém supõe que haja determinismo (como evidenciado pela enorme quantidade de ruído na simulação). A simulação incorpora um sinal periódico definido como modelo - sempre aproximado na realidade - apenas para ilustrar a conexão entre o periodograma ea sazonalidade. Sim, mudanças na sazonalidade podem obscurecer o periodograma (e o acf, etc.), especialmente mudanças na freqüência (improvável) ou na fase (possível). As referências no meu post dar uma solução para lidar com isso: eles recomendam o uso de uma janela em movimento para estimativa periodograma. Há uma arte para isso, e claramente há armadilhas, de modo que muita análise de séries de tempo vai beneficiar de tratamento especializado, como você defende. Mas a questão pergunta se existem outros métodos para detectar sazonalidade e, inegavelmente, o periodograma é uma opção estatisticamente poderosa, computacionalmente eficiente e facilmente interpretável. Ndash whuber 9830 Sep 29 11 at 16:46 No meu mundo usando senos / cosenos são efeitos quotdeterministicquot muito como mês do ano indicadores. O ajuste de qualquer modelo pré-especificado restringe os valores ajustados a um padrão especificado pelo usuário, muitas vezes sub-padrão. Os dados devem ser quotlistened para ajudar o analista / software de computador avançado discernir efetivamente entre entradas fixas e estocásticas n. b. Refiro-me a ARIMA retarda as estruturas como quotdrivers estocásticos ou adaptáveis como os valores ajustados ajustar / adaptar-se a mudanças na história da série. Na minha opinião a utilização do periodograma quotoversellsquot simples modelagem estatística ndash IrishStat Sep 29 11 at 17:44 whuber Repetindo a mesma coisa pode não ser útil. No entanto, pode ser bom também para corrigir o parágrafo abaixo do periodograma para dizer que os picos estão localizados em uma quotfrequency ofquot 12 e 52 vezes por ano, e não quotperiod dequot. Corrigir o enredo também para dizer quotfrequencyquot em vez de quotperiodquot pode ser agradável também se você acha que não é muito irritante. Ndash Celelibi 11 de outubro at 15:29 A sazonalidade pode e muitas vezes muda ao longo do tempo, assim, as medidas sumárias podem ser bastante inadequadas para detectar a estrutura. É necessário testar a transitoriedade nos coeficientes ARIMA e, muitas vezes, mudanças nos manequins sazonais. Por exemplo, em um horizonte de 10 anos pode ter havido efeito de junho para os primeiros k anos, mas nos últimos 10 k anos há evidências de um efeito de junho. Um efeito composto simples de junho pode não ser significativo, pois o efeito não foi constante ao longo do tempo. De forma semelhante, um componente ARIMA sazonal pode também ter mudado. Deve-se ter cuidado para incluir mudanças de nível local e / ou tendências de tempo locais, assegurando ao mesmo tempo que a variância dos erros permaneceu constante ao longo do tempo. Não se deve avaliar transformações como GLS / mínimos quadrados ponderados ou transformações de potência como logs / raízes quadradas, etc. sobre os dados originais, mas sobre os erros de um modelo tentativo. As suposições gaussianas não têm nada a ver com os dados observados, mas tudo a ver com os erros do modelo. Isso se deve aos pressupostos dos testes estatísticos que utilizam a razão de uma variável chi-quadrada não-central para uma variável chi-quadrado central. Se você quis postar uma série do exemplo de seu mundo eu estaria contente de fornecer-lhe ea lista uma análise completa que conduz à deteção da estrutura seasonal. Respondeu Sep 27 11 at 18:36 Charlies resposta é boa, e é onde começar Id. Se você não quiser usar gráficos ACF, você pode criar k-1 variáveis dummy para os k períodos de tempo presentes. Então você pode ver se as variáveis dummy são significativas em uma regressão com as variáveis dummy (e provavelmente um termo de tendência). Se os seus dados são trimestrais: o manequim Q2 é 1 se este é o segundo trimestre, senão 0 manequim Q3 é 1 se este é o terceiro trimestre, senão 0 manequim Q4 é 1 se este é o quarto trimestre, senão 0 Nota trimestre 1 é o Caso base (todos os 3 dummies zero) Você pode querer verificar também a decomposição de séries temporais no Minitab - muitas vezes chamado de decomposição clássica. No final, você pode querer usar algo mais moderno, mas este é um lugar simples para começar. Eu sou um pouco novo para R eu mesmo, mas a minha compreensão da função ACF é que se a linha vertical vai acima da linha tracejada superior ou abaixo da linha tracejada inferior, há alguma autorregressão (incluindo a sazonalidade) . Tente criar um vetor de seno. Ajustar senos / cosenos etc pode ser útil para algumas séries de tempo física / elétrica, mas você deve estar ciente de MSB. Modelo de Especificação Bias. Ndash IrishStat Sep 28 11 at 14:31 Autoregression não implica sazonalidade. Ndash Jens Nov 22 13 em 12:32 Sua resposta 2017 Stack Exchange, Inc
No comments:
Post a Comment