Test The Difference Between Two Means In Stata Forex
Comparação de dois meios Em muitos casos, um pesquisador é interessante na coleta de informações sobre duas populações para compará-las. Como na inferência estatística para um parâmetro de população, os intervalos de confiança e os testes de significância são ferramentas estatísticas úteis para a diferença entre dois parâmetros populacionais. Intervalo de confiança para a diferença entre dois meios Um intervalo de confiança para a diferença entre dois meios especifica um intervalo de valores dentro dos quais a diferença entre os meios das duas populações pode ser. Esses intervalos podem ser calculados, por exemplo, por um produtor que deseja estimar a diferença na saída diária média de duas máquinas, um pesquisador médico que deseja estimar a diferença na resposta média por pacientes que estão recebendo dois medicamentos diferentes, etc. O intervalo de confiança Pois a diferença entre dois meios contém todos os valores de (-) (a diferença entre os dois meios de população) que não seria rejeitada no teste de hipóteses de dois lados de H 0. Contra H a. . Isto é, H 0. - 0 contra H a. - 0. Se o intervalo de confiança inclui 0, podemos dizer que não há diferença significativa entre os meios das duas populações, em um determinado nível de confiança. (Definição tirada de Valerie J. Easton e John H. McColls Statistics Glossary v1.1) Testes de significância para dois meios desconhecidos e desvios padrão conhecidos Dadas amostras de duas populações normais de tamanho n 1 e n 2 com meios desconhecidos e padrão conhecido Desvios e. A estatística de teste comparando os meios é conhecida como a estatística z de duas amostras. A hipótese nula sempre pressupõe que os meios são iguais, enquanto a hipótese alternativa pode ser unilateral ou dupla. Testes de significância para dois meios desconhecidos e desvios padrão desconhecidos Em geral, os desvios-padrão da população não são conhecidos e são estimados pelos valores calculados s 1 e s 2. Neste caso, a estatística de teste é definida pela estatística t de duas amostras. Embora a estatística de duas amostras não acompanhe exatamente a distribuição t (uma vez que dois desvios padrão são estimados na estatística), os valores conservados de P podem ser obtidos usando o Distribuição t (k) onde k representa o menor de n 1 -1 e n 2 -1. Outra opção é estimar os graus de liberdade através de um cálculo a partir dos dados, que é o método geral usado pelo software estatístico, como o MINITAB. O intervalo de confiança para a diferença em meios - é dado por onde t é o valor crítico superior (1- C) 2 para a distribuição t com k graus de liberdade (com k igual ao menor de n 1 -1 e n 1 -2 ou os graus de liberdade calculados). O conjunto de dados da temperatura corporal normal, gênero e freqüência cardíaca contém 130 observações de temperatura corporal, juntamente com o gênero de cada indivíduo e sua freqüência cardíaca. No conjunto de dados, a primeira coluna dá temperatura corporal e a segunda coluna dá o valor 1 (masculino) ou 2 (fêmea) para descrever o gênero de cada assunto. O uso do comando MINITAB DESCRIBE com o subcomando BY para separar os dois gêneros fornece as seguintes informações: Existe uma diferença significativa entre as temperaturas médias do corpo para homens e mulheres Para testar H 0. - 0 contra H a. - 0, computa a estatística de teste (98.105 - 98.394) (sqrt (0.699sup265 0.743sup265)) -0.2890.127 -2.276. Usando a distribuição t (64), estimada na Tabela E em Moore e McCabe pela distribuição t (60), vemos que 2 P (t gt 2.276) está entre 0,04 e 0,02, indicando uma diferença significativa entre os meios no 0,05 Nível (embora não no nível de 0,01). Para calcular um intervalo de confiança 95, primeiro observamos que o valor crítico 0,025 t para a distribuição t (60) é 2.000, dando o intervalo ((98.105 - 98.394) 2.0000.127) (-0.289 - 0.254, -0.289 0.254) ( -0,543, -0,045). O valor 0 não está incluído no intervalo, indicando novamente uma diferença significativa no nível de 0,05. Realizar esse teste no MINITAB usando o comando TWOT dá os resultados. Embora os graus de liberdade calculados pelo MINITAB (127) sejam muito superiores à estimativa conservadora de 64, verificamos que os resultados são muito iguais. Fonte de dados: dados apresentados em Mackowiak, P. A. Wasserman, S. S. e Levine, M. M. (1992), uma avaliação crítica de 98,6 graus F, o limite superior da temperatura corporal normal e outros legados de Carl Reinhold August Wunderlich, Journal of the American Medical Association. 268, 1578-1580. Dataset disponível através do arquivo de conjunto de dados JSE. Procedimentos em comum Se for razoável supor que duas populações tenham o mesmo desvio padrão, pode ser usado um procedimento alternativo conhecido como procedimento t combinado em vez do procedimento geral de duas amostras t. Uma vez que apenas um desvio padrão deve ser estimado neste caso, a estatística de teste resultante seguirá exatamente uma distribuição t com n 1 n 2 - 2 graus de liberdade. O estimador combinado da variância é usado na estatística t de duas amostras agrupadas. No exemplo de temperatura corporal acima, os desvios padrão da amostra para os indivíduos do sexo masculino e feminino são razoáveis perto. O uso do subcomando MINITAB POOLED com o teste t de duas amostras dá os seguintes resultados: os resultados do teste foram quase idênticos neste caso. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Annotated Output T-test O comando ttest executa t-tests para Uma amostra, duas amostras e observações pareadas. O teste t de amostra única compara a média da amostra com um número determinado (o qual você fornece). O teste t de amostras independentes compara a diferença nos meios dos dois grupos com um valor determinado (geralmente 0). Em outras palavras, ele prova se a diferença nos meios é 0. O teste-teste dependente ou emparelhado compara a diferença nos meios das duas variáveis medidas no mesmo conjunto de assuntos para um dado número (geralmente 0), Tendo em conta o fato de que as pontuações não são independentes. Em nossos exemplos, usaremos o conjunto de dados hsb2. Teste simples de amostra t O teste t de amostra única testa a hipótese nula de que a média da população é igual ao número especificado especificado usando a opção de escrita. Para este exemplo, vamos comparar a média da variável escrever com um valor pré-selecionado de 50. Na prática, o valor contra o qual a média é comparada deve basear-se em considerações teóricas e pesquisas anteriores. Stata calcula a estatística t e seu p-valor sob o pressuposto de que a amostra vem de uma distribuição aproximadamente normal. Se o valor p associado à t-test for pequeno (0,05 é freqüentemente usado como o limite), há evidências de que a média é diferente do valor da hipótese. Se o p-valor associado à t-test não for pequeno (p gt 0.05), a hipótese nula não é rejeitada e você pode concluir que a média não é diferente do valor da hipótese. Neste exemplo, a estatística t é 4.1403 com 199 graus de liberdade. O correspondente valor de pata de duas colunas é .0001, que é inferior a 0,05. Concluímos que a média de escrita variável é diferente de 50. Estatísticas de resumo a. Variável - Esta é a variável para a qual o teste foi conduzido. B. Obs - O número de observações válidas (ou seja, não faltantes) usadas no cálculo da prova t. C. Média - Esta é a média da variável. D. Std. Errar. - Este é o desvio padrão estimado da média da amostra. Se desenharmos amostras repetidas de tamanho 200, esperamos que o desvio padrão da amostra seja próximo do erro padrão. O desvio padrão da distribuição da média da amostra é estimado como o desvio padrão da amostra dividido pela raiz quadrada do tamanho da amostra: 9.478586 (sqrt (200)) .6702372. E. Std. Dev. - Este é o desvio padrão da variável. F. Intervalo de Confiança 95 - Estes são o limite inferior e superior do intervalo de confiança para a média. Um intervalo de confiança para a média especifica uma gama de valores dentro dos quais o parâmetro de população desconhecida, neste caso a média, pode mentir. É dado por onde s é o desvio de amostra das observações e N é o número de observações válidas. O valor t na fórmula pode ser calculado ou encontrado em qualquer livro de estatística com os graus de liberdade sendo N-1 e o valor p é 1- alfa 2, onde alfa é o nível de confiança e, por padrão, é .95. Estatísticas de teste g. Significa - este é o meio que está sendo testado. Neste exemplo, é o meio de escrever. H. T - Esta é a estatística t de Student. É a proporção da diferença entre a média da amostra e o número dado para o erro padrão da média: (52.775 - 50) .6702372 4.1403. Uma vez que o erro padrão das medidas médias a variabilidade da amostra significa, quanto menor for o erro padrão da média, mais provável é que a nossa amostra seja próxima da verdadeira média da população. Isto é ilustrado pelas três figuras a seguir. Nos três casos, a diferença entre a população significa é a mesma. Mas com grande variabilidade de meios de amostra, segundo gráfico, duas populações se sobrepõem muito. Portanto, a diferença pode vir por acaso. Por outro lado, com pequena variabilidade, a diferença é mais clara como no terceiro gráfico. Quanto menor o erro padrão da média, maior a magnitude do valor t e, portanto, menor o valor p. Eu. Ho - Esta é a hipótese nula que está sendo testada. O teste t de amostra única avalia a hipótese nula de que a média da população é igual ao número dado. J. Graus de liberdade - Os graus de liberdade para a prova de amostra única são simplesmente o número de observações válidas menos 1. Perdemos um grau de liberdade porque estimamos a média da amostra. Utilizamos algumas das informações dos dados para estimar a média, portanto, não está disponível para uso para o teste e as contas de graus de liberdade para isso. K. Pr (T lt t), Pr (Tgt t) - Estes são os valores p de unilatação avaliando o nulo contra as alternativas que a média é inferior a 50 (teste à esquerda) e superior a 50 (teste correto). Essas probabilidades são computadas usando a distribuição t. Novamente, se o valor de p for menor do que o nível alfa pré-especificado (geralmente 0,05 ou 0,01), concluiremos que a média é significativamente maior ou menos do que o valor hipotético nulo. eu. Pr (Tgt t) - Este é o valor p de duas colas avaliando o nulo contra uma alternativa que a média não é igual a 50. É igual à probabilidade de observar um valor absoluto maior de t sob a hipótese nula. Se o valor p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01, aqui o primeiro), concluiremos que a média é estatisticamente significativamente diferente de zero. Por exemplo, o valor de p para gravação é menor do que 0,05. Então, concluímos que a média para escrever é diferente de 50. Teste t pareado Um teste t pareado (ou quotdependentquot) é usado quando as observações não são independentes uma da outra. No exemplo abaixo, os mesmos alunos fizeram o teste de escrita e de leitura. Portanto, você esperaria que houvesse um relacionamento entre as pontuações fornecidas por cada aluno. O teste de t pareado é responsável por isso. Para cada aluno, estamos essencialmente olhando as diferenças nos valores das duas variáveis e testando se a média dessas diferenças é igual a zero. Neste exemplo, a estatística t é 0.8673 com 199 graus de liberdade. O correspondente valor p de duas colunas é 0.3868, que é superior a 0,05. Concluímos que a diferença média de escrita e leitura não é diferente de 0. Estatísticas de resumo a. Variável - Esta é a lista de variáveis utilizadas no teste. B. Obs - O número de observações válidas (ou seja, não faltantes) usadas no cálculo da prova t. C. Média - Esta é a lista dos meios das variáveis. A última linha mostra a diferença simples entre os dois meios. D. Std. Errar. - Este é o desvio padrão estimado da média da amostra. Se desenharmos amostras repetidas de tamanho 200, esperamos que o desvio padrão da amostra seja próximo do erro padrão. O desvio padrão da distribuição da média da amostra é estimado como o desvio padrão da amostra dividido pela raiz quadrada do tamanho da amostra. Isso fornece uma medida da variabilidade da média da amostra. O Teorema do Limite Central nos diz que os meios da amostra são aproximadamente normalmente distribuídos quando o tamanho da amostra é 30 ou maior. E. Std. Dev. - Este é o desvio padrão da variável. A última linha exibe o desvio padrão para a diferença que não é igual à diferença de desvios padrão para cada grupo. F. Intervalo de Confiança 95 - Estes são o limite inferior e superior do intervalo de confiança para a média. Um intervalo de confiança para a média especifica uma gama de valores dentro dos quais o parâmetro de população desconhecida, neste caso a média, pode mentir. É dado por onde s é o desvio de amostra das observações e N é o número de observações válidas. O valor t na fórmula pode ser calculado ou encontrado em qualquer livro de estatística com os graus de liberdade sendo N-1 e o valor p é 1- alfa 2, onde alfa é o nível de confiança e, por padrão, é .95. Teste de estatística significa (diff) mean (write-read) gt 0.8673 h Ho: média (diff) 0 graus de liberdade 199 i Ha: média (diff) lt 0 k Ha: média (diff) 0 j Ha: média (diff) Gt 0 k Pr (T lt t) 0,8066 Pr (Tgt t) 0,3868 Pr (T gt t) 0,1934 g. Média (diff) média (var1 - var2) - A prova t para grupos dependentes forma uma única amostra aleatória da diferença combinada, que funciona como um teste de amostra aleatória simples. A interpretação de t-value e p-value é a mesma que no caso da amostra aleatória simples. H. T - Esta é a estatística t. É a proporção da média da diferença para o erro padrão da diferença (.545.6283822). Eu. Graus de liberdade - os graus de liberdade para as observações pareadas são simplesmente o número de observações menos 1. Isso ocorre porque o teste é conduzido na amostra de uma das diferenças em pares. J. Pr (Tgt t) - Este é o p-valor de duas colunas computado usando a distribuição t. É a probabilidade de observar um valor absoluto maior de t sob a hipótese nula. Se o valor p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01, aqui o primeiro), concluiremos que a diferença média entre escrever e ler é estatisticamente significativamente diferente de zero. Por exemplo, o valor de p para a diferença entre escrever e ler é superior a 0,05, portanto, concluímos que a diferença média não é estatisticamente significativamente diferente de 0. k. Pr (T lt t), Pr (Tgt t) - Estes são os valores de pata unilateral para avaliar as alternativas (valor médio de lt H0) e (valor médio de gt H0), respectivamente. Como Pr (Tgt t). Eles são computados usando a distribuição t. Novamente, se o valor p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01), concluiremos que a diferença média é estatisticamente significativamente maior ou menor que zero. Teste de grupo independente t Este teste t é projetado para comparar médias da mesma variável entre dois grupos. No nosso exemplo, comparamos o escore médio de escrita entre o grupo de estudantes do sexo feminino e o grupo de estudantes do sexo masculino. Idealmente, esses assuntos são selecionados aleatoriamente de uma população maior de assuntos. O teste pressupõe que as variações para as duas populações são as mesmas. A interpretação para p-value é a mesma que em outros tipos de testes t. Neste exemplo, a estatística t é -3.7341 com 198 graus de liberdade. O correspondente p-valor de duas colunas é 0.0002, que é inferior a 0.05. Concluímos que a diferença de meios na escrita entre machos e fêmeas é diferente de 0. Estatísticas resumidas a. Grupo - Esta coluna fornece categorias da variável independente, no nosso caso feminino. Essa variável é especificada pela instrução by (female). B. Obs - Este é o número de observações válidas (ou seja, não faltando) em cada grupo. C. Média - Esta é a média da variável dependente para cada nível da variável independente. Na última linha, a diferença entre os meios é dada. D. Std Err - Este é o erro padrão da média para cada nível da variável independente. E. Std Dev - Este é o desvio padrão da variável dependente para cada um dos níveis da variável independente. Na última linha, o desvio padrão para a diferença é dado. F. 95 Conf. Intervalo - Estes são os limites de confiança inferior e superior dos meios. Teste de estatística diff mean (masculino) - média (fêmea) gt -3.7341 h Ho: diff 0 graus de liberdade 198 i Ha: diff lt 0 k Ha: diff 0 j Ha: diff gt 0 k Pr (T lt t) 0.0001 Pr (T gt t) 0,0002 Pr (T gt t) 0,9999 g. Diferença média (masculino) - média (feminino) - O teste t compara os meios entre os dois grupos, sendo a hipótese nula que a diferença entre os meios é zero. H. T - Esta é a estatística t. É a razão da média da diferença para o erro padrão da diferença: (-4.8699471.304191). Eu. Graus de liberdade - os graus de liberdade para as observações pareadas são simplesmente o número de observações menos 2. Utilizamos um grau de liberdade para estimar a média de cada grupo e, por haver dois grupos, subtrai dois graus de liberdade. J. Pr (Tgt t) - Este é o p-valor de duas colunas computado usando a distribuição t. É a probabilidade de observar um valor absoluto maior de t sob a hipótese nula. Se o valor p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01, aqui o primeiro), concluiremos que a média é estatisticamente significativamente diferente de zero. Por exemplo, o valor de p para a diferença entre fêmeas e machos é inferior a 0,05, portanto, concluímos que a diferença nos meios é estatisticamente significativamente diferente de 0. k. Pr (T lt t), Pr (Tgtt) - Estes são os valores p de uma união para as hipóteses alternativas (diferença média lt 0) e (diferença média gt 0), respectivamente. Como Pr (Tgt t). Eles são computados usando a distribuição t. Como de costume, se o valor de p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01), concluiremos que a média é estatisticamente significativamente maior ou menor do que zero. Prova independente de T de amostra assumindo variâncias desiguais Vamos novamente comparar os meios da mesma variável entre dois grupos. No nosso exemplo, comparamos o escore médio de escrita entre o grupo de estudantes do sexo feminino e o grupo de estudantes do sexo masculino. Idealmente, esses assuntos são selecionados aleatoriamente de uma população maior de assuntos. Nós assumimos anteriormente que as variações para as duas populações são as mesmas. Aqui, vamos permitir variações desiguais em nossas amostras. A interpretação para p-value é a mesma que em outros tipos de testes t. Neste exemplo, a estatística t é -3.6564 com 169.707 graus de liberdade. O correspondente valor de pata de duas colunas é 0.0003, que é inferior a 0.05. Concluímos que a diferença de meios na escrita entre homens e mulheres é diferente de 0, permitindo diferenças em variâncias entre os grupos. Estatística de resumo a. Grupo - A lista de grupos cujos meios estão sendo comparados. B. Obs. - Este é o número de observações válidas (ou seja, não faltando) de cada grupo, bem como o combinado. C. Média - Esta é a média da variável de interesse para cada grupo que estamos comparando. Na terceira linha é dada a média combinada e na última linha é dada a diferença entre os meios. D. Std. Errar. - Este é o erro padrão da média. E. Std. Dev. - Este é o desvio padrão da variável dependente para cada um dos grupos. F. 95 Intervalo de confiança - Estes são os limites inferior e superior para o intervalo de confiança 95 da média para cada um dos grupos. Estatísticas de teste g. Diff - Este é o valor que estamos testando: a diferença nos meios do grupo masculino e do grupo feminino. H. T - Esta é a estatística t. É a estatística de teste que usaremos para avaliar nossa hipótese. É a relação entre a média e o erro padrão da diferença dos dois grupos: (-4.8699471.331894). Eu. Satterthwaites graus de liberdade - Satterthwaites é uma maneira alternativa de calcular os graus de liberdade que leva em consideração que as variâncias são assumidas como desiguais. É uma abordagem mais conservadora do que usar os tradicionais graus de liberdade. Estes são os graus de liberdade sob este cálculo. J. Pr (Tgt t) - Este é o p-valor de duas colunas computado usando a distribuição t. É a probabilidade de observar um valor absoluto maior de t sob a hipótese nula. Se o valor p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01, aqui o primeiro), concluiremos que a diferença nos meios é estatisticamente significativamente diferente de zero. Por exemplo, o valor de p para a diferença entre fêmeas e machos é inferior a 0,05, portanto, concluímos que a diferença nos meios é estatisticamente significantemente diferente de 0. l. Pr (T lt t), Pr (Tgt t) - Estes são os valores p de uma união para as hipóteses alternativas (diferença lt 0) e (diferença gt 0), respectivamente. Como Pr (Tgt t). Eles são computados usando a distribuição t. Como de costume, se o valor de p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01), concluiremos que a média é estatisticamente significativamente maior ou menor do que zero. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.
Comments
Post a Comment