COMO RETIRAR VALOR DOS TESTES DE HIPÓTESES?

Ricardo Anselmo de Castro
14 de jun. de 2022
4 min de leitura

Atualizado: 22 de jul. de 2022

O artigo pretende dar uma outra perspetiva sobre alguns conceitos de inferência estatística que costumam causar alguma confusão aos Black Belts.

Palavras-chave: valor-p, potência, amostra, teste de hipóteses.

Enquadramento

Imagine que criamos 8 amostras, todas elas provenientes da mesma população. O valor médio obtido em cada uma das 8 amostras é igual a 15,374. A diferença entre elas assenta, essencialmente, na sua própria dimensão. Assim, a amostra n10 tem 10 observações, a amostra n20 tem 20 observações, e por aí fora (ver figura 01).

Se, por exemplo, tivermos interesse em saber se a população diverge de um valor nominal (por exemplo 15,900) podemos proceder a um teste de hipóteses específico para cada uma das amostras. Depois de estarem garantidos certos pressupostos, o que acontecerá se fizermos um teste para cada uma das amostras (n10 a n80)? Ainda que o seu valor médio seja o mesmo (15,374) será que as conclusões vão ser as mesmas?

Fig. 01. Valores-p para cada amostra, segundo um teste bilateral t-student.

Problema

A tabela anterior dá-nos os resultados em função de cada amostra. Recordemos a definição de valor-p: trata-se da probabilidade de obtermos o resultado que obtivemos (neste caso uma média de 15,374 em cada uma das amostras e para uma certa dimensão) ou um resultado mais extremo, no caso da hipótese nula ser verdadeira. Se estamos a comparar com um valor de referência (15,900) e o valor médio foi de 15,374 então um valor mais extremo seria 15,2 ou 15,0 ou 14,8 porque nos estaríamos a afastar cada vez mais do valor de referência. Por outras palavras, quanto menor ele for, menor a probabilidade de estarmos a rejeitar incorretamente a hipótese inicial, ou seja, de que a média da população vale 15,900. Por exemplo, com uma amostra de 50 observações há uma probabilidade de 2,3% de estarmos a rejeitar incorretamente a hipótese nula.

Pela tabela vemos que quanto maior for a dimensão da amostra, menor o valor-p. Ou seja, mesmo para um delta constante e neste caso igual a 0,526 (15,900 – 15,374), a evolução do valor-p é sempre no sentido de ser cada vez menor, com dimensões de amostras cada vez maiores. Dito de outra maneira, pelo menos num plano teórico é sempre possível rejeitar a hipótese nula, bastando para isso aumentar a dimensão da amostra, nem que se tenha de ir até ao infinito.

Parece que acabámos de ficar à mercê dos números e a dúvida permanece: devemos ou não rejeitar a hipótese nula? Se a dimensão for de 10 observações a resposta é não, mas se for de 70 ou 80 a resposta passa a ser um sim redondo.

Para pôr as coisas em perspetiva e não perdermos o sentido prático, vejamos antes demais a figura seguinte. Ela é uma extensão da tabela anterior, após o estudo de duas hipóteses nulas adicionais (adicionámos mais dois valores de referência – 15,800 e 16,000).

Fig. 02. Valores-p para diferentes deltas e dimensões de amostra.

O que esta figura nos mostra é que quanto maior o valor do delta, menores os valores-p, para uma mesma dimensão de amostra (é mais fácil rejeitar H0 quando as diferenças são maiores e vice-versa). Talvez isto nos ajude então a concluir o seguinte:

a primeira pergunta que o experimentador deve fazer não é sobre que dimensão de amostra usar, mas sobre que diferenças procurar! É isso que conta. Só depois é que se irá calcular a dimensão da amostra respetiva.

Vamos concretizar. Supondo que os valores relatados até aqui se referem ao diâmetro de um furo. Seja o valor nominal desse furo de 16 mm. Para o experimentador, as coisas só passam a ser relevantes ou importantes se houver desvios superiores a 0,5mm (abaixo de 15,5mm ou acima de 16,5mm). Isto significa que o experimentador não está interessado em encontrar diferenças inferiores a 0,5mm mesmo que elas existam, porque isso não tem impacto no negócio. Por outras palavras, está-se à procura de diferenças superiores a 0,5mm. Este delta é, se quisermos, a resolução ou a granulosidade que a experiência deve ter. Queremos colocar a estatística ao serviço do negócio e não o negócio ao serviço da estatística. Se o delta for de 0,524 (vamos usar este número por conveniência, mas sem perda do racional), o que o experimentador procurará saber, antes de realizar qualquer experiência é:

Se estou interessado em detetar deltas superiores a 0,524, qual deve ser a dimensão da amostra a usar, para que haja uma probabilidade de 80% de se conseguir detetar essa diferença, no caso de existir mesmo essa diferença?

A esta probabilidade dá-se o nome potência do teste - a capacidade do teste rejeitar corretamente a hipótese nula. A figura seguinte dá a resposta à pergunta colocada:

Fig. 03. Os pontos representam uma potência de 0.80, para uma certa dimensão de amostra e um certo delta.

São necessárias 75 observações para se conseguir observar com uma probabilidade de 0,80 as diferenças de 0,526 (no caso de estas existirem). Compare-se com os resultados da figura 02 e vemos que com 70 ou 80 observações o valor-p ficou bem abaixo de 0,05 para a diferença reportada. Para termos a certeza que entendemos como os testes de hipóteses funcionam vamos desenhar uma curva de potência colocando a pergunta anterior ao contrário:

Se mantivéssemos uma dimensão de amostra de 10, qual a probabilidade de conseguirmos rejeitar H0, no caso dos valores de referência serem 15.800 ou 15.900 ou 16.000?

Fig. 04. Os pontos representam uma potência de X, para uma amostra de n=10 e um certo delta.

O gráfico diz-nos claramente que a probabilidade de virmos a rejeitar H0 nas condições referidas é muito baixa. Recuperando uma vez mais a figura 02, vemos que os três valores-p ficaram, para n10, bem acima de alfa, o nível de significância habitual de 5%. Ou seja, H0 manter-se-ia.

Conclusão

É sempre possível rejeitar H0. Basta para isso aumentar a dimensão da amostra até ao infinito. Logo, perguntar qual deve ser a dimensão da amostra, sem primeiro se definir a diferença que pretendemos encontrar (delta) faz muito pouco sentido.

REFERÊNCIAS

[1] Castro, Ricardo A. (2012) Lean Six Sigma – para qualquer negócio. IST Press.

cliente.primeiro@inercia-mn.com

CONSULTORIA DE GESTÃO
MELHORIA CONTÍNUA

COMO RETIRAR VALOR DOS TESTES DE HIPÓTESES?

Enquadramento

Problema

Conclusão

Posts recentes

Comentários