• Ricardo Anselmo de Castro

DESCOBRIR DIFERENÇAS, EM POPULAÇÕES NÃO PARAMÉTRICAS

Atualizado: 6 de jul.


Por vezes, em projetos de melhoria contínua o Black Belt precisa lidar com distribuições não paramétricas, o que se traduz num desafio acrescido na identificação correta das potenciais diferenças estatisticamente significativas entre populações. O artigo pretende fornecer respostas práticas quanto à capacidade de detetar diferenças entre populações, mesmo quando não é possível calcular-se a dimensão da amostra, a priori do teste de hipóteses.


Palavras-chave: dimensão da amostra, p-value, teste de hipóteses.



Problema

Não raras vezes, o Black Belt depara-se com a situação aparentemente injusta de ter que analisar dados não paramétricos ou, de uma forma simplista, dados que não seguem uma distribuição normal. Nessas situações, quando se pretende realizar uma experiência, surge recorrentemente a dúvida: qual a dimensão da amostra a usar? Esta pergunta torna-se ainda mais relevante quando os softwares de estatística (como é o caso do Minitab) não possuem nenhum comando milagroso que indique o valor do ‘n’ (leia-se dimensão da amostra). O artigo pretende por isso dar indicações práticas e empíricas do que poderá ser um raciocínio legítimo a adotar nestes casos.



Caraterização de um caso hipotético

Usemos uma simulação para entender melhor os desafios que estão diante da equipa de melhoria contínua, e o que esta poderá fazer para os vencer. Vejamos a distribuição da figura 1. Rapidamente, e mesmo sem se recorrer a qualquer teste de hipóteses, conclui-se que os dados não seguem uma distribuição normal, devido à sua elevada assimetria. Para dar algum significado extra aos números, vamos considerar que os dados visualizados ajudam a caraterizar o que se passa num serviço de urgências, para as pessoas que, depois da triagem, recebem uma pulseira amarela. É sabido que, segundo o protocolo de Manchester estas devem ser vistas pelo médico (primeira observação) nos 60 minutos seguintes.


Fig. 1. Tempos de espera, em minutos, num serviço de urgências, para os doentes com pulseira amarela (dados fictícios).


Fig. 2. Evolução temporal dos tempos de espera, para os mesmos doentes da figura anterior.



Para caraterizarmos corretamente o processo tiramos uma fotografia aos dados e visualizamo-los no tempo (daí as duas figuras anteriores). Pode-se dizer que a tendência central (mediana), anda à volta de pouco mais de 50 minutos, mas que ainda há uma boa proporção de doentes que vão para lá dos 60 minutos (poder-se-ia ter feito um estudo de capabilidade, colocando a especificação superior - o defeito - nos 60 minutos). Observa-se ainda que pela figura 2, os dados falharam num teste de hipóteses (em quatro possíveis) e que não haverá uma estabilidade «plena». Contudo, será igualmente legítimo afirmar que não há uma violação grave quanto a este pressuposto.



Direção da solução

Admitamos que depois de alguma análise e estudos ao processo, a equipa prepara-se agora para validar que o mesmo realmente melhorou. Isto é, pretende-se implementar certas ações corretivas para então se medir novamente o processo e com isso entender se essas melhorias fazem de facto a diferença, tanto em termos operacionais, como estatísticos. Nesta fase, uma pergunta pode bem ser: qual a dimensão da amostra necessária para vermos certas diferenças? Na verdade, o leitor mais atento verificará que este tipo de pergunta pode igualmente ser colocada no decorrer da fase de análise, aquando da validação de uma causa-raiz.


Importa neste momento salientar que os dados simulados são provenientes de uma distribuição geométrica com uma probabilidade de ocorrência de 0,010. Dito de outra forma, um qualquer doente irá esperar, em média 1/0,01, ou seja, 100 minutos até ser atendido (ainda que a mediana seja de 53 minutos apenas)! Se as melhorias implementadas se traduzirem numa nova probabilidade de 0,015 então a nova média de espera do processo será 67 minutos (1/0,015). É também óbvio que se sondarmos uma população infinita, o resultado será sempre estatisticamente significativo porque 100 minutos é mesmo diferente de 67 minutos. Mas, na vida real, nunca sabemos quais os verdadeiros valores de cada população e, para que ainda consigamos chegar a conclusões de qualidade é necessário fazer algo. Vejamos então, em maior detalhe, o pensamento central que moldará a direção da solução: se duas populações são claramente distintas entre si, é esperado testemunharmos um baixo valor-p, mesmo para amostras relativamente pequenas. Mais, com alguma rapidez deveremos ver uma convergência do valor-p, à medida que efetuamos mais observações, isto é, à medida que a dimensão da amostra vai aumentando. Isto é, haverá uma dimensão amostral, para o qual o valor-p já não variará muito mais, no caso dos resultados serem estatisticamente significativos.

Fig. 3. Excerto da sequência das observações, com o valor-p respetivo.


Na tabela está um conjunto de resultados sequenciais, quanto ao desempenho do novo processo. Por exemplo, no decorrer do teste piloto, o Black Belt resolveu retirar novos valores, em grupos de 6 (tempo de espera de cada uma dessas 6 pessoas) e fazer um teste de hipóteses de Mann-Whitney, uma vez que os dados não seguem uma distribuição normal. Ou seja, calculou-se o valor-p que dita a probabilidade de termos obtido a média que obtivémos, com os primeiros 6 valores (40, 104, 54...17), no caso dos valores da baseline continuarem a representar a realidade atual (não esquecer que fizemos alterações ao processo e estamos agora à espera de ver diferenças). O valor-p respetivo foi de 0,322, isto é, não estatisticamente significativo.


Depois, deixou-se passar mais algum tempo e voltou-se a fazer um novo teste de hipóteses, agora com 12 observações. Desta vez o valor-p situou-se nos 0,112. O exercício repetiu-se mais algumas vezes para se entender se o valor-p continuaria a oscilar ou a convergir. O pressuposto aqui é que não valerá a pena recolher mais amostras quando houver uma estabilização do mesmo (e só aí se deverá retirar as conclusões da experiência realizada). Para um alfa de 5% vê-se que incorreríamos num erro tipo II (falhar em rejeitar H0) se tivéssemos parado de recolher amostras de dimensão 6 ou 12. A relativa estabilização do valor-p à volta dos 0,05 a partir das 30 observações deve deixar o Black Belt confortável para tomar a decisão de rejeitar H0.


Fig. 4. Evolução do p-value ao longo do número de observações. Na observação 36, o Black Belt toma a decisão (e bem) de rejeitar H0.


A questão seguinte é saber se as diferenças apuradas são operacionalmente relevantes. Calculemos então a mediana a cada 6 observações para estimarmos as diferenças com a baseline (figura 5). Observa-se que as diferenças rondam os 20 a 25 minutos, o que para tempos de espera iniciais de 60 minutos é um valor relativo bastante relevante (aproximadamente 1/3).


Fig. 5. Evolução das diferenças entre medianas, com a dimensão da amostra.


Repare-se ainda que não há qualquer associação entre as diferenças apuradas e o valor-p respetivo calculado, tal como se verifica na figura 6. Esta figura reforça a tese de que é sempre possível rejeitar a hipótese nula, desde que a dimensão da amostra seja suficientemente grande (às vezes «próxima» de infinita). O valor-p desta associação é de 0,696. Ou seja, não há qualquer associação entre a magnitude das diferenças observadas e o valor-p.

Fig. 6. Não há uma associação entre as diferenças dos testes e o p-value.


Fez-se ainda uma comparação com uma outra e nova população geométrica, com uma probabilidade mais próxima da baseline (pr = 0,013). Os resultados são exibidos na figura 7. Verifica-se que quando as populações começam a ser idênticas que há uma dificuldade de se rejeitar H0. Para tal acontecer será preciso aumentar drasticamente a dimensão da amostra.

Fig. 7. Até às 100.000 amostras o teste não se revelou estatisticamente significativo, embora pareça existir uma tendência para valores cada vez menores. Em termos práticos não se iria rejeitar H0.



Conclusão

O artigo pretendeu mostrar que é possível, através do senso-comum e da lógica entender se há diferenças entre populações não paramétricas, mesmo sem se saber qual a dimensão da amostra a observar, a priori da experiência. O p-value não tem uma ligação direta com as diferenças observadas entre amostras, mas com a dimensão da própria amostra. Quanto maior a dimensão da amostra, mesmo para populações não paramétricas, maior a probabilidade de se rejeitar corretamente H0 (potência do teste) e, tal como se viu no exemplo, o inverso é igualmente verdade: dimensões reduzidas podem levar à falsa conclusão de que os resultados não são estatisticamente significativos, quando na verdade a diferença real está mesmo presente (erro tipo II). Contudo, a rejeição da hipótese nula será apenas relevante quando as diferenças são operacionalmente significativas, algo que se estima a partir da diferença das medianas. Para mais informações sobre o cálculo da dimensão da amostra para populações normais consultar as referências.



REFERÊNCIAS

[1] Castro, Ricardo A. (2020) Cálculo na dimensão da amostra - Parte I


[2] Castro, Ricardo A. (2020) Cálculo na dimensão da amostra - Parte II

3 visualizações0 comentário

Posts recentes

Ver tudo