CÁLCULO DA DIMENSÃO DE UMA AMOSTRA – PARTE I

Ricardo Anselmo de Castro
15 de abr. de 2022
5 min de leitura

Atualizado: 6 de jul. de 2022

O artigo pretende operacionalizar os conceitos do cálculo da dimensão de uma amostra, para dados individuais, mediante dois cenários distintos: o primeiro de quando o processo de recolha de dados é rápido, e o segundo de quando é lento e não existem quaisquer registos.

Palavras-chave: erro amostral, medição, seis sigma, projetos

Problema

No decorrer de um projeto Six Sigma, o líder de projeto depara-se, mais cedo ou mais tarde, com a pergunta: «qual a dimensão necessária da amostra, de modo a ter um determinado nível de confiança e exatidão pretendido?”. Esta necessidade pode surgir tanto durante a fase measure, como nas fases analyse ou improve.

A resposta à pergunta é sempre um compromisso entre o esforço de recolher uma quantidade elevada de dados e o ganho que daí decorrerá para o projeto. Assume-se nesta altura que já se procedeu à validação do sistema de medição e que se encontrou um modo de recolher os dados de forma aleatória, isto para que a representatividade da amostra esteja de certo modo protegida. Mas, em função da natureza do projeto e do cumprimento de prazos para a sua conclusão, haverá estratégias mais adequadas do que outras. Vamos assim calcular a dimensão da amostra para a baseline de dois processos distintos: 1) dados de cadência rápida e 2) dados de cadência lenta e sem histórico.

Direção da solução

1) Dados de cadência rápida

Considere-se uma empresa onde um dos seus objetivos é o de reduzir os custos energéticos numa secção de transformação de matérias-primas. Foi avaliado os custos por equipamento e chegou-se facilmente à conclusão que o Moinho 6 é aquele que mais pesa nos custos anuais. O Y do negócio é euros, e o y do projeto é KWh. Naturalmente que existe uma relação (muito direta) entre o y e o Y. Pretende-se caraterizar o processo, ou seja, calcular a baseline do y. Como fazer?

Sendo o consumo em KWh uma variável contínua, estaremos interessados em calcular uma tendência central e uma dispersão do processo. Tipicamente, uma média e um desvio-padrão. Existem cerca de 20 registos individuais (KWh consumido por cada lote produzido). Vamos desenhar os dados para entender que tipo de distribuição se trata e se o processo está minimamente estabilizado (o sistema de medição foi validado e por isso podemos confiar nos dados).

Fig. 1: Normal probability plot, com um p-value de 0,179.

Fig. 2: : SPC I-MR dos 20 registos ao longo do tempo.

Os dados seguem aproximadamente uma distribuição normal e são estatisticamente previsíveis (não há causas especiais presentes no processo). Se queremos estimar o valor real da média de KWh consumido por lote precisamos, antes de mais, estimar o desvio-padrão.

Será que os 20 registos são suficientes para se estimar o valor do desvio-padrão, com o nível de confiança e exatidão pretendidos? A resposta pode estar na figura 3: sempre que se adiciona mais um registo observa-se o impacto que o mesmo terá na nova estimativa do desvio padrão. Se a variabilidade aumentar de modo significativo, então precisaremos de mais amostras. Se pelo contrário, o cálculo da estimativa do desvio-padrão convergir, significa que estamos cada vez mais próximos do seu valor real.

Fig. 3: Evolução da estimativa do desvio-padrão ao longo do tempo.

Vemos que a partir da amostra 13, a estimativa parece começar a convergir e, como tal, será adequado utilizar o valor 45KWh como a melhor estimativa que temos do desvio-padrão, relativamente a este processo.

Por razões de negócio, sabe-se que não se quer ficar a mais de 36 KWh (cerca de 5€) de distância do valor real da população. Esta distância tem que ver com o erro amostral. Para um nível de confiança de 95% observa-se que é necessário recolher 9 amostras.

Fig. 4: Amostra necessária para um delta de 36KWh e um nível de confiança de 95%.

O Minitab indica-nos a necessidade de recolher 9 amostras, mas como já tínhamos 20 registos, não precisamos recolher mais informação (o Black Belt mais experiente deverá concluir que se incorreu em 'sobreprodução' porque recolheram-se mais amostras do que o necessário). Conclui-se então que as figuras 2 e 5 caraterizam a baseline deste processo (miu = 902KWh e sigma = 46KWh).

Fig. 5: Dotplot do consumo energético do moinho 6, em KWh.

2) Dados de cadência lenta e sem histórico

No que diz respeito à estimativa do desvio-padrão, a equipa até poderá desenvolver o mesmo raciocínio apresentado na figura 3, mas face a uma baixa cadência do processo, pode ser que o número necessário de amostras seja demasiado elevado, até que os valores comecem a convergir. Uma alternativa, ainda que arriscada, é dizer que o seu valor será 1/5 da amplitude observada, ou seja, a diferença entre o valor máximo e mínimo que já foi observado neste processo (recorrendo-se à experiência, à lógica, ao benchmarking...). Usa-se o valor 1/5 porque numa distribuição normal perfeita, 1/6 da amplitude corresponde ao próprio valor do desvio-padrão. Como «coeficiente de segurança» divide-se pois por 5 e não por 6. Para se evitarem casos extremos da amplitude é conveniente que os valores mínimos e máximos se refiram ao percentil p0,01 e p0,99 respetivamente. Assim, se os valores máximos e mínimos forem 120 e 10 respetivamente e dividirmos a sua diferença por 5 obtemos uma estimativa do desvio-padrão de 22.

Usar este número como dado de entrada para estimar a dimensão da amostra para se obter o valor da média da população pode resultar numa janela temporal de recolha de dados curta ou longa - depende da cadência do processo. Se a janela for curta, estamos em condições de começar a desenhar o gráfico 3 e de verificar se o valor do desvio-padrão converge. Toda a análise subsequente será idêntica à apresentada para o estudo de caso anterior.

Contudo, se a janela for longa (imagine-se a cadência nas vendas do automóvel Ferrari, em Portugal) deverão ser equacionadas outras alternativas. Naturalmente que a Ferrari conhecerá bem o seu volume de vendas mensal, mas para efeitos de raciocínio imagine-se que tal não era conhecido. Uma outra métrica de recolha de dados mais rápida (mas igualmente útil para o projeto) deve ser considerada. Imagine-se que o objetivo deste seria ajudar a aumentar as vendas. Sabemos que sem visitas não há vendas e se as visitas aumentarem, provavelmente haverá mais negócios a serem fechados. Logo, a métrica primário do projeto passaria a ser o número de visitas diárias e, muito provavelmente, a estimativa do desvio-padrão para o mesmo será obtida mais rapidamente.

Conclusão

A dimensão da amostra é um tema que é muitas vezes levantado pelo experimentador, mas serão poucas as situações que realmente se parte para o seu cálculo. Neste artigo mostrou-se uma alternativa de como estimar o desvio padrão, seja pelas amplitudes, seja pelo método de convergência, para dados individuais (observações isoladas). Este cálculo é importante, pois permitirá definir a dimensão da amostra mínima, para um determinado intervalo de confiança e nível de exatidão. Em processos de cadência lenta, pode ser necessário explorar métricas alternativas (por norma, métricas lead e portanto mais a montante do processo). Pretende-se que esta informação possa ser usada em termos práticos pelo praticante de projetos de melhoria contínua, mais especificamente o Black Belt.

REFERÊNCIAS

[1] Castro, Ricardo A. (2012) Lean Six Sigma – para qualquer negócio, 3.ª edição, IST Press.

cliente.primeiro@inercia-mn.com

CONSULTORIA DE GESTÃO
MELHORIA CONTÍNUA