Feb
25
2010

LOGICA DEL MUESTREO Y LA FORMULA 1/RAIZ DE n

En mi anterior “post” hablamos de la fórmula 1 / √n que sirve para obtener el error de muestreo de una variable de proporción, porcentajes para que me entiendas. Quedamos en que en esta ocasión te explicaría de donde sale esta fórmula y no es que sea muy importante que lo sepas sino que eso me da pretexto para hablarte de la lógica que subyace detrás del muestreo probabilístico que eso si te debería de importar.

Por otra parte, siendo franco, no es un tema del que me guste mucho escribir pero es un “must” para cualquier investigador de mercados, claro cuantitativo. Sin embargo, te prometo que eso te dará una comprensión y visión distinta que te ayudará a plantear e interpretar mejor cualquier investigación.
Vamos imaginándonos que hacemos un censo en nuestro país México y le preguntamos a todos los mexicanos (si a todos, por eso es un censo) de 18 años y más si creen que el planeta se está calentando o no y el 30% dice que no hay calentamiento global vs. el 70% que opina que si hay calentamiento global.

Como bien sabes, entrevistar a toda la raza cuesta un montón de dinero por lo que si deseas corroborar que efectivamente, el 70% dice que hay calentamiento global y el 30% que no, tendrás que hacer una encuesta. La encuesta es un método rápido y económico que sirve para estimar los parámetros de una población. Un parámetro es el valor real de la población (digo real porque hice un censo, no estoy infiriendo, les pregunté a todos). En este caso sería 70% y 30%, los que dicen que si hay calentamiento y los que dicen que no, respectivamente; en contraste, una estadística sería el valor que obtienes mediante una encuesta y puede ser igual o no al parámetro de la población pero siempre resulta cercano a él. El asunto es estimar qué tan cerca está esa estadística del valor real (parámetro) y para eso te sirve la susodicha fórmula de la que estamos hablando.

Entonces, sigamos imaginando que hacemos una primera encuesta con 100 casos en toda la república mexicana y obtenemos que el 80% de los encuestados nos dice que si se está calentando y el 20% que no y como sabemos que el resultado de una encuesta puede o no ser igual al parámetro de la población, para asegurarnos hacemos otra encuesta de 100 casos más, obteniendo ahora los valores de 65% que dice si y 35% que dice no. Ahora nuestro problema se ha convertido en un dilema ¿cuál de las dos encuestas es la que debemos tomar el resultado? Ni modo, para resolver este entuerto decidimos hacer una tercer encuesta con el mismo número de casos y obtenemos que el 72% dice si y el 28% no; y “ya encarrerado el ratón pos que chin…el gato” y hacemos un cuarta en la cual el 69% dice si y el 31% no.

Vamos viéndolo con calma, si registramos en una gráfica los resultados de las cuatro encuestas con los que dicen que el planeta si se está calentando, nos vamos a dar cuenta que ninguna de éstas le atinó al parámetro (valor real de la población).

Pero fíjate bien en lo que sigue, si continuas haciendo encuestas vas a notar que la mayoría de los resultados van a ser iguales al parámetro o estarán muy cerca aunque algunos, muy pocos, estarán alejados de él. Todas tus encuestas formarán una figura más o menos como la siguiente, a esa figura se le llama distribución normal.
Dije que la mayoría de los resultados en tus encuestas, 762 para ser exactos, serían igual al parámetro o estarían muy cerca de él; pero ¿Qué tan cerca de él? ¿Cómo saber si nuestra primer encuesta, por ejemplo, es igual o no al parámetro. Aquí es dónde hechas mano de la probabilidad, ésta te dice que el 99.99% de los resultados de todas tus encuestas estarán dentro de 3 desviaciones estándar, tanto a la izquierda como a la derecha del parámetro de la población; que un 95% de ellas estarán dentro de 2 desviaciones estándar y que el 68% dentro de 1 desviación estándar a la izquierda y 1 a la derecha del parámetro, cómo se nota en la figura de abajo:
¿Y cómo puedes utilizar este conocimiento? Volvamos al resultado de tu primera encuesta en la que el 80% dijo que el planeta se estaba calentando; si en este momento yo te preguntara qué confianza tienes de que ese 80% es igual al parámetro de la población. Bueno tienes tres respuestas claras:
a. Que tienes un 68% de confianza de que el resultado está dentro de un error estándar.
b. Que sabes con un 95% de confianza que tu resultado está entre dos errores estándar y
c. Que sabes con el 99% de confianza que ese 80% está dentro de tres errores estándar.
¡Wait a minute! ¿De dónde diablos salió ese error estándar? y, otra cosa, ¿lo anterior cómo me resuelve la incógnita de si mi estadística del 80% es igual o no al parámetro.
Bueno lo primero es que el error estándar es algo así como la desviación estándar de encuestas, como en este ejemplo que nos estamos imaginando; mientras que la desviación estándar es la desviación de una sola encuesta. Si lo piensas bien, es lógico que obtengas desviaciones más pequeñas (errores estándar) en varias encuestas que en una sola encuesta (desviación estándar); en otra ocasión hablaré sobre esto en el post de “Varianza, tan sólo un promedio”.
La respuesta a la segunda pregunta es que si calculas el error estándar puedes hacer pronósticos sobre cuál es el mínimo y el máximo porcentaje en el que se encuentra el parámetro real de la población. Al fin, aquí está de nuevo la fórmula que nos ocupa. Supón que no sabes qué tanto varía la población, es decir, cuántos opinan que el planeta se calienta y cuantos que no, entonces asumes que lo peor que puede suceder es que el 50% diga que si hay calentamiento global y el otro 50% que no lo hay, eso es lo máximo que pueden variar tus datos, y bajo ese supuesto aplicas la fórmula para calcular el error estándar o de muestreo.
Entonces la fórmula es:
Donde:
Z = número de desviaciones estándar.
P = Proporción que dice Si se está calentando.
Q = Proporción de gentes que dice No se está calentando.
n = Número de entrevistas hechas.
El resultado si sustituimos sería:
Finalmente, con base al resultado de tu encuesta y el error estándar puedes decir que con un 95% de confianza (acuérdate que multiplicamos por 2 desviaciones estándar; si hubieras querido un 99% de confianza tendrías que haber multiplicado por 3) el parámetro real de la población es igual a 80% pero puedes ser 70% también o 90% ya que ese es el error estándar o de muestreo que le estas sumando a tu resultado (El .10 resultante se multiplicó por 100 para convertirlo en porcentaje).
Si eres observador te darás cuenta que el último paso de nuestra fórmula de arriba, para un 95% de confianza, es igual a la archirequetecontrapopular fórmula:
Unas últimas acotaciones:
1. en realidad el 95% de confianza se encuentra entre 1.96 desviaciones o sea casi 2 pero no te afecta mucho si multiplicas la desviación por 2.
2. Cuándo conoces la verdadera desviación la puedes usar en lugar de usar el .5 y .5 que representa la máxima variación, eso por supuesto te dará errores más pequeños y mayor acercamiento al parámetro real.
3. Me canse de escribir y creo que esto está algo denso pero mis mejores deseos para que te sirva.
Hasta la próxima.

About the Author: Jorge Andrade

Fundador y Director General de Market Variance®; 20 años de experiencia en investigación de mercados; especialista en metodologías de investigación y estadística. Psicólogo Social de la UAMI con estudios de maestría en psicología experimental en la UNAM; ha sido catedrático de la Universidad Tecnológica, Centro ELEIA de Psicología y expositor en los talleres de la Asociación Mexicana de Agencias de Investigación (AMAI).

Deja un comentario