Jun
30
2011

PONDERACION DE DATOS, CUESTION DE PESO NO DE PESOS

¿Cuánto gana en promedio un trabajador de la ciudad de México? ¿Qué te parece si hacemos una mini-encuesta para averiguar? Imagina que seleccionas 10 personas al azar y les preguntas cuánto ganan mensualmente. En la tabla de la izquierda se pueden apreciar las respuestas de cada uno de tus entrevistados así como el promedio en general del ingreso mensual. No está nada mal $19,400 pesos por cholla. Con ese dinero, como diría Chava Flores, cualquiera paga la renta, el teléfono, la luz y todavía alcanza hasta para echarse un alipuz.

¡Espérate, no te esponjes! Sabemos que eso no es lo que gana un “chilango”, es sólo un supóngando que nos sirve para ilustrar la ponderación de casos. No sé porqué dicen ponderación de datos o de resultados si en realidad lo que se pondera son los casos y una vez hecho esto se procesa y analiza la información pero dada la costumbre hemos titulado este post ponderación de datos. ¿Para qué sirve y qué cómo se hace? Bueno lo primera respuesta es: sirve para que no andes por allí, como si fueras secretario de economía, diciendo que un mexicano gana mucho; en otras palabras para que tus estimaciones o resultados de tus encuestas sean más precisos. La segunda respuesta nos fue proporcionada por nuestro amigo y colaborador Jesús Romero, sobre todo como hacerle para ponderar en Excel utilizando tablas dinámicas, así que sigue leyendo.

Regresando a nuestra encuesta de 10 casos, imagina que hay 10 millones de personas que trabajan en la ciudad de México de esas, 7 millones son de nivel socioeconómico (nse) bajo, 2 millones de nivel medio y 1 millón de nivel alto; en otras palabras, hay más gente de nse bajo que medio y alto pero en nuestra encuesta entrevistamos a casi la misma cantidad de cada nse (véase la tabla de abajo) razón por la cual los datos que obtuvimos de $ 19,400.00 pesos en promedio están sesgados. Para corregir este “sesgo” tenemos que ponderar o sea equilibrar las cosas ¿Cómo? Si entrevistaste a 3 personas de nse bajo o sea el 30% tienes que darle el peso real; en otras palabras, hacer que esos 3 casos o 30% se conviertan en 7 casos o 70% ¿Por qué en 7 casos o 70%? Porque recuerda que hay 10 millones que trabajan en la ciudad de México de los cuáles 7 millones son de nse bajo o lo que es lo mismo 7 de cada diez casos o 70%; tienes que hacer exactamente los mismo para los otros dos nse y ajustarlos de acuerdo al peso que tienen en la población (10 millones de trabajadores).

Como se trata de equilibrar tenemos que repartir o dividir con base a lo que le toca a cada quien. Así el asunto se convierte en un cuánto te toca y cuánto tienes para saber cuánto te falta o te sobra. Ejemplo, en el caso del nse bajo le tocan 7 y tiene 3, entonces es 7/3 = 2.33; en el nse medio le tocan 2 y tiene 3, lo que se formula así: 2/3 = .66; y al nse alto le toca 1 y tiene 4 lo que se escribe como 1/4 = .25. Para hacer lo anterior puedes dividir por frecuencias; es decir, casos entre casos o hacerlo con porcentajes, te dará lo mismo pero no dividas casos entre porcentajes. Por ejemplo, 7 / 30% = 23.33 (hazme caso y no lo hagas así o te vas a equivocar). Asimismo, me tocó ver empresas de investigación de mercados que dividían el número de casos de la población real entre el de su encuesta (no se si todavía lo hagan o ya aprendieron) de esta forma 7,000,000/3 = 2,333,333.33; se me hacía absurdo porque cuando reportaban sus resultados no había manera de saber cuantas entrevistas hicieron en realidad; confundía sobre la verdadera importancia de los resultados ya que a lo mejor eran sólo 2 casos y decían que eran chorrocientos millones; la verdad estaba bastante loco eso ¿o está todavía? Hay dos moralejas en esta historia: primero, si hiciste 10 entrevistas tus resultados totales deben reflejar 10 entrevistas ni más ni menos y segundo siempre debes reportar la base ponderada y la base no ponderada, los casos para que me entiendas.

Mira la tabla de abajo y observa como cuando aplicamos el factor de ponderación, o sea multiplicamos el ingreso en cada caso por el factor de ponderación (número de casos reales) cambia el promedio bajo la columna que dice ingreso ponderado. Ahora tenemos que en promedio un trabajador de la ciudad de México gana $10,070.00 pesos. ¿Verdad que es cuestión de peso y no de pesos?

Ahora si, ya podemos empezar con las preguntas:

1. No, no es lo que ganan en realidad, este es sólo un ejemplo ficticio y cualquier semejanza con la vida real es pura coincidencia.

2. La suma total de la columna “FACTOR DE PONDERACIÓN” te da 10 porque siempre debes obtener como resultado de tu base ponderada el mismo número de casos o entrevistas que hiciste. En realidad nos dio 9.97 pero eso es por los decimales.

3. ¿Qué tanto afectan los decimales en la ponderación? Depende del programa, por ejemplo, SPSS ajusta el caso a 0 (cero) cuando es menor a 0.5 y a 1 (uno) cuando es igual o mayor que 0.5; Excel aplica el mismo criterio pero cuando utilizas la función truncar o entero, no importa si eres 0.5, 0.9 o 0.25 lo convierte en 0 (cero). En términos generales, te puedo decir que con dos decimales que incluyas en tu factor de ponderación no debes tener ningún problema.

4. ¿Qué cómo supé quién es de nse bajo, medio y alto? Bueno lo pregunte en la encuesta. Eso te lleva a que siempre debes preguntar los sociodemográficos en tus encuestas ya que las respuestas dependen del tipo de persona que entrevistas, de su sexo, edad, nse, edo civil, ciudad donde reside, etc. y si te das cuenta que entrevistaste más mujeres que hombres y sospechas de un sesgo en los resultados desearas ponderar por sexo ¿Y qué tal que no apuntaste el sexo de tus entrevistados? !Sopas carnal(a)¡ Ya valiste.

5. ¿Qué cómo sabemos el nse de la población? Por supuesto, debe haber datos disponibles sobre la población. Dependiendo de que datos desees encontrar puedes buscar en INEGI, FONHAPO, SECRETARÍA DE ECONOMÍA, AMAI (ASOSIACIÓN MEXICANA DE AGENCIAS DE INVESTIGACIÓN), IFE, etc.

6. ¿Siempre se debe ponderar? No, depende de si sospechas que hay un sesgo, de si deseas equilibrar la muestra, hacer proyecciones por regiones, a nivel nacional, etc.

7. ¿Qué es una muestra autoponderada? Un jefe que tuve me decía que un estudio hecho en varias ciudades debe estar ponderado. Tal vez, pero muchas empresas determinan el tamaño de sus muestras según el tamaño de la ciudad, las características sociodemográficas más importantes de la población de estudio. Así, si saben que van a hacer 100 entrevistas en Guadalajara, Monterrey y Ciudad de Mexico, hacen 50 en México, 30 en Guadalajara y 20 en Monterrey que corresponde al tamaño de cada una de estas ciudades (aprox.); además si saben que hay 6 mujeres por cada diez habitantes procuran entrevistar 60% de mujeres y 40% de hombres de su muestra. A eso se le llama una muestra autoponderada.

8 ¿Se puede ponderar o corregir por otras variables? Por ejemplo, si quiero equilibrar el número de hombres y mujeres dependiendo de su nse ¿puedo hacerlo? Seguro, de hecho a eso se le llama multiponderación y es la forma más fina de corregir un sesgo pero ese ejemplo, cómo ponderar en Excel y lo que se me haya quedado en el teclado lo dejamos para el próximo post ¿Quieres?

Saludos.

About the Author: Jorge Andrade

Fundador y Director General de Market Variance®; 20 años de experiencia en investigación de mercados; especialista en metodologías de investigación y estadística. Psicólogo Social de la UAMI con estudios de maestría en psicología experimental en la UNAM; ha sido catedrático de la Universidad Tecnológica, Centro ELEIA de Psicología y expositor en los talleres de la Asociación Mexicana de Agencias de Investigación (AMAI).

19 Comentarios + Add Comment

  • Muchas gracias muy claro y consiso el articulo, de veras que me sirvio, se le agradece y espero que siga contribuyendo, muy atentamente Abel

  • Como siempre una belleza leerte Jorge, gracias!

    Algo importante que nos sucedió una vez por aquí y que lo comparto para ahorrarles la rota de cabeza que nos tocó vivir (o para que se burlen de mí por menso, la primera que pase):

    Si están usando SPSS para procesar su información, cuando añadan la variable (o columna) de su factor de ponderación en la base de datos asegúrense de que la variable tenga las propiedades decimales que asignen, porque a diferencia de Excel que es más listo y toma para cálculo el valor real aunque sólo muestre el redondeado, SPSS parece no hacerlo cuando están usando algún Add-In para reportear (Desktop Reporter o SPSS Survey Reporter, por ejemplo).

    Esto hace que cuando obtienen resultados el factor de ponderación se ve alterado (la suma de los enteros no les da la cantidad de casos, al verse absolutamente redondeado, por lo que estarán ponderando a datos irreales). A veces ni se nota ni afecta, pero hay ocasiones – cuando la distribución natural es severamente desequilibrada – en que la alteración es tal, que sale más caro el caldo. Cosa que no verán a la primera pues irán a SPSS a revisar la fuente y verán que el factor sigue estando completo, aunque se vea redondeado.

    Finalmente, una manera sencilla de comprobar que su factor de ponderación funciona correctamente es correr un tabular que cruce información con la misma variable o variables que están usando para ponderar (por ejemplo, si están ponderando con NSE y con Sexo, correr una tabla cruzada de NSE x Sexo). Si el factor es correcto y sólo esas variables están aportando el factor, el resultado debe ser un reflejo casi exacto – casi, por décimas – de la distribución natural que se conoce del factor.

    Saludos!!!

  • Gracias Canek por tus comentarios.

  • Mas claro ni el agua… me puedes dar clases !!!… jajaja Gracias

  • Muchísimas gracias desde Argentina, me encantó. Saludos, Lucas

  • Gracias Jorge! Es la primera vez que leeo un articulo tuyo, y explicaste el tema de una manera tan clara, que puedes lograr que a cualquiera le guste la estadistica :) . Has escrito algun libro relacionado con Investigacion de Mercados?, o puedes recomendarme alguno?.
    Saludos!

  • Gracias a ti Claudia. Es difícil que exista un libro que sea claro en todos los temas que nos interesan, más bien se trata de agarrar un poco de aquí y otro poco de allá. Normalmente, los libros de investigación de mercados son muy generales, en ese sentido casi cualquiera te puede servir, también puedes optar por temas específicos y enfocarte en ellos (por ejemplo, satisfacción del cliente, brand equity, etc.). Definitivammente, voy a escribir un libro que se llama algo así como “modelos de investigación cuantitativa” pero necesito dedicarme por lo menos un año a el y el trabajo me ha traido muy complicado los últimos seis meses, pero voy abuscar la forma de darme ese espacio.
    Nuevamente muchas gracias por tus comentarios.

  • Mil gracias por este post, quedó muy claro!!

  • Gracias a ti por tus amables comentarios

  • Muy claro el post. Tengo la siguiente duda para la ponderación en SPSS: Cuando el coeficiente de ponderación toma valores que comienzan con “0,….” los toma como “perdidos”. Como se puede subsanar eso?

    Muchas Gracias

  • Para mi “0″ es una multiplicación por “0″ y por consiguiente tu resultado es cero o “missing” que para efectos de tus casos es lo mismo. Ahora, si te refieres a decimales (0.1234) SPSS sí los toma en consideración pero son valores tan pequeños que es muy probable que los casos aparezcan como “0″ a menos de que especifiques un formato de “count” con mayor número de decimales.
    Ojalá y haya respondido tu pregunta, si no es así mándame un ejemplo para entender mejor cuál es el problema.
    Saludos y gracias por leer nuestro blog.

  • ESTOY DE ACUERDO CON LAS PONDERACIONES QUE HACES Y TODAS LAS OPERACIONES MATEMATICAS Y EXPLICACIONES QUE DAS, LO QUE NO ME PARECE SOLO COMO COMENTARIO QUE LOS DATOS QUE SE ARROJAN CUANDO SACAN SIFRAS GLOBALES PRESISAMENTE EL DE SACAR PROMEDIOS IMAGINA UN MEXICANOS QUE GANA 3,000 AL MES Y OTRO 60,000 TE DA UN PROMEDIO DE 31,500, LO IMPRUDENTE ES DECIR QUE LA GENTE GANA EN PROMEDIO 31,500 CUANDO NO ES ASI PUES DE FONDO HAY UNA DESIGUALDAD ABISMAL DECIR QUE LOS DOS GANAN APROXIMADAMENTE LO MISMO SOLO QUE UNO VIVE COMO REY Y EL OTRO COMO MENDIGO, ESE PRESISAMENTE HA SIDO EL PROBLEMA EN LOS PAISES CON EXTREMA POBREZA SIN EMBARGO APARECE CON NUMEROS DE BUENOS PROMEDIOS EN TERMINOS PIB POR QUE LOS ALTOS FUNCIONARIOS SE SIRVEN CON LA CUCHARA GRANDE.

  • Excelente el post, era lo que estaba buscando en estos mementos, pero solo una duda, al decir q da el mismo resultado dividiendo casos sobre casos o hacerlos con porcentajes. Podrias dar un claro ejemplo sobre eso, suponiendo q el calculo de la muestra es representativa.

    Gracias

  • Me refiero a que es una razón (ratio), no hay mayor misterio. En uno divides absolutos (números) y en otro relativos (%) pero siempre se conserva la división entre las mismas proporciones: te da lo mismo si divides 50/50 que si divides .5/.5. Por ejemplo, supón que tienes 100 casos de mujeres y 200 de hombres, tu muestra total es de 300 casos, y quieres hacer que las mujeres pesen lo mismo que los hombres porque así está distribuida la población, entonces tienes que dividir .333 (o sea 100 casos, que es lo que tienes) entre .50 (es decir 150 casos que deberías tener) y eso te va a dar el factor de ponderación o lo que es lo mismo lo que va a valer cada caso femenino. Ahora, si divides 100/150 te va a dar el mismo factor de ponderación ¿lo ves?

  • Ahora si entiendo, esq alguien me decia, siguiendo tu ejemplo: dividir 100 mujeres de la muestra entre 5000 mujeres q hay realmente en la poblacion y dividir 200 hombres de la muestra entre 5000 hombre de la poblacion. Pero ya vi q mejor divido entre % q es mas claro.

    Otra duda, si quisiera extrapolar el resultado q obtuve de la muestra a la poblacion (mostrar cuantos sujetos en la poblacion serian afectados), suponiendo q la muestra es suficientemente grande y fue sacada de tres ciudades distintas con tamños distintos de poblacion, pero las muestras son de igual tamaño en las tres ciudades, seria bueno para fines practicos realizar la operacion q tu no sugieres de dividir “poblacion/muestra” y asi sacar resultados totales de posibles afectados que habrian realmente en la poblacion?.

    Gracias por tu ayuda. Saludos

  • A eso se le llama factor de expansión. Como vimos en el post, es igual a la ponderación pero te da cifras de la población y pues es válido para el propósito que tu persigues.
    Saludos.

  • maravilloso, lo comprendi recien despues d tanto años jajaja

  • Busque por todos lados, esta publicacion es la mejor explicada..!!. Felicitaciones el lenguaje y ejemplos que usas al momento de la explicacion son sencillamente geniales para entenderte. Muchas Gracias.
    Tengo una pequeña pregunta: ¿si tengo datos desiguales de mujeres y hombres que respondieron X encuesta, y las diferencias entre la cantidad es muy significativa para poder comprarlos, podría utilizar la ponderación para equilibrar y luego compararlos?, en resumen puedo comparar dos datos ponderados?

  • Claro, que puedes compararlos, ya sea de forma ponderada o no. Si te fijas te vas a dar cuenta que la ponderación (si estás ponderando sólo por sexo) afecta únicamente al total. Es decir, cualquiera que sea la respuesta que estés analizando, cruzada contra hombres y mujeres seguirá teniendo el mismo peso para cada uno de estos grupos.
    Nota sin embargo, que la cosa puede ser muy distinta si estás haciendo multiponderación.
    Gracias por tus comentarios y por leernos.

Deja un comentario