Oct
10
2011

REGRESION LINEAL. QUE LA FUERZA TE ACOMPANE

Déjame adivinar. Cuando estudiabas estadística, tu primer gran quebradero de cabeza lo tuviste con el tema de regresión lineal ¿cierto? Es posible que hasta el día de hoy todavía tengas algunos “hard feelings”  con esta técnica pero espero que después de leer este post puedas conciliarte con ella. La regresión lineal es un tema básico y muy importante para los investigadores de mercado y no obstante, que es tal vez de los análisis más sencillos, muchas personas le siguen sacando la vuelta. Qué mala fama le han creado a la pobre. Es necesaria en los estudios de satisfacción, elasticidad de precios, imagen de marca, de candidatos políticos, planeación, pronósticos de operación, ventas, inversión, etcétera. En este post vamos a explicarte la regresión y a mostrarte una forma de graficarla para deleite tuyo y de tus clientes.

Seguramente has escuchado la historia que explica de donde viene el término de regresión, es muy ilustrativa pero pocos nos damos por enterado de su significado. Verás, se cuenta que en un estudio donde se relacionaba la estatura de los hijos con la de sus padres se observó que los padres muy altos tenían en promedio hijos más bajos que ellos y al revés que los padres de muy baja estatura tenían en promedio hijos más altos. La estatura promedio de los hijos de ambos tipos de padres -ojo al Cristo que es de plata- se aproximaba al promedio general de estatura de la población. Es como si hubiera una fuerza que hiciera regresar las cosas, en este caso la estatura del ser humano. Esa fuerza es la media o promedio. En la regresión lineal lo que se busca es encontrar esa media, una vez que la conoces es fácil hacer pronósticos pues sabes que ese promedio es la fuerza de atracción que va a aglutinar a los puntajes diferentes a él. Puede suceder que una persona sea muy alta o muy baja pero la naturaleza de las cosas hará que en las siguientes generaciones las cosas se equilibren, emparejen o tiendan al promedio general. En la regresión lineal, a todas las personas que son distintas al promedio, se les denomina errores de muestreo o varianza de error; es como si dijeras que algo ocurrió con esas personas que no son iguales al promedio, y allí es donde echamos a andar el hamster ¿Qué está ocurriendo? o más bien dicho ¿qué o quién está afectando a esas personas que la fuerza del promedio no es suficiente para atraerlas? Ese qué o quién es lo que llamamos variable independiente. En otras palabras, con la regresión lineal buscamos determinar que factor o variable está provocando la variación en la variable dependiente (se llama dependiente porque dependiendo de los valores de la independiente es el valor que va a asumir) ¿Complicado? Sigue leyendo.

Comúnmente los clientes nos piden realizar análisis de regresión múltiple (que es exactamente lo mismo que la regresión lineal simple sólo que en este caso son dos o más variables las que suponemos que están afectando a la variable dependiente) para conocer cuales son las variables que determinan la satisfacción. Ese es el ejemplo que viste en la ilustración del principio; sin embargo, para que te quede perfectamente claro lo que vas a hacer, vamos a ilustrarte la técnica y el método con un ejemplo de regresión lineal simple en Excel ¿Por qué en Excel? Bueno, puedes hacerlo en tu programa de estadística favorito pero te aconsejo que lo hagas en este paquete si no quieres perderte la gráfica divertida con NodeXL (add-in gratuito de graficación de Excel).

Suponte que eres dueño de Yupies’ Pizza y que los clientes siempre te preguntan cuánto tiempo va a tardar en llegar su pizza; para darles una respuestas necesitas hacer pronósticos sobre el tiempo que se tardan tus repartidores en llevar un pedido de pizza a su destino; tienes datos de las últimas 10 entregas donde conoces la distancia hasta la que fueron a dejar los pedidos y el tiempo que dilataron en llegar tus repartidores. La tabla de abajo contiene esos datos.

De repente y para variar un cliente te pide que le digas cuánto tiempo vas a tardar en llevarle la pizza y sabes que ese cliente se encuentra a 14 kilómetros de distancia ¿Qué tiempo le dirías? Ve con cuidado la sexta entrega de tu tabla de datos ¡Exacto! 15 minutos. Lo dedujiste, sin necesidad de hacer ninguna regresión lineal, porque anteriormente ya habías entregado una pizza a la misma distancia y ese fue el tiempo que le tomó a tu repartidor llevarla. Pero qué pasa si regresa tu repartidor y te dice que se tardó 17 minutos ¿qué le vas a decir al próximo cliente cuando te pregunte cuánto tiempo vas a tardar en entregarle si sabes que está exactamente a 14 kilómetros de distancia? ¿Le dirás 15 o 17 minutos? ¿Te acuerdas de la fuerza, el promedio? Deja que la fuerza te acompañe, que el promedio responda por ti. Serían 16 minutos ¿verdad? Esa pregunta estuvo “simple” pero qué tal que te pregunta cuánto tiempo vas a tardar en llevarle la pizza y sabes que está a 10 kilómetros de distancia. Buscas en la tabla de arriba y ¡pelas! te das cuenta que no has hecho ninguna entrega a esa distancia por lo tanto no sabes cuanto tiempo te va a llevar entregarla. Entonces te acuerdas de la fuerza y trazas una línea que atraviesa todos los puntos de tus entregas anteriores (ve la gráfica de abajo); esa linea representa el promedio (media en estadística) de los puntos combinados “X” (distancia) y Y (tiempo) y das con la solución pues estimas que el tiempo de entrega está entre el cruce de la distancia a la que vas (10 km) en el eje X y el tiempo de entrega (11.5 minutos) en el que se cruza con el eje Y. Por las razones anteriores a este método estadístico se le llama regresión lineal y simple porque ocupa una sola variable independiente y no por fácil que ese es otro cantar.

La mayoría de las veces los problemas a los que te enfrentas no son tan claros ni tan sencillos; en este caso, cualquiera puede entender que la distancia afecta el tiempo en que se entrega la pizza; además los datos son pocos y es fácil manipularlos e incluso hacer una gráfica donde puedes ver que a mayor distancia también se incrementa el tiempo. La regresión lineal en particular y la estadística en general te ayudan a analizar problemas más complejos donde se tienen que manejar grandes números o relaciones no tan claras. Por ejemplo, en los estudios de satisfacción del cliente es difícil conocer cuáles variables son las que afectan la satisfacción en general y sobre todo saber cuánto; ese “cuánto” se llama coeficiente de regresión y es la cantidad que varía la variable dependiente en función de la independiente. En otras palabras, qué tanto aumenta o disminuye la satisfacción general cuando los niveles de las variables independientes que pueden ser precio, calidad, atención, amabilidad, puntualidad, servicio o cualesquier otro aspecto de tu producto o servicio disminuyen o aumentan. A los aspectos que determinan la satisfacción en general los mercadólogos les llaman “drivers” y son claves para proporcionar una experiencia más satisfactoria al cliente; lo que en términos prácticos significa retenerlo y que siga consumiendo tus servicios o productos. Ese coeficiente de regresión también se llama beta de regresión porque se representa con la letra griega beta.

En el gráfico del principio, cada uno de los círculos representa un “driver” que afecta la satisfacción en general del cliente con la línea área; el número que hay dentro de cada círculo es el coeficiente de regresión o beta de ese “driver”. Si sumas estos coeficientes vas a obtener 100% eso se debe a que hemos ajustado todas las betas para que en total sumen 100%. ¡Atención! no es que los coeficientes resultantes del análisis de regresión múltiple sumen 100%, es más ni siquiera están expresados en porcentajes; lo que sucede es que para las personas que van a ver tu gráfica es más fácil interpretar esos números ajustados que si le dices que tienes un coeficiente de regresión o una beta de “.30″, “.35″ o lo que sea que es el coeficiente. Algunas agencias de investigación presentan el mismo análisis de regresión pero en lugar de ajustar a 100% sólo indican el orden en el que afectan las variables independientes a la satisfacción general (variable dependiente); Por ejemplo, dicen el atributo “A” afecta en primer lugar a la satisfacción, el Atributo “B” en segundo lugar y así sucesivamente. Desde nuestro punto de vista eso está mal hecho pues no es lo mismo decir “A sus órdenes General” que “Órdenes generales”: Por si no entendiste mi lenguaje cantinfleado ahí te va de nuevo: si X1 afecta en 90% y X2 en 10% es más sencillo decidir prioridades que si sólo dices X1 en primer lugar y X2 en segundo.

Te vas encontrar con un montón de opciones y estadísticas que puedes pedirle a tu programa estadístico (total, pedir no empobrece) desde las estadísticas descriptivas que ya conoces como medias, desviación estándar, máximo, moda, mediana, entre otras y hasta las pruebas de normalidad*; sin embargo, en general, hay cuatros aspectos a los cuales debes prestar atención para tu análisis de regresión y gráfica, estos son:

1. El coeficiente de la variable dependiente, también llamado constante o intercepción.
2. El coeficiente de regresión que te señala cuánto afecta la variable independiente (VI) a la dependiente (VD).
3. La significancia de ese coeficiente (en Excel está etiquetado como probabilidad en otros programas dice significance o sig.) la cual te indica si la relación entre la VI y VD es verdadera o producto del azar.
4. La forma en que se presenta ese coeficiente, si está estandarizado o en bruto.

Claro que hay varias cosas más que aprender acerca de la regresión lineal pero algo de tarea te tenemos que dejar. Así que ya para terminar te explicamos los 4 puntos anteriores con el mismo ejemplo de los datos de Yupies’ Pizza. El cuadro siguiente contiene la salida del análisis de regresión tal y como lo arroja Excel.

1. Se llama intercepción porque es el lugar donde la línea promedio; si esa que representa la fuerza, cruza con el eje “Y” (la variable dependiente); si te fijas viene siendo algo así como el promedio cuando no hay ninguna influencia, o sea cantidad cero de la VI; por eso debes sumar siempre está constante a la influencia que ejerce la variable o variables independientes; más adelante viene la prueba empírica en la fórmula de la regresión lineal simple.

2. El coeficiente de regresión es la cantidad que está aumentando “Y” por cada unidad de “X”; en palabras simples, si vas a entregar tu pizza a 10 kilómetros de distancia y el coeficiente te dice que por cada kilómetro el tiempo de entrega va aumentar 1.0411, entonces debes multiplicar por 10 kilómetros para conocer el tiempo total que te va a llevar hacer la entrega.

3. ¡Espérate! antes de dar por buenas tus predicciones o presumir de que si hay una relación entre las variables que estás manejando para incrementar la satisfacción de tus clientes debes cerciorarte que la relación es significativa o como dice Excel que la probabilidad sea menor a .05; si el número que obtienes es mayor a .05 la relación entre esa VI y la VD fue puro azar, no hay tal relación. En nuestro caso, obtuvimos 4.26599E-05 (ese -05 significa que el decimal debes recorrerlo cinco dígitos a la izquierda, entonces es .0000426599 y claro que es mucho menor que .05 lo que nos llena de alegría pues hemos descubierto que la relación si es significativa.

Excel te arroja los coeficientes en bruto; es decir, no los estandariza** ¿estanda…qué? Cuando un coeficiente está estandarizado la beta siempre va de -1 a 1, eso sirve para que puedas comparar cualquiere regresión que hagas independientemente del tipo de unidades de medición que estás usando; es decir, no importa si tu variable independiente está en kilómetros, millas, si se trata de peso, estatura, de una escala de 5 o 7 puntos; simpre tendrás coeficientes de regresión entre -1 y 1. Si obtienes una beta de “-1″ significa que la relación es perfecta y negativa: cuánto más aumenta la variable independiente más disminuye la independiente y si tu beta es de “1″ también hay una relación perfecta entre la VD y la VI pero ésta es positiva; si la VI aumenta la VD también lo hace siempre en la misma proporción.


Ambas betas tienen su utilidad, la estandarizada es útil siempre que quieres comparar las betas entre si. Por ejemplo, en nuestra gráfica de satisfacción es importante saber cuál VI es más predictora; en cambio en el ejemplo de pizzas necesitas saber específicamente el tiempo que te va llevar entregar el pedido, en ese caso, requieres el coeficiente sin estandarizar para poder sustituir en la fórmula de regresión y hacer el pronóstico (ve el desarrollo de la fórmula de al lado); por cierto, nos dice que llevar la pizza a 10 kilómetros de distancia nos tomará 11.51 minutos (multiplica el .51 por la unidad de tiempo o sea 60 segundos para obtener el resultado real, 11:30:60), casi como lo habíamos pronosticado con nuestra gráfica ¿Estará el repartidor entregando el pedido exactamente a las 11.51? Muy probablemente no, pero en el peor de los casos lo hará en 12.85 minutos (12:51:00 minutos) y en el mejor en 10.76 minutos (10:45:00 minutos); a eso se le llama intervalo de confianza (ve el resultado de arriba de Excel) y es nada más ni nada menos que el error que debes sumarle y restarle a tus estimaciones. Debimos habérselo puesto a nuestra ecuación pero para que no te asustaras lo omitimos; sin embargo, no hay falla, ese error siempre lo vas a encontrar en los libros de estadística (es un juego de palabras).

¿Y la gráfica Apá? Estos vídeos te explican como correr una regresión lineal múltiple y graficarla con NodeXL.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

* ¡Precaución! la regresión lineal simple o múltiple asume algunos supuestos que debes revisar que se cumplan como la distribución normal de los errores, su independencia, entre otros; te sugiero que le des una repasada a esos conceptos para que te sientas más seguro de lo que estás haciendo.
** Para estandarizar una beta solo multiplica el coeficiente de regresión de la VI por su desviación estándar y divídelo entre la desviación estándar de la VD.

Hasta la próxima.


Related Posts

About the Author: Jorge Andrade

Fundador y Director General de Market Variance®; 20 años de experiencia en investigación de mercados; especialista en metodologías de investigación y estadística. Psicólogo Social de la UAMI con estudios de maestría en psicología experimental en la UNAM; ha sido catedrático de la Universidad Tecnológica, Centro ELEIA de Psicología y expositor en los talleres de la Asociación Mexicana de Agencias de Investigación (AMAI).

11 Comentarios + Add Comment

  • Muy interesante y simpático este blog.
    Me agrada tanto que me pondré a leer sistemáticamente las entradas hasta terminar con todas.
    Muy buena pluma para estos temas que a veces son unos plomos.

    Saludos desde Chile.

  • Gracias Nico por tus comentarios.

    Recibe un cordial saludo.

  • Jajaja, que buena redacción, y qué forma tan amigable de explicar algo tan aburrido….Si haces un libro por favor mantenme informado para comprarlo….

    Saludos desde Venezuela

  • Decimos acá ¿qué comes que adivinas? Desde el año pasado comencé un libro pero la falta de tiempo y el hecho de que somos desconocidos para las editoriales nos ha frenado. El próximo año podría estar dando clases en la UNAM (Universidad Nacional Autónoma de México) y eso sería un posible catalizador para que cuaje el proyecto del libro.
    Voy a echarle un vistazo a lo que me comentas y gracias por leernos.

    Saludos a todos los Venezolanos y por supuesto Venezolanas.

  • Que tal Jorge Andrade Soy estudiante de LAE en MTY y este Blog me fue de gran ayuda !Muchas Gracias! esta sencillo, practico y aparte amigable otra vez gracias.

    Saludos desde Monterrey N.L

  • Me da mucho gusto que te haya sido útil.
    Un gran abrazo.

  • Estimado Jorge, felicidades por el blog, ¿qué paso con el tema del libro, has publicado algo, está a la vuelta de la esquina?. Recibe un saludo desde Guadalajara.

  • Gracias por los comentarios Adolfo, la situación para muchos es un poco difícil por lo que no he podido suspender el trabajo para dedicarme a escribir, ojalá y que pronto se vuelva una realidad. Nuevamente gracias por leernos.

  • Que tal Jorge !! Me podrías decir y enviarme informacio estadistica para saber y comprobar la CORRELACION que se genera entre las variables (preguntas) ?

    estoy en porceso de realizacion de mi TESIS de maestria y como tesis estoy llevando a cabo una Investigacion sobre la “EFICIENCIA DE LA GESTION EN LA ADEMINISTRACION POR LAS Pymes”

    MI tesis esta basada en demostrar que es necesario llevar a cabo la GESTION ADMINISTRATIVA como una mejor manera de administrar un negocio y en donde las Áreas de : FINANZAS, MERCADOTECNIA Y VENTAS se deben de integrar buscando objetivos en comun y donde deben compartir informacion.

    Mi estadistica debe de demostrar que existe CORRELACION, es decir que las variabes (preguntas) se afectan !! SALUDOS !!

  • Hola Arturo, no entendí muy bien tu petición pero supongo a que te refieres a cómo realizar un análisis de correlación ¿es correcto? El tema no es complicado. Te recomiendo que leas el capítulo sobre correlación del libro investigación del comportamiento de Fred N. Kerlinger, es uno de los mejores libros que se pueden encontrar sobre investigación. Saludos.

  • Excelente !! Muchas gracias por su blog, soy estudiante de Maestría en Salud Pública y con esto me ha ayudado a entender mucho del analisis estadistico en salud.
    Ojala si escriba un libro o abra un tutorial a distancia, seria fabuloso…
    Gracias de verdad !! =)

Deja un comentario