¿Qué diferencia hay entre la regresión lineal y la regresión logística?

La regresión lineal y la regresión logística son técnicas de machine learning que realizan predicciones analizando datos históricos. Por ejemplo, al observar las tendencias de compra de los clientes en el pasado, el análisis de regresión estima las ventas futuras, por lo que puede realizar compras de inventario más informadas. Las técnicas de regresión lineal modelan matemáticamente el factor desconocido en múltiples factores conocidos para estimar el valor exacto desconocido. Del mismo modo, la regresión logística utiliza las matemáticas para encontrar las relaciones entre dos factores de datos. Luego, utiliza esta relación para predecir el valor de uno de esos factores basándose en el otro. Normalmente, la predicción tiene un número finito de resultados, como un sí o un no.

Lea acerca de la regresión lineal »

Lea acerca de la regresión logística »

Predicciones: la regresión lineal y la regresión logística

Tanto la regresión lineal como la regresión logística utilizan modelos matemáticos para predecir el valor de una variable de salida a partir de una o más variables de entrada. Las variables de salida son variables dependientes y las variables de entrada son variables independientes.

Regresión lineal

Todas las variables independientes tienen una relación directa con la variable dependiente y no tienen ninguna relación con las demás variables independientes. Esta relación se conoce como relación lineal. La variable dependiente suele ser un valor de un rango de valores continuos.

Esta es la fórmula, o función lineal, para crear un modelo de regresión lineal:

y= β0 + β1X1 + β2X2+… βnXn+ ε

Esto es lo que significa cada variable:

  • y es la variable dependiente pronosticada
  • β0 es la intersección y, cuando todas las variables de entrada independientes son iguales a 0
  • β1X1 es el coeficiente de regresión (β1) de la primera variable independiente (X1), el efecto de la primera variable independiente sobre la variable dependiente
  • βnXn es el coeficiente de regresión (βn) de la última variable independiente (Xn), cuando hay múltiples valores de entrada
  • ε es el error del modelo

Un ejemplo de regresión lineal es predecir el precio de una vivienda (variable dependiente) en función del número de habitaciones, el vecindario y la antigüedad (variables independientes).

Regresión logística

El valor de la variable dependiente es uno de una lista de categorías finitas que utilizan la clasificación binaria. Se denominan variables categóricas. Un ejemplo es el resultado de lanzar un dado de seis caras. Esta relación se conoce como relación logística.

La fórmula de la regresión logística aplica una transformación logit, o el logaritmo natural de las probabilidades, a la probabilidad de éxito o fracaso de una variable categórica concreta.

y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))

Esto es lo que significa cada variable:

  • y da la probabilidad de éxito de la variable categórica y
  • e (x) es el número de Euler, la inversa de la función del logaritmo natural o función sigmoidea, ln (x)
  • Β0, β1X1…βnXn tienen el mismo significado que la regresión lineal en la sección anterior

Un ejemplo de regresión logística es predecir la probabilidad de que el precio de una casa supere los 500 000 USD (variable dependiente) en función del número de habitaciones, el vecindario y la antigüedad (variables independientes).

¿Cuáles son las similitudes entre la regresión lineal y la regresión logística?

La regresión lineal y la regresión logística comparten algunos puntos en común y tienen espacios de aplicación de amplio alcance similares.

Análisis estadístico

Tanto la regresión logística como la lineal son modalidades de análisis estadístico o de datos, y entran dentro del campo de la ciencia de datos. Ambos utilizan la modelización matemática para relacionar un conjunto de variables independientes o conocidas con las variables dependientes. Puede usar ecuaciones matemáticas para representar tanto la regresión logística como la regresión lineal. También puede representar el modelo en un gráfico.

Técnicas de machine learning

Tanto los modelos de regresión lineal como los de regresión logística se utilizan para el machine learning supervisado.

El machine learning supervisado consiste en entrenar un modelo introduciendo conjuntos de datos etiquetados. Los investigadores humanos conocen y recopilan las variables dependientes e independientes. Introduciendo datos históricos conocidos, se realiza una ingeniería inversa de la ecuación matemática. Con el tiempo, las predicciones pueden llegar a ser precisas para calcular variables dependientes desconocidas a partir de variables independientes conocidas.

El aprendizaje supervisado difiere del aprendizaje no supervisado, en el que los datos no están etiquetados.

Más información sobre el machine learning »

Dificultad en el entrenamiento

Tanto la regresión logística como la regresión lineal requieren una cantidad significativa de datos etiquetados para que los modelos sean precisos en las predicciones. Esto puede ser una tarea ardua para los humanos. Por ejemplo, si desea etiquetar que una imagen contiene un coche, todas las imágenes deben tener etiquetas de variables como el tamaño del coche, el ángulo de la foto y los obstáculos. 

Precisión de la predicción limitada

Un modelo estadístico que adapta los datos de entrada a los datos de salida no implica necesariamente una relación causal entre la variable dependiente y la independiente. Tanto para la regresión logística como para la regresión lineal, correlación no es causalidad.

Para utilizar el ejemplo del precio de la vivienda de la sección anterior, supongamos que el nombre del propietario se une a la lista de variables independientes. Entonces, el nombre Juan Pérez se correlaciona con precios de venta de viviendas más bajos. Aunque la regresión lineal y la regresión logística siempre predirán precios de la vivienda más bajos si el nombre del propietario es Juan Pérez, la lógica dice que esta relación con los datos de entrada es incorrecta.

Diferencias clave entre la regresión lineal y la regresión logística

La regresión logística y la regresión lineal son muy diferentes en sus planteamientos matemáticos.

Valor del resultado

El resultado de la regresión lineal es una escala de valores continua. Esto incluye, por ejemplo, números, kilómetros, precio y peso.

Por el contrario, el resultado del modelo de regresión logística es la probabilidad de que se produzca un suceso categórico fijo. Por ejemplo, 0,76 podría significar una probabilidad del 76 % de llevar una camiseta azul, y 0,22 podría significar una probabilidad del 22 % de votar “sí”.

Relación variable

En el análisis de regresión, una línea de regresión es la forma de la línea gráfica que representa la relación entre cada variable independiente y la variable dependiente.

En la regresión lineal, la línea de regresión es recta. Cualquier cambio en una variable independiente tiene un efecto directo en la variable dependiente.

En la regresión logística, la línea de regresión es una curva en forma de S, también conocida como curva sigmoidea.

Tipo de distribución matemática

La regresión lineal sigue una distribución normal o gaussiana de la variable dependiente. Una distribución normal se representa mediante una línea continua en un gráfico.

Una regresión logística sigue una distribución binomial. La distribución binomial se suele representar como un gráfico de barras.

Cuándo utilizar la regresión lineal y cuándo la regresión logística

Puede utilizar la regresión lineal cuando desee predecir una variable dependiente continua a partir de una escala de valores. Utilice la regresión logística cuando espere un resultado binario (por ejemplo, sí o no).

Ejemplos de regresión lineal: 

  • Predecir la estatura de un adulto en función de la estatura de la madre y del padre
  • Predecir el volumen de ventas de calabazas en función del precio, la época del año y la ubicación de la tienda
  • Predecir el precio de un billete de avión en función del origen, el destino, la época del año y la compañía aérea
  • Predecir el número de “me gusta” en las redes sociales en función del autor de la publicación, su número de seguidores orgánicos, el contenido de la publicación y la hora del día en que se ha publicado

Ejemplos de regresión logística:

  • Predecir si una persona padecerá una enfermedad cardíaca en función del IMC, el hábito de fumar y la predisposición genética
  • Predecir qué artículos de ropa serán los más populares en función del color, la talla, el tipo y el precio
  • Predecir si un empleado renunciará ese año en función del salario, los días en la oficina, el número de reuniones, el número de correos electrónicos enviados, el equipo y la permanencia
  • Predecir qué miembros del equipo de ventas tendrán más de un millón de dólares en contratos en un año en función de las ventas del año anterior, la permanencia en el puesto y la tasa de comisiones

Resumen de las diferencias entre la regresión lineal y la regresión logística

 

Regresión lineal

Regresión logística

¿Qué es?

Un método estadístico para predecir un valor de salida a partir de un conjunto de valores de entrada.

Método estadístico para predecir la probabilidad de que un valor de salida pertenezca a una categoría determinada a partir de un conjunto de variables categóricas.

Relaciones

Relación lineal, representada por una línea recta.

Relación logística o relación sigmoidea, representada por una curva en forma de S.

Ecuación

Lineal.

Logarítmica.

Tipo de aprendizaje supervisado

Regresión.

Clasificación.

Tipo de distribución

Normal/gaussiana.

Binomial.

Más adecuada para lo siguiente:

Tareas que requieren una variable dependiente continua predicha a partir de una escala.

Tareas que requieren una predicción de la probabilidad de que se produzca una variable dependiente categórica a partir de un conjunto fijo de categorías.

¿Cómo puede ejecutar un análisis de regresión lineal y de regresión logística en AWS?

Puede ejecutar análisis de regresión lineal y logística en Amazon Web Services (AWS) con Amazon SageMaker.

SageMaker es un servicio de machine learning (ML) completamente administrado con algoritmos de regresión incorporados para la regresión lineal y logística, entre otros paquetes de software estadístico. Puede implementar la regresión lineal con tantos valores de entrada como necesite o resolver problemas de regresión con modelos de probabilidad logística.

Por ejemplo, puede beneficiarse de SageMaker de la siguiente manera:

  • Prepare, cree, entrene e implemente modelos de regresión rápidamente
  • Elimine el trabajo pesado de cada paso del proceso de regresión lineal y logística y desarrolle modelos de regresión de alta calidad.
  • Acceda a todos los componentes necesarios para el análisis de regresión en un único conjunto de herramientas para llevar los modelos a producción de forma más rápida, sencilla y asequible.

Cree una cuenta hoy mismo para empezar a utilizar el análisis de regresión en AWS.