¿Qué es la regresión logística?
La regresión logística es una técnica de análisis de datos que utiliza las matemáticas para encontrar las relaciones entre dos factores de datos. Luego, utiliza esta relación para predecir el valor de uno de esos factores basándose en el otro. Normalmente, la predicción tiene un número finito de resultados, como un sí o un no.
Por ejemplo, supongamos que desea adivinar si el visitante de su sitio web va a hacer clic en el botón de pago de su carrito de compras o no. El análisis de regresión logística analiza el comportamiento de los visitantes anteriores, como el tiempo que permanecen en el sitio web y la cantidad de artículos que hay en el carrito. Determina que, si anteriormente los visitantes pasaban más de cinco minutos en el sitio y agregaban más de tres artículos al carrito, hacían clic en el botón de pago. Con esta información, la función de regresión logística puede predecir el comportamiento de un nuevo visitante en el sitio web.
¿Por qué es importante la regresión logística?
La regresión logística es una técnica importante en el campo de la inteligencia artificial y el machine learning (AI/ML). Los modelos de ML son programas de software que puede entrenar para realizar tareas complejas de procesamiento de datos sin intervención humana. Los modelos de ML creados mediante regresión logística ayudan a las organizaciones a obtener información procesable a partir de sus datos empresariales. Pueden usar esta información para el análisis predictivo a fin de reducir los costos operativos, aumentar la eficiencia y escalar más rápido. Por ejemplo, las empresas pueden descubrir patrones que mejoran la retención de los empleados o conducen a un diseño de productos más rentable.
A continuación, enumeramos algunos beneficios del uso de la regresión logística en comparación con otras técnicas de ML.
Simplicidad
Los modelos de regresión logística son matemáticamente menos complejos que otros métodos de ML. Por lo tanto, puede implementarlos incluso si nadie de su equipo tiene una profunda experiencia en ML.
Velocidad
Los modelos de regresión logística pueden procesar grandes volúmenes de datos a alta velocidad porque requieren menos capacidad computacional, como memoria y potencia de procesamiento. Esto los hace ideales para que las organizaciones que están empezando con proyectos de ML obtengan ganancias rápidas.
Flexibilidad
Puede usar la regresión logística para encontrar respuestas a preguntas que tienen dos o más resultados finitos. También puede usarlo para preprocesar datos. Por ejemplo, puede ordenar los datos con un amplio rango de valores, como las transacciones bancarias, en un rango de valores más pequeño y finito mediante la regresión logística. A continuación, puede procesar este conjunto de datos más pequeño mediante el uso de otras técnicas de ML para obtener un análisis más preciso.
Visibilidad
El análisis de regresión logística ofrece a los desarrolladores una mayor visibilidad de los procesos de software internos que otras técnicas de análisis de datos. La solución de problemas y la corrección de errores también son más fáciles porque los cálculos son menos complejos.
¿Cuáles son las aplicaciones de la regresión logística?
La regresión logística tiene varias aplicaciones del mundo real en muchos sectores diferentes.
Fabricación
Las empresas de fabricación utilizan el análisis de regresión logística para estimar la probabilidad de fallo de las piezas en la maquinaria. Luego, planifican los programas de mantenimiento en función de esta estimación para minimizar los fallos futuros.
Sanidad
Los investigadores médicos planifican la atención y el tratamiento preventivos mediante la predicción de la probabilidad de enfermedad en los pacientes. Utilizan modelos de regresión logística para comparar el impacto de los antecedentes familiares o los genes en las enfermedades.
Finanzas
Las empresas financieras tienen que analizar las transacciones financieras en busca de fraudes y evaluar las solicitudes de préstamos y seguros en busca de riesgos. Estos problemas son adecuados para un modelo de regresión logística porque tienen resultados discretos, como alto riesgo o bajo riesgo y fraudulento o no fraudulento.
Marketing
Las herramientas de publicidad en línea utilizan el modelo de regresión logística para predecir si los usuarios harán clic en un anuncio. Como resultado, los especialistas en marketing pueden analizar las respuestas de los usuarios a diferentes palabras e imágenes y crear anuncios de alto rendimiento con los que los clientes interactuarán.
¿Cómo funciona el análisis de regresión?
La regresión logística es una de las diferentes técnicas de análisis de regresión que los científicos de datos utilizan habitualmente en machine learning (ML). Para entender la regresión logística, primero debemos entender el análisis de regresión básica. A continuación, utilizamos un ejemplo de análisis de regresión lineal para demostrar cómo funciona el análisis de regresión.
Identificar la pregunta
Cualquier análisis de datos comienza con una pregunta empresarial. Para la regresión logística, hay que formular la pregunta para obtener resultados concretos:
- ¿Los días de lluvia afectan nuestras ventas mensuales? (sí o no)
- ¿Qué tipo de actividad de tarjeta de crédito realiza el cliente? (autorizado, fraudulento o potencialmente fraudulento)
Recopilar datos históricos
Una vez identificada la pregunta, debe identificar los factores de los datos que intervienen. A continuación, recopilará datos anteriores para todos los factores. Por ejemplo, para responder a la primera pregunta que se muestra arriba, puede recopilar el número de días de lluvia y los datos de ventas mensuales de cada mes en los últimos tres años.
Entrenar el modelo de análisis de regresión
Deberá procesar los datos históricos mediante un software de regresión. El software procesará los diferentes puntos de datos y los conectará matemáticamente mediante ecuaciones. Por ejemplo, si el número de días lluviosos durante tres meses es 3, 5 y 8 y el número de ventas en esos meses es 8, 12 y 18, el algoritmo de regresión conectará los factores con la ecuación:
Número de ventas = 2* (número de días lluviosos) + 2
Realizar predicciones para valores desconocidos
Para valores desconocidos, el software utiliza la ecuación para hacer una predicción. Si sabe que lloverá durante seis días en julio, el software calculará el valor de venta de julio en 14.
¿Cómo funciona el modelo de regresión logística?
Para entender el modelo de regresión logística, primero vamos a entender las ecuaciones y las variables.
Ecuaciones
En matemáticas, las ecuaciones dan la relación entre dos variables: x e y. Puede usar estas ecuaciones, o funciones, para trazar un gráfico a lo largo de los ejes x e y poniendo diferentes valores de x e y. Por ejemplo, si traza el gráfico para la función y = 2*x, obtendrá una línea recta como se muestra a continuación. Por lo tanto, esta función también se denomina función lineal.
Variables
En estadística, las variables son los factores o atributos de datos cuyos valores varían. Para cualquier análisis, ciertas variables son independientes o explicativas. Estos atributos son la causa de un resultado. Otras variables son variables dependientes o de respuesta; sus valores dependen de las variables independientes. En general, la regresión logística explora cómo las variables independientes afectan a una variable dependiente al observar los valores de datos históricos de ambas variables.
En nuestro ejemplo anterior,x se denomina variable independiente, variable predictora o variable explicativa porque tiene un valor conocido. Y se denomina variable dependiente, variable de resultado o variable de respuesta porque se desconoce su valor.
Función de regresión logística
La regresión logística es un modelo estadístico que utiliza la función logística, o función logit, en matemáticas como la ecuación entre x ey. La función logit mapea y como una función sigmoidea de x.
Si representa esta ecuación de regresión logística, obtendrá una curva en S como la que se muestra a continuación.
Como puede ver, la función logit devuelve solo valores entre 0 y 1 para la variable dependiente, al margen de los valores de la variable independiente. Así es como la regresión logística estima el valor de la variable dependiente. Los métodos de regresión logística también modelan ecuaciones entre múltiples variables independientes y una variable dependiente.
Análisis de regresión logística con múltiples variables independientes
En muchos casos, múltiples variables explicativas afectan al valor de la variable dependiente. Para modelar dichos conjuntos de datos de entrada, las fórmulas de regresión logística asumen una relación lineal entre las diferentes variables independientes. Puede modificar la función sigmoidea y calcular la variable de salida final como
y = f(β0 + β1x1 + β2x2+… βnxn)
El símbolo β representa el coeficiente de regresión. El modelo logit puede calcular de forma inversa estos valores de coeficientes cuando se le proporciona un conjunto de datos experimentales suficientemente grande con valores conocidos de variables dependientes e independientes.
Registrar probabilidades
El modelo logit también puede determinar la relación entre el éxito y el fracaso o registrar las probabilidades. Por ejemplo, si estaba jugando al póker con sus amigos y ganó cuatro partidos de 10, sus probabilidades de ganar son cuatro sextos, o cuatro de seis, que es la relación entre su éxito y su fracaso. La probabilidad de ganar, por otro lado, es de cuatro sobre 10.
Matemáticamente, sus probabilidades en términos de probabilidad son p/(1 - p), y sus registros de probabilidades son (p/[1 - p]). Se puede representar la función logística como registro de probabilidades como se muestra a continuación:
¿Cuáles son los tipos de análisis de regresión logística?
Hay tres enfoques para el análisis de regresión logística basados en los resultados de la variable dependiente.
Regresión logística binaria
La regresión logística binaria funciona bien para problemas de clasificación binaria que solo tienen dos resultados posibles. La variable dependiente solo puede tener dos valores, como sí y no o 0 y 1.
Aunque la función logística calcula un rango de valores entre 0 y 1, el modelo de regresión binaria redondea la respuesta a los valores más cercanos. Por lo general, las respuestas por debajo de 0,5 se redondean a 0 y las respuestas por encima de 0,5 se redondean a 1, de modo que la función logística devuelve un resultado binario.
Regresión logística multinomial
La regresión multinomial puede analizar problemas que tienen varios resultados posibles, siempre y cuando el número de resultados sea finito. Por ejemplo, puede predecir si los precios de la vivienda aumentarán un 25 %, 50 %, 75 % o 100 % en función de los datos de población, pero no puede predecir el valor exacto de una casa.
La regresión logística multinomial funciona mapeando los valores de resultado con diferentes valores entre 0 y 1. Como la función logística puede devolver un rango de datos continuos, como 0,1, 0,11, 0,12, etc., la regresión multinomial también agrupa el resultado a los valores más cercanos posibles.
Regresión logística ordinal
La regresión logística ordinal, o el modelo logit ordenado, es un tipo especial de regresión multinomial para problemas en los que los números representan rangos en lugar de valores reales. Por ejemplo, puede utilizar la regresión ordinal para predecir la respuesta a una pregunta de una encuesta en la que se pide a los clientes que clasifiquen su servicio como malo, regular, bueno o excelente en función de un valor numérico, como el número de artículos que le han comprado a lo largo del año.
¿Cómo se compara la regresión logística con otras técnicas de ML?
Las dos técnicas comunes de análisis de datos son el análisis de regresión lineal y el aprendizaje profundo.
Análisis de regresión lineal
Como se explicó anteriormente, la regresión lineal modela la relación entre variables dependientes e independientes mediante el uso de una combinación lineal. La ecuación de regresión lineal es
y= β0X0 + β1X1 + β2X2+… βnXn+ ε, donde β1 a βn y ε son coeficientes de regresión.
Regresión logística vs. regresión lineal
La regresión lineal predice una variable dependiente continua mediante el uso de un conjunto dado de variables independientes. Una variable continua puede tener un rango de valores, como el precio o la antigüedad. Por lo tanto, la regresión lineal puede predecir los valores reales de la variable dependiente. Puede responder a preguntas como “¿Cuál será el precio del arroz después de 10 años?”
A diferencia de la regresión lineal, la regresión logística es un algoritmo de clasificación. No puede predecir los valores reales de los datos continuos. Puede responder a preguntas como “¿Aumentará el precio del arroz un 50 % en 10 años?”
Aprendizaje profundo
El aprendizaje profundo utiliza redes neuronales o componentes de software que simulan el cerebro humano para analizar la información. Los cálculos de aprendizaje profundo se basan en el concepto matemático de vectores.
Regresión logística frente a aprendizaje profundo
La regresión logística es menos compleja y requiere menos recursos informáticos que el aprendizaje profundo. Y lo que es más importante, los desarrolladores no pueden investigar ni modificar los cálculos de aprendizaje profundo, debido a su naturaleza compleja y dirigida por la máquina. Por otro lado, los cálculos de regresión logística son transparentes y más fáciles de solucionar.
¿Cómo puede ejecutar el análisis de regresión logística en AWS?
Puede ejecutar la regresión logística en AWS con Amazon SageMaker. SageMaker es un servicio de machine learning (ML) totalmente gestionado con algoritmos integrados para la regresión lineal y la regresión logística, entre otros paquetes de software estadístico.
- Todos los científicos de datos pueden usar SageMaker para preparar, crear, entrenar e implementar modelos de regresión logística rápidamente.
- SageMaker elimina el trabajo pesado de cada paso del proceso de regresión logística para facilitar el desarrollo de modelos de alta calidad.
- SageMaker proporciona todos los componentes que usted necesita para la regresión logística en un solo conjunto de herramientas para que pueda obtener los modelos a la producción más rápido, más fácil y a un menor costo.
Comience con la regresión logística con la creación de una cuenta de AWS hoy mismo.
Siguientes pasos en AWS
Obtenga acceso inmediato al nivel Gratuito de AWS.
Comience a crear en la consola de administración de AWS.