Cos'è la regressione logistica?

La regressione logistica è una tecnica di analisi dei dati che utilizza la matematica per trovare le relazioni tra due fattori di dati. Utilizza quindi questa relazione per prevedere il valore di uno di quei fattori in base all'altro. La previsione di solito ha un numero finito di risultati, ad esempio sì o no.

Supponiamo che tu voglia indovinare se il visitatore del tuo sito Web farà clic sul pulsante di pagamento nel carrello o meno. L'analisi di regressione logistica esamina il comportamento dei visitatori passati, come il tempo trascorso sul sito Web e il numero di articoli nel carrello. Determina che, in passato, se i visitatori trascorrevano più di cinque minuti sul sito e aggiungevano più di tre articoli al carrello, facevano clic sul pulsante di pagamento. Utilizzando queste informazioni, la funzione di regressione logistica può quindi prevedere il comportamento di un nuovo visitatore del sito Web.

Perché è importante la regressione logistica?

La regressione logistica è una tecnica importante nel campo dell'intelligenza artificiale e del machine learning (IA/ML). I modelli ML sono programmi software che è possibile addestrare per eseguire complesse attività di elaborazione dei dati senza l'intervento umano. I modelli di ML costruiti utilizzando la regressione logistica aiutano le organizzazioni a ottenere informazioni utili dai dati aziendali. Possono utilizzare queste informazioni per l'analisi predittiva per ridurre i costi operativi, aumentare l'efficienza e dimensionare più velocemente. Ad esempio, le aziende possono scoprire modelli che migliorano la fidelizzazione dei dipendenti o portano a una progettazione del prodotto più redditizia.

Di seguito, elenchiamo alcuni vantaggi dell'utilizzo della regressione logistica rispetto ad altre tecniche di ML.

Semplicità

I modelli di regressione logistica sono matematicamente meno complessi rispetto ad altri metodi di ML. Pertanto, puoi implementarli anche se nessuno nel tuo team ha una profonda esperienza di ML.

Velocità

I modelli di regressione logistica possono elaborare grandi volumi di dati ad alta velocità perché richiedono meno capacità di calcolo, come memoria e potenza di elaborazione. Ciò li rende ideali per le organizzazioni che stanno iniziando con progetti di ML per ottenere rapidamente dei successi.

Flessibilità

Puoi utilizzare la regressione logistica per trovare risposte a domande che hanno due o più risultati finiti. Puoi anche usarla per pre-elaborare i dati. Ad esempio, puoi ordinare i dati con un ampio intervallo di valori, come le transazioni bancarie, in un intervallo di valori più piccolo e finito utilizzando la regressione logistica. Puoi quindi elaborare questo set di dati più piccolo utilizzando altre tecniche di ML per un'analisi più accurata.

Visibilità

L'analisi di regressione logistica offre agli sviluppatori una maggiore visibilità sui processi software interni rispetto ad altre tecniche di analisi dei dati. Anche la risoluzione dei problemi e la correzione degli errori sono più semplici perché i calcoli sono meno complessi.

Quali sono le applicazioni della regressione logistica?

La regressione logistica ha diverse applicazioni nel mondo reale in numerosi settori diversi.

Manifatturiero

Le aziende manifatturiere utilizzano l'analisi di regressione logistica per stimare la probabilità di guasti dei pezzi nei macchinari. Quindi pianificano i programmi di manutenzione in base a questa stima per ridurre al minimo i guasti futuri.

Sanità

I ricercatori medici pianificano cure e trattamenti preventivi prevedendo la probabilità di malattia nei pazienti. Usano modelli di regressione logistica per confrontare l'impatto della storia familiare o dei geni sulle malattie. 

Finanza 

Le società finanziarie devono analizzare le transazioni finanziarie alla ricerca di frodi e valutare le richieste di prestito e le domande di assicurazione per il rischio. Questi problemi sono adatti per un modello di regressione logistica perché hanno esiti discreti, come rischio elevato o basso rischio e fraudolenti o non fraudolenti.  

Addetti al marketing

Gli strumenti pubblicitari online utilizzano il modello di regressione logistica per prevedere se gli utenti faranno clic su un annuncio. Di conseguenza, gli esperti di marketing possono analizzare le risposte degli utenti a parole e immagini diverse e creare annunci pubblicitari ad alte prestazioni con cui i clienti interagiranno.

Come funziona l'analisi di regressione?

La regressione logistica è una delle diverse tecniche di analisi della regressione che i data scientist usano comunemente nel machine learning (ML). Per comprendere la regressione logistica, dobbiamo prima comprendere l'analisi di regressione di base. Di seguito, utilizziamo un esempio di analisi di regressione lineare per dimostrare come funziona l'analisi di regressione. 

Identificazione della domanda

Qualsiasi analisi dei dati inizia con una domanda commerciale. Per la regressione logistica, è necessario formulare la seguente domanda per ottenere risultati particolari:

  • I giorni di pioggia influiscono sulle nostre vendite mensili? (sì o no)
  • Che tipo di attività con carta di credito sta svolgendo il cliente? (autorizzato, fraudolento o potenzialmente fraudolento) 

Raccolta di dati storici

Dopo aver identificato la domanda, è necessario identificare i fattori di dati coinvolti. Raccoglierai quindi i dati precedenti per tutti i fattori. Ad esempio, per rispondere alla prima domanda mostrata sopra, puoi raccogliere il numero di giorni di pioggia e i dati di vendita mensili per ogni mese negli ultimi tre anni.

Addestramento del modello di analisi della regressione

Elaborerai i dati storici utilizzando un software di regressione. Il software elaborerà i diversi punti dati e li collegherà matematicamente utilizzando equazioni. Ad esempio, se il numero di giorni di pioggia per tre mesi è 3, 5 e 8 e il numero di vendite in quei mesi è 8, 12 e 18, l'algoritmo di regressione collegherà i fattori con l'equazione:

Numero di vendite = 2*(numero di giorni di pioggia) + 2

Previsioni per i valori sconosciuti

Per i valori sconosciuti, il software utilizza l'equazione per fare una previsione. Se sai che pioverà per sei giorni a luglio, il software stimerà il valore di vendita di luglio come 14.

Come funziona il modello di regressione logistica?

Per comprendere il modello di regressione logistica, prima di tutto dobbiamo capire di equazioni e variabili.

Equazioni

In matematica, le equazioni forniscono la relazione tra due variabili: x e y. Puoi utilizzare queste equazioni, o funzioni, per tracciare un grafico lungo l'asse x e l'asse y inserendo i diversi valori di x e y. Ad esempio, se tracci il grafico per la funzione y = 2*x, otterrai una linea retta come mostrato di seguito. Questa funzione è pertanto chiamata anche funzione lineare.

Variabili

In statistica, le variabili sono i fattori o gli attributi dei dati i cui valori variano. Per qualsiasi analisi, alcune variabili sono variabili indipendenti o esplicative. Questi attributi sono la causa di un risultato. Altre variabili sono variabili dipendenti o di risposta; i loro valori dipendono dalle variabili indipendenti. In generale, la regressione logistica esplora il modo in cui le variabili indipendenti influenzano una variabile dipendente osservando i valori dei dati storici di entrambe le variabili. 

Nel nostro esempio precedente, x è la variabile indipendente, variabile predittiva o variabile esplicativa perché ha un valore noto. Y è invece la variabile dipendente, variabile di risultato o variabile di risposta perché il suo valore è sconosciuto. 

Funzione di regressione logistica

La regressione logistica è un modello statistico che utilizza la funzione logistica, o funzione logit, in matematica come equazione tra x e y. La funzione logit mappa y come funzione sigmoide di x.

Se tracci questa equazione di regressione logistica, otterrai una curva a S come mostrato di seguito.

Come puoi vedere, la funzione logit restituisce solo valori compresi tra 0 e 1 per la variabile dipendente, indipendentemente dai valori della variabile indipendente. Ecco come la regressione logistica stima il valore della variabile dipendente. I metodi di regressione logistica modellano anche equazioni tra più variabili indipendenti e una variabile dipendente.

Analisi di regressione logistica con più variabili indipendenti

In molti casi, sul valore della variabile dipendente influiscono più variabili esplicative. Per modellare questi set di dati di input, le formule di regressione logistica presuppongono una relazione lineare tra le diverse variabili indipendenti. Puoi modificare la funzione sigmoide e calcolare la variabile di output finale come 

y = f0 + β1x1 + β2x2+… βnxn)

Il simbolo β rappresenta il coefficiente di regressione. Il modello logit può invertire il calcolo di questi valori di coefficiente quando gli si assegna un set di dati sperimentale sufficientemente grande con valori noti di variabili dipendenti e indipendenti. 

Probabilità log

Il modello logit può anche determinare il rapporto tra successo e fallimento, o probabilità log. Ad esempio, se stavi giocando a poker con i tuoi amici e hai vinto quattro partite su 10, le tue probabilità di vincita sono quattro sesti, o quattro su sei, che è il rapporto tra successo e fallimento. La probabilità di vincere, invece, è quattro su 10.

Dal punto di vista matematico, le tue possibilità in termini di probabilità sono p/(1 - p) e le tue probabilità log sono log (p/(1 - p)). Puoi rappresentare la funzione logistica come probabilità log come mostrato di seguito:

Quali sono i tipi di analisi di regressione logistica?

Esistono tre diversi approcci all'analisi della regressione logistica basati sui risultati della variabile dipendente.

Regressione logistica binaria

La regressione logistica binaria funziona bene per i problemi di classificazione binaria che hanno solo due possibili risultati. La variabile dipendente può avere solo due valori, ad esempio sì e no oppure 0 e 1.

Anche se la funzione logistica calcola un intervallo di valori compreso tra 0 e 1, il modello di regressione binaria arrotonda la risposta ai valori più vicini. Generalmente, le risposte inferiori a 0,5 vengono arrotondate a 0 e le risposte superiori a 0,5 vengono arrotondate a 1, in modo che la funzione logistica restituisca un risultato binario.

Regressione logistica multinomiale

La regressione multinomiale può analizzare problemi che hanno diversi esiti possibili purché il numero di risultati sia finito. Ad esempio, può prevedere se i prezzi delle case aumenteranno del 25%, 50%, 75% o 100% in base ai dati sulla popolazione, ma non può prevedere il valore esatto di una casa.

La regressione logistica multinomiale funziona mappando i valori dei risultati su valori diversi compresi tra 0 e 1. Poiché la funzione logistica può restituire un intervallo di dati continui, come 0,1, 0,11, 0,12 e così via, la regressione multinomiale raggruppa anche l'output ai valori più vicini possibili.

Regressione logistica ordinale

La regressione logistica ordinale, o modello logit ordinato, è un tipo speciale di regressione multinomiale per problemi in cui i numeri rappresentano i ranghi piuttosto che i valori effettivi. Ad esempio, utilizzeresti la regressione ordinale per prevedere la risposta a una domanda del sondaggio che chiede ai clienti di classificare il tuo servizio come scadente, sufficiente, buono o eccellente in base a un valore numerico, ad esempio il numero di articoli che acquistano da te nel corso dell'anno.

Come si confronta la regressione logistica con altre tecniche di ML?

Le due tecniche comuni di analisi dei dati sono l'analisi di regressione lineare e il deep learning.

Analisi di regressione lineare

Come spiegato sopra, la regressione lineare modella la relazione tra variabili dipendenti e indipendenti utilizzando una combinazione lineare. L'equazione di regressione lineare è

y= β0X0 + β1X1 + β2X2+… βnXn+ ε, dove β1 a βn e ε sono coefficienti di regressione.

Regressione logistica e regressione lineare

La regressione lineare prevede una variabile dipendente continua utilizzando un determinato insieme di variabili indipendenti. Una variabile continua può avere un intervallo di valori, come prezzo o età. Quindi la regressione lineare può prevedere i valori effettivi della variabile dipendente. Può rispondere a domande come "Quale sarà il prezzo del riso dopo 10 anni?"

A differenza della regressione lineare, la regressione logistica è un algoritmo di classificazione. Non è in grado di prevedere i valori effettivi dei dati continui. Può rispondere a domande come "Il prezzo del riso aumenterà del 50% in 10 anni?"

Deep learning

Il deep learning utilizza reti neurali o componenti software che simulano il cervello umano per analizzare le informazioni. I calcoli di deep learning si basano sul concetto matematico dei vettori.

Regressione logistica e deep learning

La regressione logistica è meno complessa e richiede meno elaborazione rispetto al deep learning. Ancora più importante, i calcoli di deep learning non possono essere studiati o modificati dagli sviluppatori, a causa della loro natura complessa e guidata da macchine. D'altra parte, i calcoli di regressione logistica sono trasparenti e più facili da risolvere.

Come si possono eseguire analisi di regressione logistica su AWS?

È possibile eseguire la regressione logistica su AWS utilizzando Amazon SageMaker. SageMaker è un servizio di machine learning (ML) completamente gestito con algoritmi integrati per la regressione lineare e la regressione logistica, oltre a numerosi altri pacchetti di software statistici.

  • Ogni data scientist può utilizzare SageMaker per preparare, costruire, addestrare e distribuire rapidamente modelli di regressione logistica.
  • SageMaker semplifica i passaggi del processo di regressione logistica per sviluppare modelli di alta qualità in modo più facile.
  • SageMaker fornisce tutti i componenti necessari per la regressione logistica in un unico set di strumenti in modo da poter portare i modelli in produzione più velocemente, più facilmente e a un costo inferiore.

Inizia a utilizzare subito la regressione logistica creando un account AWS.

Fasi successive su AWS

Scopri ulteriori risorse correlate al prodotto
Servizi gratuiti di machine learning in AWS 
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Inizia a lavorare con la console

Inizia subito a sviluppare nella Console di gestione AWS.

Accedi