로지스틱 회귀란 무엇입니까?

로지스틱 회귀는 수학을 사용하여 두 데이터 요인 간의 관계를 찾는 데이터 분석 기법입니다. 그런 다음 이 관계를 사용하여 다른 요인을 기반으로 이러한 요인 중 하나의 값을 예측합니다. 예측은 일반적으로 예 또는 아니요와 같이 유한한 수의 결과를 가집니다.

예를 들어 웹 사이트 방문자가 장바구니에서 결제 버튼을 클릭할지 여부를 추측한다고 가정할 때 로지스틱 회귀 분석은 웹 사이트에서 보낸 시간 및 카트에 있는 항목 수와 같은 과거의 방문자 행동을 살펴봅니다. 그런 다음 과거에 방문자가 사이트에서 5분 이상 시간을 보내고 카트에 3개 이상의 항목을 추가한 경우 결제 버튼을 클릭했다고 판단합니다. 로지스틱 회귀 함수는 이 정보를 사용하여 새 웹 사이트 방문자의 행동을 예측할 수 있습니다.

로지스틱 회귀가 중요한 이유는 무엇인가요?

로지스틱 회귀는 인공 지능기계 학습(AI/ML) 분야에서 중요한 기법입니다. ML 모델은 학습을 통해 사람의 개입 없이 복잡한 데이터 처리 작업을 수행할 수 있는 소프트웨어 프로그램입니다. 로지스틱 회귀를 사용하여 구축된 ML 모델은 조직이 비즈니스 데이터에서 유용한 인사이트를 얻는 데 도움이 됩니다. 이러한 인사이트를 예측 분석에 사용하여 운영 비용을 절감하고 효율성을 높이며 더 빠르게 규모를 조정할 수 있습니다. 예를 들어 기업이 직원 유지율을 개선하거나 더 수익성 높은 제품 설계로 이어지는 패턴을 발견할 수 있습니다.

아래에는 다른 ML 기법과 비교하여 로지스틱 회귀를 사용할 때 얻을 수 있는 몇 가지 이점이 나열되어 있습니다.

간편성

로지스틱 회귀 모델은 다른 ML 기법보다 수학적으로 덜 복잡합니다. 따라서 팀원 중 누구라도 심층적인 ML 전문 지식을 없이 구현할 수 있습니다.

속도

로지스틱 회귀 모델에는 메모리 및 처리 성능과 같은 계산 용량이 덜 필요하기 때문에 대량의 데이터를 고속으로 처리할 수 있습니다. 따라서 ML 프로젝트를 시작하는 조직이 성과를 빠르게 실현하는 데 이상적입니다.

유연성

로지스틱 회귀 분석을 사용하면 두 개 이상의 유한한 결과가 있는 질문에 대한 답을 찾을 수 있습니다. 또한 데이터를 전처리하는 데에도 사용할 수 있습니다. 예를 들어 로지스틱 회귀를 사용하여 은행 거래와 같이 값의 범위가 넓은 데이터를 더 작고 유한한 값 범위로 정렬할 수 있습니다. 그런 다음 보다 정확한 분석을 위해 다른 ML 기법을 사용하여 이 작은 데이터 세트를 처리할 수 있습니다.

가시성

로지스틱 회귀 분석을 사용할 경우 다른 데이터 분석 기법을 사용할 때보다, 개발자에게 내부 소프트웨어 프로세스에 대한 더 높은 가시성이 제공됩니다. 계산이 덜 복잡하기 때문에 문제 해결 및 오류 수정도 더 쉽습니다.

로지스틱 회귀 분석의 응용 분야는 무엇인가요?

로지스틱 회귀는 다양한 산업에서 여러 분야에 실제로 응용되고 있습니다.

제조

제조 회사는 로지스틱 회귀 분석을 사용하여 기계류의 부품 고장 확률을 추정합니다. 그런 다음 이 추정치를 기반으로 유지 보수 일정을 계획하여 향후 고장 발생을 최소화합니다.

의료 서비스

의학 연구원들은 환자의 질병 발생 가능성을 예측하여 예방 진료와 치료를 계획합니다. 이때 가족력이나 유전자가 질병에 미치는 영향을 비교하는 데 로지스틱 회귀 모델을 사용합니다. 

금융

금융 회사는 금융 거래에서 사기 행위를 분석하고 대출 신청 및 보험 신청 건의 위험도를 평가해야 합니다. 이러한 문제에는 고위험이거나 저위험이거나, 사기이거나 사기가 아닌 것과 같은 명확한 결과가 있기 때문에 로지스틱 회귀 모델에 적합합니다.  

마케팅

온라인 광고 도구는 로지스틱 회귀 모델을 사용하여 사용자가 광고를 클릭할지 여부를 예측합니다. 이 결과를 활용하여 마케터는 다양한 단어와 이미지에 대한 사용자의 반응을 분석하고 고객이 관심을 가질 만한 효과적인 광고를 만들 수 있습니다.

회귀 분석은 어떻게 작동하나요?

로지스틱 회귀는 데이터 사이언티스트가 기계 학습(ML)에 많이 사용하는 다양한 회귀 분석 기법 중 하나입니다. 로지스틱 회귀를 이해하려면 먼저 기본적인 회귀 분석을 이해해야 합니다. 아래에서는 선형 회귀 분석의 예를 사용하여 회귀 분석의 작동 원리를 보여줍니다. 

질문 파악

모든 데이터 분석은 비즈니스 질문에서 시작됩니다. 로지스틱 회귀 분석의 경우 다음과 같은 질문을 구성하여 특정 결과를 얻어야 합니다.

  • 비오는 날이 월간 판매에 영향을 미치나요?(예 또는 아니요)
  • 고객이 수행하고 있는 신용 카드 활동은 어떤 유형인가요?(승인, 사기 활동 또는 사기 가능성이 있는 활동) 

기록 데이터 수집

질문을 파악한 후에는 관련 데이터 요소를 식별해야 합니다. 그런 다음 모든 요소에 대한 기록 데이터를 수집합니다. 예를 들어 위에 나와 있는 첫 번째 질문에 답하기 위해 지난 3년간 비가 온 날의 수와 월별 판매 데이터를 수집할 수 있습니다.

회귀 분석 모델 훈련

기록 데이터는 회귀 소프트웨어를 사용하여 처리합니다. 이 소프트웨어는 여러 데이터 포인트를 처리하고 방정식을 사용하여 수학적으로 연결합니다. 예를 들어 3개월 동안의 비온 날 수가 월별로 3, 5, 8이고 해당 월의 판매 건수가 8, 12, 18건인 경우 회귀 알고리즘은 다음 방정식을 사용하여 이들 요소를 서로 연결합니다.

판매 건 수 = 2*(비온 날 수)+2

알 수 없는 값 예측

이 소프트웨어는 방정식을 사용하여 알 수 없는 값을 예측합니다. 7월에 6일 동안 비가 올 것이라는 것을 알고 있다면 소프트웨어는 7월의 판매 건수 값을 14로 추정합니다.

로지스틱 회귀 모델은 어떻게 작동하나요?

로지스틱 회귀 모델을 이해하기 위해서는 먼저 방정식과 변수를 이해해야 합니다.

방정식

수학에서 방정식은 xy라는 두 변수 간의 관계를 구합니다. xy에 여러 값을 넣으면 이러한 방정식 또는 함수를 사용하여 x축과 y축을 따라 그래프를 그릴 수 있습니다. 예를 들어 함수 y = 2*x에 대한 그래프를 그리면 아래와 같이 직선이 나타납니다. 따라서 이 함수를 선형 함수라고도 합니다.

변수

통계에서 변수는 값이 변하는 데이터 요소 또는 속성입니다. 모든 분석에서 특정 변수는 독립 변수 또는 설명 변수라고 합니다. 이 속성은 결과의 원인이 됩니다. 다른 변수는 종속 변수 또는 응답 변수라고 하며, 독립 변수에 따라 값이 달라집니다. 일반적으로 로지스틱 회귀 분석에서는 두 변수의 이전 데이터 값을 살펴봄으로써 독립 변수가 하나의 종속 변수에 미치는 영향을 조사합니다. 

위의 예에서 x는 알려진 값을 가지기 때문에 독립 변수, 예측 변수 또는 설명 변수라고 합니다. Y는 값을 알 수 없으므로 종속 변수, 결과 변수 또는 응답 변수라고 합니다. 

로지스틱 회귀 함수

로지스틱 회귀 분석은 수학에서 로지스틱 함수 또는 로짓 함수를 xy 사이의 방정식으로 사용하는 통계 모델입니다. 로짓 함수는 yx의 시그모이드 함수로 매핑합니다.

이 로지스틱 회귀 방정식을 그래프로 그리면 아래와 같은 S자 곡선을 얻을 수 있습니다.

보시다시피, 로짓 함수는 독립 변수의 값에 관계없이 종속 변수의 값으로 0과 1 사이의 값만 반환합니다. 로지스틱 회귀 분석에서는 이 같은 방법으로 종속 변수의 값을 추정합니다. 또한 로지스틱 회귀 방법은 여러 독립 변수와 단일 종속 변수 간의 방정식을 모델링합니다.

여러 독립 변수를 사용한 로지스틱 회귀 분석

대부분의 경우, 여러 설명 변수가 종속 변수의 값에 영향을 미칩니다. 이러한 입력 데이터 세트를 모델링하기 위해 로지스틱 회귀 공식은 여러 독립 변수 간의 선형 관계를 가정합니다. 시그모이드 함수를 수정하여, 최종 출력 변수를 다음과 같이 계산할 수 있습니다. 

y = f0 + β1x1 + β2x2+… βnxn)

기호 β는 회귀 계수를 나타냅니다. 종속 변수와 독립 변수의 알려진 값이 있는 충분히 큰 실험 데이터 세트를 로짓 모델에 제공하면 이러한 계수 값을 역산할 수 있습니다. 

로그 확률

또한 로짓 모델은 실패 대비 성공 비율 또는 로그 확률도 구할 수 있습니다. 예를 들어 친구들과 포커를 하는데 10게임 중 4게임에서 이긴 경우, 승리 확률은 4/6 또는 6회 중 4회이며 이는 실패 대비 성공의 비율에 해당합니다. 반면에 이길 확률은 10 중 4입니다.

이를 수학적 확률로 계산하면 p/(1 - p)이고 로그 확률은 log (p/(1 - p))입니다. 아래와 같이 로지스틱 함수를 로그 확률로 나타낼 수 있습니다.

로지스틱 회귀 분석의 유형은 어떤 것들이 있나요?

종속 변수의 결과를 기반으로 한 로지스틱 회귀 분석에는 세 가지 방식이 있습니다.

이항 로지스틱 회귀

이항 로지스틱 회귀 분석은 가능한 결과가 두 개뿐인 바이너리 분류 문제에 적합합니다. 종속 변수는 예, 아니요 또는 0과 1과 같은 두 개의 값만 가질 수 있습니다.

로지스틱 함수가 0과 1 사이의 값 범위로 계산되더라도 이항 회귀 모델에서는 답을 가장 가까운 값으로 반올림/반내림합니다. 일반적으로 0.5 미만의 답은 0으로 반내림되고 0.5보다 큰 답은 1로 반올림되므로 로지스틱 함수는 이항 결과를 반환하게 됩니다.

다항 로지스틱 회귀

다항 회귀 분석은 결과의 수가 유한하다는 전제 하에, 3개 이상의 결과를 가질 수 있는 문제를 분석할 수 있습니다. 예를 들어 인구 데이터를 기반으로 주택 가격이 25%, 50%, 75% 또는 100% 중 어떤 비율로 상승할지 예측할 수 있지만, 주택의 정확한 가격을 예측할 수는 없습니다.

다항 로지스틱 회귀 분석은 결과 값을 0과 1 사이의 다른 값에 매핑하는 방식으로 작동합니다. 로지스틱 함수는 0.1, 0.11, 0.12 등 연속된 데이터의 범위를 반환할 수 있으므로, 다항 회귀 분석에서는 출력값을 가능한 가장 가까운 값으로 그룹화합니다.

서수 로지스틱 회귀

서수 로지스틱 회귀 분석 또는 순서형 로짓 모델은 숫자가 실제 값이 아닌 순위를 나타내는 문제를 풀기 위한 특수한 유형의 다항 회귀 분석입니다. 예를 들어 서수 회귀 분석을 사용하여 고객이 1년 동안 구매한 품목 수 등의 숫자 값을 기준으로, 서비스를 나쁨, 양호, 좋음 또는 우수 등급으로 평가하도록 요청하는 설문 조사 질문의 답을 예측할 수 있습니다.

로지스틱 회귀는 다른 ML 기법과 비교할 때 어떤가요?

두 가지 일반적인 데이터 분석 기법은 선형 회귀 분석과 딥 러닝입니다.

선형 회귀 분석

위에서 설명한 것처럼 선형 회귀는 선형 조합을 사용하여 종속 변수와 독립 변수 간의 관계를 모델링합니다. 선형 회귀 방정식은 다음과 같습니다.

y= β0X0 + β1X1 + β2X2+… βnXn+ ε. 여기서 β1부터 βn, 그리고 ε는 회귀 계수입니다.

로지스틱 회귀 vs. 선형 회귀

선형 회귀에서는 주어진 일련의 독립 변수를 사용하여 연속된 종속 변수를 예측합니다. 연속 변수는 가격 또는 나이와 같은 값의 범위를 값으로 가질 수 있습니다. 따라서 선형 회귀는 종속 변수의 실제 값을 예측할 수 있습니다. 즉, “10년 후 쌀 가격은 어떻게 될까요?”와 같은 질문에 답할 수 있습니다.

선형 회귀와 달리 로지스틱 회귀는 분류 알고리즘입니다. 따라서 연속 데이터의 실제 값을 예측할 수 없으며, “10년 안에 쌀 가격이 50% 상승할까요?”와 같은 질문에 답할 수 있습니다.

딥 러닝

딥 러닝은 인간의 두뇌를 시뮬레이션하는 신경망 또는 소프트웨어 구성 요소를 사용하여 정보를 분석하는 기법입니다. 딥 러닝 계산은 벡터의 수학적 개념을 기반으로 합니다.

로지스틱 회귀 vs. 딥 러닝

로지스틱 회귀는 딥 러닝보다 덜 복잡하며, 계산 집약적이지 않습니다. 무엇보다, 딥 러닝 계산은 컴퓨터를 기반으로 하는 복잡한 특성으로 인해 개발자가 조사하거나 수정할 수 없습니다. 반면에 로지스틱 회귀 계산은 투명하고 문제를 해결하기가 더 쉽습니다.

AWS에서 로지스틱 회귀 분석을 실행하려면 어떻게 해야 하나요?

Amazon SageMaker를 사용하여 AWS에서 로지스틱 회귀를 실행할 수 있습니다. SageMaker는 선형 회귀 및 로지스틱 회귀를 위한 알고리즘이 다른 여러 통계 소프트웨어 패키지와 함께 내장된 완전관리형 기계 학습(ML) 서비스입니다.

  • 모든 데이터 사이언티스트는 SageMaker를 사용하여 로지스틱 회귀 모델을 신속하게 준비, 구축, 학습 및 배포할 수 있습니다.
  • SageMaker는 로지스틱 회귀 프로세스의 각 단계에서 부담스러운 작업을 제거하여 고품질의 모델을 보다 쉽게 개발할 수 있도록 합니다.
  • SageMaker는 로지스틱 회귀에 필요한 모든 구성 요소를 단일 도구 세트로 제공하므로 모델을 보다 쉽고 빠르게 저렴한 비용으로 구축할 수 있습니다.

지금 바로 AWS 계정을 만들어 로지스틱 회귀를 시작하세요.

AWS의 다음 단계

제품 관련 추가 리소스 확인
무료 기계 학습 서비스 - AWS 
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입 
콘솔에서 구축 시작하기

AWS 관리 콘솔에서 구축을 시작하세요.

로그인