회귀 ( Regression ) - 선형 회귀 ( linear Regression ) part 1.

반응형

회귀 - 여러개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭

 

예를 들어 아파트의 방 개수, 방 크기, 주변 학군 등 여러 개의 독립변수에 따라 아파트 가격이라는 종속변수가 어떤 관계를 나타내는지를 모델링하고 예측하는 것입니다.

Y = W1 * X1 + W2 * X2 + …

에서 Y 는 종속변수 즉, 아파트 가격을 뜻합니다. 그리고 X1,X2,X3 …는 방 개수, 크기, 주변 학군 등의 독립 변수를 의미합니다.

W1,W2,W3 … 는 독립변수의 값에 영향을 미치는 회귀 계수(Regression cofficients)입니다.

머신러닝 관점에서 보면 독립 변수는 피처에 해당되며 종속변수는 결정 값 입니다.

머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾는 것입니다.

회귀는 회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지의 유형으로 나눌 수 있습니다. 회귀에서 가장 중요한 부분은 회귀 계수 입니다.

회귀 계수가 선형인지 비선형인지에 따라서 선형 회귀와 비선형 회귀로 나뉘게 되고

독립변수의 개수가 한 개인지 여러 개인지에 따라 단일 회귀, 다중 회귀로 나뉘게 됩니다.

 

선형 회귀 linear regression

선형 회귀는 회귀에서 가장 많이 사용됩니다.

선형 회귀의 목적은 **실제 값과 예측값의 차이(오류의 제곱값)**를 최소화하는 직선형 회귀선을 최적화하는 방식입니다. 선형 회귀 모델은 **규제(Regularization)**방법에 따라 다시 별도의 유형으로 나뉠 수 있습니다.

규제는 일반적인 선형 회귀의 과적합 문제를 해결하기 위해서 회귀 계수에 페널티 값을 적용하는 것을 말합니다.

대표적인 선형 회귀 모델은 다음과 같습니다.

  • 일반 선형 회귀: 예측값과 실제값의 RSS(Residual Sum of Squares)를 최소화할 수 있도록 회귀 계수를 최적화하며, 규제(Regularization)를 적용하지 않은 모델입니다.
  • 릿지(Ridge) : 릿지 회귀는 선형 회귀에 L2 규제를 추가한 회귀 모델입니다. 릿지 회귀는 L2 규제를 적용하는데, L2 규제는 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해서 회귀 계수값을 더 작게 만드는 규제 모델입니다.
  • 라쏘(Lasso): 라쏘 회귀는 선형 회귀에 L1 규제를 적용한 방식입니다. L2 규제가 회귀 계수 값의 크기를 줄이는데 반해, L1 규제는 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않도록 하는 것입니다. 이러한 특성 때문에 L1 규제는 피처 선택 기능으로도 불립니다.
  • 엘라스틱넷(Elastic Net) : L2, L1 규제를 함께 결합한 모델입니다. 주로 피처가 많은 데이터 세트에서 적용되며, L1 규제로 피처의 개수를 줄임과 동시에 L2 규제로 계수 값의 크기를 조정합니다.
  • 로지스틱 회귀 ( Logistic Regression ) : 로지스틱 회귀는 회귀라는 이름이 붙어 있지만, 사실은 분류에 사용되는 선형 모델입니다. 로지스틱 회귀는 매우 강력한 분류 알고리즘 입니다. 일반적으로 이진 분류뿐만 아니라 희소 영역의 분류, 예를 들어 텍스트 분류와 같은 영역에서 뛰어난 예측 성능을 보입니다.

선형 회귀에서 전체 데이터의 오류 합을 구할 때

절대값을 취해서 더하는 방법 ( Mean Absolute Error ) 혹은

제곱을 구해서 더하는 방법 ( RSS, Residual Sum of Square ) 이 있습니다.

일반적으로 미분 등의 계산을 편리하게 하기 위해서 RSS 방식으로 오류 합을 구합니다.

즉, Error**2 = RSS 입니다. ( 에러의 제곱 )

일반적으로 RSS 는 학습 데이터의 건수로 나누어서 다음과 같이 정규화된 식으로 표현합니다.\

이 비용 함수가 반환하는 값( 즉, 오류 값)을 지속해서 감소시키고 최종적으로는 더 이상 감소하지 않는 최소의 오류 값을 구하는 것입니다. 비용 함수를 손실 함수( loss function ) 이라고도 합니다.

 

비용 최소화 하기 - 경사 하강법 ( Gradient Descent )

비용 함수가 최소가 되는 W ( 회귀 계수 ) 파라미터를 구할 수 있는 방법은 경사 하강법이라고 합니다.

RSS 를 최소화하는 방법을 직관적으로 제공하는 뛰어난 방식입니다.

‘점진적으로’ 반복적인 계산을 통해 W 파라미터 값을 업데이트 하면서 오류 값이 최소가 되도록 하는 W 파라미터를 구하는 방식입니다.

 

 

반응형