AI_머신러닝_딥러닝

<회귀모델>에서 '회귀 regression'의 의미

_랄프_ 2022. 10. 3. 06:00
728x90

머신러닝 등 AI 영역을 보다보면 확율과 통계의 기본적인 내용을 알아야 하는 것들이 많이 있다. 여러가지 어려운 용어 중 <회귀모델> 이라는 것이 있는데, 이 용어는 한국말로 된 것도 이해가 안 가고, 그래서 영문인 <regression model> 을 봐도 당최 와 닿지가 않는다. 용어의 개념을 찾아봐도 <회귀>라는 말의 뜻과의 연관성을 전혀 알 수가 없다.

하도 답답해서 검색을 하다가 좋은 글이 있어서 퍼 왔다.

결론은,

회귀모델에서의 회귀는, '잔차가 평균으로 회귀하도록 만드는 것'이라고 대충 요약할 수 있다. 잔차는 실제 데이터와 예측 데이터 간의 차이이며, 잔차의 평균은 일반적으로 0이라고 한다.

아래 글을 보다가 중간에 너무 어려워서 다 건너뛰고 처음과 결론만 봤다.

 

 

728x90

 

 

회귀 모델에서 '회귀'란 무엇인가?

Tribute to error | 페이스북에서 'regression model에서 regression 이라는 용어는 잘못되었다' 는 글(https://www.facebook.com/dgtgrade/posts/1153483458043852) 를 봤습니다. 우선 '회귀(regression)' 라는 단어가 일상에서 잘

brunch.co.kr

 


그러나 최근 ChatGPT에거 물어본 결과는 이렇다.

 

그러면 regression model에서의 regression은 무슨 뜻입니까?
"Regression"이라는 용어는 통계학 및 머신러닝에서 사용되는 용어입니다. Regression model은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하는 데 사용됩니다.

여기서의 "regression"은 종속 변수(또는 반응 변수)가 독립 변수(또는 설명 변수)에 대해 어떤 관계를 갖는지 예측하거나 모델링하는 작업을 의미합니다. 종속 변수는 예측하려는 대상 변수이며, 독립 변수는 종속 변수에 영향을 미치는 변수입니다. Regression model은 이러한 변수 간의 관계를 수학적 모델로 표현하여 종속 변수의 값을 예측하거나 설명하는 데 사용됩니다.

Regression model은 다양한 유형과 변형이 있으며, 주로 선형 회귀(Linear Regression)와 비선형 회귀(Nonlinear Regression)가 가장 많이 사용됩니다. 선형 회귀는 종속 변수와 독립 변수 간의 선형 관계를 모델링하고, 비선형 회귀는 비선형적인 관계를 모델링하는 방법입니다.

따라서, regression model에서의 "regression"은 변수 간의 관계를 모델링하여 종속 변수의 값을 예측하거나 설명하는 작업을 의미합니다.

 


그런데 왜 regression이라는 단어가 사용된 겁니까?
"Regression"이라는 용어가 통계학과 머신러닝에서 사용되는 이유는 역사적으로 거슬러 올라가야 합니다.

"Regression"이라는 용어는 19세기 영국의 과학자인 프랜시스 골턴(Francis Galton)이 제안한 용어입니다. 그는 키에 대한 부모와 자식의 관계를 연구하면서, 자식의 키가 부모의 키와 비교해 뒤로 돌아간다는 현상을 관찰했습니다. 그는 이러한 관찰을 "regression to the mean"이라고 표현했습니다.

이후, 골턴의 학생 카를 피어슨(Karl Pearson)은 이 개념을 통계학에 도입하여 종속 변수와 독립 변수 사이의 관계를 모델링하기 위한 분석 방법을 개발했습니다. 이 방법은 "regression"이라는 용어로 불리게 되었고, 종속 변수의 값을 독립 변수의 변화에 따라 "회귀"한다고 표현했습니다.

이후 "Regression"은 통계학에서 일반적으로 사용되는 용어가 되었고, 머신러닝 분야에서도 널리 채택되어 종속 변수와 독립 변수 간의 관계를 모델링하는 작업을 지칭하는 용어로 사용되고 있습니다. 따라서 "Regression"이라는 단어는 초기에 키와 관련된 현상을 기술한 것에서 유래하여, 변수 간의 관계를 모델링하는 분석 방법에 대한 용어로 채택되었습니다.

 


 

추가적으로 우리가 회귀테스트라고 부르는 Regression Test에 대해서도 물어봤다.

 

근데 왜 regression이라는 단어가 쓰였습니까? regression의 사전적 의미가 여기서 어떻게 쓰인 것입니까?
"Regression"이라는 용어가 소프트웨어 테스트에서 사용되는 이유는 사전적 의미와는 약간 다릅니다. 

사전적으로 "regression"은 뒤로 돌아가거나 후퇴하는 것을 의미합니다. 그러나 소프트웨어 테스트에서의 "regression"은 다른 의미를 가지고 있습니다. 여기서의 "regression"은 소프트웨어 변경사항에 의해 기존의 기능이 뒤로 돌아가거나 후퇴하는 것을 말하는 것이 아니라, 이전에 이미 동작하던 기능이 올바르게 동작하지 않는 현상을 나타냅니다.

즉, regression 테스트는 소프트웨어의 변경사항이 기존의 기능에 부정적인 영향을 미치는 "후퇴" 현상을 방지하기 위해 수행되는 테스트입니다. 이러한 부정적인 영향을 방지하고 기존의 기능을 안정적으로 유지하기 위해 이 용어가 사용되고 있습니다.
728x90
반응형