배우고 나누는 사람

모두에게 더 넓고 더 깊은 세상을 향해

Springer 책 쓰기 프로젝트

Springer 혹은 O'Reilly 책 쓰기 프로젝트

Jeongwon Seo 2024. 11. 13. 23:19

이번 포스팅에서는 제가 내년부터 시작할 프로젝트에 대해서 말씀드리고자 합니다. 해당 카테고리에 한국어 버전으로 글을 주기적으로 남기려고 해요. Springer에 책을 내기 위해서는 일단 프로젝트의 제안서부터 작성을 해야 한다고 하더라고요. 아직은 끄적끄적 적어놓은 노트와 머릿속 구상밖에 없긴 하지만 조만간 제안서 초안을 작성해 보려고 해요. 다음 포스팅에서는 성공적인 제안서들에 대한 예시를 조금 분석해 보고 어떻게 작성해야 할지 고민한 흔적을 남겨보려 합니다. 

 

 

제가 쓰고 싶은 책은 회귀분석의 여러가지 복잡도를 설명하고 예제를 통해 다루는 식으로 진행하려고 해요. 자세한 얘기는 차차 포스팅에서 다루도록 할게요. 주요 내용으로는 다음과 같습니다. 

  1. 선형회귀 (Linear Regression), 비선형회귀 (Nonlinear Regression)
    • 선형회귀는 가장 기본적인 회귀분석 방법으로, 독립 변수와 종속 변수 간의 선형 관계를 모델링합니다. 꽤나 많은 데이터가 선형의 관계를 취하고 있기도 하거든요. 또한 아주 작은 독립 변수의 변화 안에서 만큼은 종속 변수와 선형적인 관계를 취한다는 것은 인공지능 분야의 핵심 기술이기도 하죠. 
    • 비선형회귀는 독립 변수와 종속 변수 간의 비선형 관계를 모델링합니다. 비선형 모델링은 선형에 비해 매우 복잡한데요. 특히나 효율성을 높이기 위해서는 데이터 간의 관계, 혹은 특성공학이라고도 부리는 작업이 선행되야 합니다. 물론 가용한 자원이 많다면 특성공학이 필요하지 않을 수도 있죠. 
  2. 모수방법 (Parametric Methods), 비모수방법 (Nonparametric Methods)
    • 모수방법은 데이터의 분포를 가정하고, 그 분포에 맞는 파라미터를 추정하는 방법입니다. 예를 들면, 가우스 분포의 경우 평균과 표준편차(혹은 분산)만 알면 그 확률밀도 함수를 알 수 있죠. 
    • 비모수방법은 데이터의 분포를 가정하지 않고, 데이터 자체의 구조를 이용하는 방법입니다. 비모수방법에는 Interpolation 등을 이용한 고전적인 방법이나 신경망을 기본으로 한 방법들이 있습니다.
  3. 단변량 분석 (Univariate Analysis), 다변량 분석 (Multivariate Analysis)
    • 단변량 분석은 하나의 종속 변수를 대상으로 하는 분석 방법입니다. 데이터 간의 상관관계를 시각적으로 파악할 수 있고 따라서 분석과 결과해석에 용이합니다. 하지만 대부분의 연구는 다변량 분석이기에 다변량 분석으로 넘어가기 전에 단변량 분석으로 충분한 경험을 쌓는 것이 중요하죠.
    • 다변량 분석은 여러 개의 종속 변수를 동시에 분석하는 방법입니다. 하나의 독립 변수로 종속변수를 설명하는 것은 매우 정보가 부족한 경우가 많기에 대부분의 문제가 다변량 분석에 해당되죠. 여러 예제를 통해 다변량 분석을 하는 방법들에 대해 그리고 필요 없는 독립 변수를 가려내는 특성공학도 다룰 예정입니다. 
  4. 단일 출력 (Unioutput), 다중 출력 (Multioutput)
    • 단일 출력 모델은 하나의 종속 변수를 예측하는 모델입니다. 만약 우리가 예측하고 싶은 결과물이 하나의 값일 경우가 단일 출력 모델이죠. 내일 비가 올 확률이라던지 해당 지역의 예상 평균 임금이라던지 단일 출력 모델로 풀 수 있는 문제가 꽤나 많습니다.
    • 다중 출력 모델은 여러 개의 종속 변수를 동시에 예측하는 모델입니다. 다중 출력 모델은 단일 출력 모델을 여러개 이어 붙인 경우도 있지만 그것보다 출력 모두를 한 번에 예측하는 모델에 대해 집중적으로 다룰 예정입니다. 요즘 유튜브 쇼츠에 보면 나이가 적을 때부터 많은 때까지 변화하는 모습을 보여주는 동영상들이 있죠. 나이라는 단 하나의 독립 변수를 변화시켜 다중 출력 결과물인 사진을 만들어 내는 것이죠. 
  5. 동분산성 (Homoscedasticity), 이분산성 (Heteroscedasticity)
    • 동분산성은 오차의 분산이 일정한 경우를 말합니다. 동분산성의 개념과 이를 확인하는 방법들을 설명할 것입니다. 많은 모델이 모델에서 설명하지 못하는 부분을 가우시안 혹은 백색 소음으로 간주하고 문제를 풉니다. 충분한 (사실 충분하다는 것도 조금 애매 모호한 부분도 있습니다만) 종속 변수를 가지고 있다면 이 가정을 대부분 맞는 것으로 보입니다. 
    • 이분산성은 오차의 분산이 일정하지 않은 경우를 말합니다. 만약 종속 변수가 증가할 수록 불확실성도 같이 증가하는 경우가 대표적이죠. 혹은 불확실성이 어떤 패턴을 가지고 증가 혹은 감소를 할 수 있고요. 

그 외에도 간단한 확률 분포에 관한 설명, 사전 확률(Prior information)을 새로운 정보를 이용해 사후 확률(Posterior information)으로 업데이트 한다는 베이즈 정리(Bayes Theorem), 결과 해석 방법론에 대한 내용도 다룰 계획입니다. 제안서는 올해 안으로 최대한 써볼 계획이고요. 책은 한 달에 한 챕터씩해서 내년 전반기에 초안을 완성하고 후반기에는 리뷰를 빡세게 해볼 생각입니다. 응원 부탁드려요.

 

728x90
반응형

'Springer 책 쓰기 프로젝트' 카테고리의 다른 글

Springer 책 쓰기 절차  (2) 2024.11.14