Computer Programming/AI

TIL_Machine Learning(2)

JYCoder 2023. 10. 17. 23:20

Linear Regression

두 변수 사이의 관계를 알아보는 방법.

예를 들어, 하루에 먹는 초콜릿의 양과 나의 행복 감정 사이의 관계를 알아볼 때, 만약 먹는 초콜릿의 양이 많을수록 더 행복해진다면, 이 둘 사이에는 양의 선형 관계가 있을 것이다. 이렇게, 데이터에서 두 변수 사이의 '직선적인' 관계를 찾는 것이 선형회귀이다. 하나의 변수를 알면 다른 변수를 예측할 수 있다.

 

Multi-variable linear regression

Linear regression과 똑같지만 입력 변수가 여러 개인 경우를 말한다.

 

Gradient descent method

함수의 기울기를 이용하여 함수의 최솟값을 찾는 알고리즘 중 하나. 시작점을 잡고, 그 위치에서 함수의 기울기를 계산. 그리고 기울기가 가리키는 방향으로 조금씩 이동하여 함수의 값을 감소시키는 방향으로 점차적으로 이동. 이렇게 반복하면서 최솟값에 점점 가까워 짐. Gradient descent를 이용하면 machine learning에서 모델의 오차를 최소화하거나, 함수의 최솟값을 찾는 등 다양한 문제를 해결할 수 있다.

 

Learning rate

학습률은 gradient descent와 같은 최적화 알고리즘에서 한 번에 얼마나 많이 이동할지를 결정하는 요소이다. 마치 산을 내려갈 때 한 번에 얼마나 큰 보폭으로 걸을지를 결정하는 것과 비슷. 적절한 learning rate를 선택하면 최솟값에 빠르게 도달할 수 있다. 이는 학습 과정을 효율적으로 만들어주고, 최적화 알고리즘이 빠르고 정확하게 작동하도록 돕는다.

 

데이터셋 분할

Training set(학습 데이터셋 = 교과서)

machine learning 모델을 학습시키는 용도로 사용. 전체 데이터셋의 약 80% 정도를 차지

 

Validation set(검증 데이터셋 = 모의고사)

machine learning 모델의 성능을 검증하고 튜닝하는 지표의 용도로 사용. 모델에게 정답이 있는 데이터를 직접 보여주지는 않으므로 모델의 성능에 영향을 미치지는 않음. Cost function, Optimizer 등을 바꾸면서 모델을 검증하는 용도로 사용. 전체 데이터셋의 약 20% 정도를 차지.

 

Test set(평가 데이터셋 = 수능)

정답 라벨이 없는 실제 환경에서의 평가 데이터셋.

 

LIST