Hello COCOBALL!

[DL] 이진 분류(Binary Classification), 다중 분류(Multiclass Classification)

coco_ball — Wed, 26 Jun 2024 18:59:42 +0900

이진 분류

입력값에 따라 모델이 분류한 카테고리가 두 가지인 분류 알고리즘을 의미한다. True/false 를 분류하는 데 사용된다.

이진 분류는 베르누이 분포에 의해서 정의된다.

로지스틱 회귀(Logistic Regression)

로지스틱 회귀는 이진 분류 알고리즘 중에서 가장 대표적인 알고리즘이다.

로지스틱 회귀는 선형 방정식을 기반으로 하되, 그 결과를 시그모이드 함수를 통해 0과 1 사이의 확률 값으로 변환하여 이진 분류를 수행한다. 일반적으로 입력 변수 X와 가중치 β를 사용하여 다음과 같이 예측을 수행한다.

z는 선형 결합을 나타내고, 이 값을 시그모이드 함수에 적용하여 클래스 1 에 속할 확률을 계산한다.

시그모이드 함수(Sigmoid Function)

시그모이드 함수에 대해 알아보기 전, 오즈 비(odds ratio)에 대한 내용을 먼저 정리한다.

오즈 비는 성공 확률과 실패 확률의 비율로, 다음과 같이 정의된다.

여기서 p는 성공 확률을 의미하고, 자연로그를 취한 함수를 로짓 함수(logit function)이라 한다.

그림을 통해 확인할 수 있듯이 p가 0에 가까워 지면 음의 무한대로, p가 1에 가까워지면 양의 무한대로 함수값이 발산한다.

로짓 함수를 z로 정의하고 z에 대해 정리하면 시그모이드 함수를 얻을 수 있다.

시그모이드 함수는 입력값을 0과 1 사이의 값으로 변환하여 확률로 해석할 수 있게 한다. 함수값이 0.5보다 크면 모델은 클래스 1로 예측하고, 작으면 클래스 0으로 예측한다.

로지스틱 회귀 모델은 입력값과 가중치를 곱해 출력된 값을 활성화 함수에 대입하고, 활성화 함수를 통과한 값이 임계값 이상이면 true, 이하이면 false를 반환한다. 시그모이드 함수를 활성화 함수로 사용할 경우 활성화 함수를 통과한 값이 0부터 1 사이의 값을 가지기 때문에 이를 확률처럼 해석하는 것이 가능해진다.

손실 함수(Loss Function)

로지스틱 회귀는 손실 함수로 이진 교차 엔트로피(Binary Cross-Entropy)를 사용하고, 그 형태는 다음과 같다.

a는 활성화 함수를 통과한 값이고, 타겟 값인 y는 0 또는 1이기 때문에 i번째 데이터에 대한 손실은 다음과 같은 값을 가진다.

시그모이드 함수를 거친 a는 0에서 1 사이의 값을 가진다. -log(a)는 a가 1에 가까워질수록 그 값이 작아지지만, -log(1-a)는 a가 0에 가까워질수록 값이 작아진다.

즉, 손실 함수값을 최소화 하는 과정에서 타겟이 참이면 -log(a)의 값이 작아져 a가 1에 가까워지고, 반대의 경우에는 a가 0에 가까워진다.

다중 분류

다중 분류는 true/false의 값을 가지는 이진 분류와는 다르게 3개 이상의 클래스 중 하나를 예측하는 문제를 의미하고, 타겟이 가지는 값에 대응되는 데이터의 집합을 클래스 혹은 레이블이라고 한다. 다중 분류의 경우 단일 레이블 분류(single-lable classification)에 속하고, 이는 입력값 하나당 하나의 클래스에만 대응될 수 있다는 것을 의미한다(하나의 입력값이 여러 개의 클래스에 대응되는 경우는 다중 레이블 분류라고 함).

예를 들어, 손글씨 숫자 분류, 이미지 분류, 텍스트 분류 등이 있으며, 각 클래스는 상호 배타적이다.

https://yhyun225.tistory.com/14

이진 분류에서의 로지스틱 회귀는 true/false를 판별하기 때문에 출력값이 하나지만, 다중 분류 모델은 여러 개의 출력 값을 가지며, 각각의 출력값은 대응되는 타겟과 매칭 될 확률을 의미한다. 그림을 통해 확인할 수 있듯이, 다중 분류에서는 softmax 함수를 사용하고(로지스틱 회귀에서는 시그모이드 함수 사용), one-hot encoding이라는 기법을 사용한다(로지스틱 회귀에서는 마지막 출력값인 a가 임계값을 넘는지 검사하기 위해 threshold function을 사용).

Softmax 함수

Softmax 함수는 다음과 같다.

시그모이드 함수를 일반화하였으며, 시그모이드 함수에서처럼 결과값을 확률처럼 해석할 수 있도록 출력값들을 0에서 1 사이의 숫자로 정규화한다. 또한, 모든 출력 값의 합이 1이기 때문에 다른 입력값들과 비교할 수도 있다.

Softmax 함수를 통과했을 때 가장 높은 값에 대응되는 클래스가 모델의 예측값이 된다.

다중 분류 모델은 위에서 설명했듯이 단일 레이블 분류에 속하기 때문에 입력값 하나당 하나의 클래스에만 대응될 수 있고, 따라서 가장 높은 값을 1로 만들고 나머지 모든 값들을 0으로 수정한다. 이러한 기법을 one-hot encoding이라고 한다.

손실 함수

로지스틱 회귀는 이진 교차 엔트로피를 사용했으나, 다중 분류에서는 이진 교차 엔트로피의 일반화 버전인 교차 엔트로피(cross entropy) 손실 함수를 사용한다. 이는 categorical cross entropy라고도 부르고, 다음과 같이 정의된다.

출력값 중 가장 높은 값을 1로 남겨두고 나머지 값들은 0이 되기 때문에 다음과 같이 정의할 수 있다.

참고

https://yhyun225.tistory.com/12

https://yhyun225.tistory.com/14

[DL] 베르누이 분포(Bernoulli distribution)

coco_ball — Wed, 26 Jun 2024 17:41:41 +0900

베르누이 분포

베르누이 분포는 확률 이론과 통계학에서 가장 간단한 이산 확률 분포 중 하나이다. 베르누이 분포는 두 가지 가능한 결과를 가지는 시행의 확률 분포를 나타내고, 일반적으로 두 가지 결과는 성공, 실패로 정의된다.

또한, 두 가지의 결과만을 가지는 시행을 베르누이 시행이라고 한다.

베르누이 분포의 정의

베르누이 분포는 매개변수 p(성공 확률)로 정의된다.

X를 베르누이 분포를 따르는 이산 확률 변수라고 하면, X는 1, 0의 값을 가질 수 있다.
X=1일 확률은 p이고, X=0일 확률은 1-p이다.

이를 수식으로 나타내면 다음과 같다.

확률 질량 함수(Probability Mass Function, PMF)

(확률 질량 함수는 이산 확률 변수가 특정 값을 가질 확률을 나타내는 함수)

베르누이 분포의 확률 질량 함수는 다음과 같다.

이를 하나의 식으로 합치면,

기댓값과 분산

베르누이 분포의 기댓값과 분산은 다음과 같다.

기댓값(Expected value)

분산(Variance)

예시

베르누이 분포는 단순하지만, 많은 중요한 확률 분포와 모델의 기초가 된다. 예를 들어, 여러 번의 독립적인 베르누이 시행의 합으로 이루어진 이항 분포(Binomial distribution)도 있다.

[DL] 경사 하강법(Gradient descent)

coco_ball — Tue, 25 Jun 2024 21:01:33 +0900

경사 하강법

최적화 알고리즘 중 하나로, 함수의 값이 낮아지는 방향으로 독립변수들의 값을 변형시키면서 함수의 최소값을 갖는 독립변수의 값을 탐색하기 위해 사용된다. 주로 기계 학습 및 딥러닝 모델의 학습 과정에서 비용 함수를 최소화하는 데 사용된다. 경사 하강법의 기본 아이디어는 함수의 기울기를 활용하여 함수 값이 가장 작은 지점으로 이동하는 것이다.

최소값을 찾기 위해 손실 함수를 미분하여 미분계수가 0인 지점을 찾는 방법을 사용할 수 있지만, 일반적으로 사용되는 함수들은 간단한 함수가 아니라 대부분 복잡하고 비선형적인 패턴을 가지는 함수이기 때문에 미분을 통해 최소값을 찾기가 어려운 경우가 많아 손실 함수의 최소값을 찾을 때 경사 하강법을 주로 사용한다.

https://daebaq27.tistory.com/35

https://hackernoon.com/life-is-gradient-descent-880c60ac1be8

특정 위치에서의 기울기가 양수인 경우 x를 음의 방향으로 옮기고, 반대의 경우에는 x를 양의 방향으로 옮겨 함수의 최소값을 찾는 것이 가능하다.

다만, 기울기만을 통해 특정 위치에서 손실 함수의 최소값이 존재하는지 보장할 수 없다. 그러나 특정 위치에서 옮겨야 하는 방향으로 이동해야 손실 함수의 값이 줄어드는 것은 확정적이기 때문에 최소값을 찾기 위해 기울기 정보를 활용하고 나아갈 방향을 찾아야 한다.

문제점

1. Step size

Step size를 크게 설정할 경우에는 한 번에 이동하는 크기가 커지기 때문에 최소값에 빠르게 수렴할 수 있다는 장점이 있다. 그러나 크기를 과도하게 크게 설정할 경우, 최소값에 수렴하지 못하고 다른 곳으로 발산하는 현상이 발생할 수 있다.
Step size를 너무 작게 설정할 경우에는 발산하지 않는 대신 최소값에 수렴하는 시간이 오래걸릴 수 있다.

2. Local minima

실제로 찾고자 하는 것은 전역 최소값이지만, 경사 하강법은 알고리즘이 시작되는 위치가 랜덤이기 때문에 특정 경우에는 지역 최소값에 빠져 탈출하지 못하고 해당 위치로 수렴할 수 있는 가능성이 존재한다.

[DL] 데이터셋 구성

coco_ball — Tue, 25 Jun 2024 19:36:08 +0900

데이터셋의 구성

학습 데이터셋(Training Dataset)
- 모델을 학습시키는 데 사용된다. 모델이 입력과 출력 간의 관계를 학습하여 예측을 할 수 있도록 한다. 전체 데이터셋의 대부분을 차지하며, 다양한 패턴과 예시를 포함하고 있다.
검증 데이터셋(Validation Dataset)
- 모델의 성능을 평가하고, 과대적합/과소적합 방지, 하이퍼파라미터 튜닝 및 모델 선택에 사용된다. 학습 과정 중에 모델이 얼마나 잘 일반화되고 있는지 평가하기 위해 사용된다.
테스트 데이터셋(Test Dataset)
- 목적: 최종 모델의 성능을 평가하는 데 사용된다. 모델의 일반화 성능을 평가하여 실제 상황에서 얼마나 잘 작동할지를 판단한다. 학습과 검증 데이터와 독립적이며, 모델 학습 및 튜닝 과정에서는 사용되지 않는다.

데이터셋의 분할

일반적으로 데이터셋은 다음 비율로 분할된다.

학습 데이터셋: 전체 데이터의 60-80%
검증 데이터셋: 전체 데이터의 10-20%
테스트 데이터셋: 전체 데이터의 10-20%

훈련 데이터 단위

배치(Batch) 방식
- 훈련 데이터셋을 한꺼번에 입력하는 방식을 의미한다. 훈련 데이터셋의 크기가 작으면 배치 방식의 사용이 가능하지만 신경망은 다른 알고리즘보다 더 많은 학습 데이터를 필요로 하기 때문에 훈련 데이터셋의 크기가 크고, 배치 방식으로 학습할 경우 메모리 용량을 쉽게 초과한다는 문제가 있다.
미니 배치(Mini Batch) 방식
- 배치 방식의 한계를 극복하기 위해 전체 훈련 데이터셋을 작은 크기의 배치로 나누어서 훈련하는 방식을 의미한다. 일반적으로 신경망은 미니 배치 방식으로 훈련을 진행한다. 각 미니 배치는 여러 샘플들을 포함하고 있으며, 보통 크기는 32, 64, 128 등의 값을 가진다. 메모리 사용량과 계산 시간을 균형 있게 조절하는 것이 가능하지만 미니 배치의 크기에 따라 학습 속도와 성능이 달라질 수도 있다.
- 미니 배치의 크기를 1로 하면 확률적 방식이 되고, 훈련 데이터셋의 크기로 하면 배치 방식이 되기 때문에 미디 배치 방식이 가장 융통성 있는 방식이다.
- 신경망을 미니 배치 방식으로 훈련할 경우 배치 방식보다 학습 속도가 빨라지고 확률적 성질을 갖게 되어 더 좋은 최적해를 찾을 수 있다.
확률적(Stochastic) 방식
- 데이터를 샘플 단위로 훈련하는 방식을 의미한다.

[DL] 손실 함수(Loss Function)

coco_ball — Tue, 25 Jun 2024 18:06:41 +0900

손실 함수

손실 함수는 지도학습 시 모델의 예측값과 실제값 간의 차이를 측정하고, 학습중에 알고리즘이 얼마나 잘못 예측했는지 그 정도를 확인하기 위한 함수이다.

손실함수의 함수값을 최소화할 수 있는 가중치와 편향을 찾는 것이 딥러닝 학습의 목표이다.

손실 함수의 종류

평균 제곱 오차(Mean Squared Error, MSE)

평균 절대 오차(Mean Absolute Error, MAE)

오차의 절댓값을 평균하여 계산한다.

MSE와는 다르게 손실 함수가 오차와 비례하여 일정하게 커진다.

회귀 문제에서 주로 사용된다.

[DL] 범용 근사 정리(Universal Approximation Theorem)

coco_ball — Tue, 25 Jun 2024 17:32:30 +0900

범용 근사 정리

인공 신경망이 충분한 수의 뉴런을 가진 은닉층을 하나만 가지고 있더라도, 어떤 연속적인 함수든 원하는 수준의 정확도로 근사할 수 있다는 것을 의미하는 이론이다.

하나의 은닉층을 가진 순방향 신경망이 비선형 활성화 함수를 사용한다면, 이 신경망은 임의의 연속 함수를 임의의 정확도로 근사할 수 있다. 이는 신경망의 뉴런 수가 충분히 많을 때 가능하다.

이론적으로, 단일 은닉층을 가진 신경망도 충분한 뉴런을 가지고 있다면 매우 복잡한 함수도 근사할 수 있다. 하지만, 실제로는 여러 층을 가진 심층 신경망(Deep Neural Network)을 사용하는 것이 학습과 일반화 측면에서 더 효율적이다.

너무 많은 뉴런을 사용하면 계산 복잡도가 증가하고, 과적합 문제가 발생할 수 있다. 따라서, 신경망의 깊이와 너비는 실용적인 측면에서 최적화되어야 한다.

[DL] 회귀(Regression), 분류(Classification)

coco_ball — Tue, 25 Jun 2024 16:40:04 +0900

회귀(Regression)

회귀는 연속적인 실수 값을 예측하는 문제이고, 예측 결과가 연속성(연속하는 값)을 지닌다. 예를 들어, 주택 및 주식 가격, 온도, 매출량, 거래량 등을 예측할 수 있다.

다시 말하자면, 실수형 변수값을 통해 예측하고, 예측 결과가 연속성을 지니는 경우에는 회귀 문제라고 할 수 있다.

분류(Classification)

주어진 데이터를 두 개 이상의 범주 중 하나로 분류하는 문제이다. 예측하고자 하는 타겟값이 범주형 변수인 경우에 해당되며, 회귀와 다르게 예측 결과가 연속성을 지니지 않고 이산적인 특징을 가지고 있다.

1. 이진 분류 (Binary Classification)

정의: 데이터를 두 개의 클래스로 분류하는 문제.
예시: 스팸 이메일 분류(스팸/비스팸), 질병 진단(질병 있음/없음).

2. 다중 분류 (Multi-class Classification)

정의: 데이터를 세 개 이상의 클래스로 분류하는 문제.
예시: 손글씨 숫자 인식(0-9), 이미지 분류(개, 고양이, 자동차 등).

3. 판별 함수 (Discriminant Function)

정의: 입력 데이터를 기반으로 해당 데이터가 속한 클래스를 직접 예측하는 함수.
예시: 로지스틱 회귀, 서포트 벡터 머신.

4. 확률 모델 (Probability Model)

정의: 입력 데이터가 각 클래스에 속할 확률을 예측하는 모델.
예시: 나이브 베이즈, 소프트맥스 회귀.

[DL] 순방향 신경망(Feedforward Neural Network)

coco_ball — Mon, 24 Jun 2024 14:11:45 +0900

순방향 신경망

순방향 신경망은 가장 기본적인 형태의 인공 신경망이다. 입력층, 은닉층, 출력층으로 구분되며 입, 출력층은 각각 하나씩 존재하지만 입력층과 출력층 사이에 있는 은닉층은 문제의 복잡도에 따라 가변적으로 구성된다. 계층이 2~3개 정도로 구성되어 있으면 얕은 신경망(Shallow Neural Network), 그 이상인 경우에는 깊은 신경망(Deep Neural Network, DNN)이라고 한다.

1. 입력층 : 외부로부터 입력 데이터를 받아들임.

2. 은닉층 : 데이터의 특징을 추출.

3. 출력층 : 추출된 특징을 기반으로 추론한 최종 결과 출력.

순방향 신경망은 모든 계층이 완전 연결 계층(Fully Connected Layer)로 구성된다. 각 계층에 속한 모든 뉴런들이 이전 계층의 모든 뉴런과 연결되어 있는 구조를 의미하고, 이러한 구조로 인해 같은 입력 데이터로부터 각 뉴런에서는 다른 특징을 추출하는 것이 가능하다. 그러므로, 특징이 많은 데이터일수록 뉴런의 개수가 충분해야 데이터에 포함되어 있는 특징들을 모두 추출할 수 있다.

데이터에 내제된 특징을 추출하기 위해서는 가중 합산과 활성화 함수의 두 단계를 거치게 된다.

가중 합산은 추출할 특징에 중요한 영향을 미치는 데이터를 선택하는 과정이고, 특징 추출에 영향이 큰 데이터일수록 큰 가중치 값을 가지고, 반대의 경우에는 작은 가중치 값을 가진다.

활성화 함수는 원하는 형태로 특징을 추론하기 위해 데이터를 비선형적으로 변환하는 과정이다(ReLU 등).

[DL] 손실 함수(Loss Function)

coco_ball — Sun, 23 Jun 2024 22:28:30 +0900

손실 함수

손실함수의 함수값을 최소화할 수 있는 가중치와 편향을 찾는 것이 딥러닝 학습의 목표이다.

손실 함수의 종류

평균 제곱 오차(Mean Squared Error, MSE)

평균 절대 오차(Mean Absolute Error, MAE)

오차의 절댓값을 평균하여 계산한다.

MSE와는 다르게 손실 함수가 오차와 비례하여 일정하게 커진다.

회귀 문제에서 주로 사용된다.

[DL] 기울기 소실(Vanishing Gradient)

coco_ball — Sun, 23 Jun 2024 21:20:38 +0900

기울기 소실

딥러닝에서 은닉층을 많이 추가할수록 학습이 더 잘 될 것 같지만, 실제로는 기울기 소실 문제때문에 그렇지 않다. 기울기 소실은 역전파(backpropagation) 과정에서 발생하는 문제로, 출력층에서부터 멀어지면 멀어질수록 기울기(gradient)가 점점 작아져서 결국 거의 0에 가까워지는 현상을 의미한다. 이렇게 되면 가중치가 업데이트 되지 않아 학습이 매우 느리거나 멈추게 된다.

기울기 소실 문제의 원인

기울기 소실 문제는 주로 다음과 같은 이유로 발생한다.

1. 활성화 함수

Sigmoid나 tanh와 같은 활성화 함수는 입력 값이 매우 크거나 작을 때 출력의 변화가 매우 작다. 예를 들어 Sigmoid의 도함수는 아래와 같다.

여기서 σ(x)가 0 또는 1에 가까워지면 도함수가 0에 가까워진다. 이러한 활성화 함수들은 입력 값이 크거나 작을 때 기울기를 거의 0으로 만들기 때문에, 역전파 동안 기울기가 점점 더 작아진다.

그림을 통해 설명하자면, Sigmoid 함수의 미분 값은 0일 때 가장 크지만 0.25에 불과하고, x값이 작아지거나 커지면 0에 수렴하는 것을 확인할 수 있다. 따라서, 역전파 과정에서 Sigmoid 함수의 미분값이 반복적으로 곱해질 경우 출력층과 멀어지면 멀어질수록 gradient 값이 매우 작아질 수 밖에 없다. 결국 Sigmoid 함수를 사용할 경우 모델의 학습이 제대로 이루어지지 않게 되는 것이다.

Tanh 함수는 출력값이 최대 1, 최소 -1 사이의 값을 가져 Sigmoid 함수에 비해 출력값의 범위를 2배 늘렸으나, 그럼에도 불구하고 Sigmoid 함수에서와 유사하게 x값이 크거나 작아짐에 따라서 기울기의 크기가 매우 작아지기 때문에 기울기 소실 문제를 방지하는 데 어려움이 있다.

2. 네트워크 깊이

심층 신경망은 많은 계층을 가지고 있으며, 각 계층을 거칠 때마다 기울기가 곱해진다. 이 과정에서 작은 기울기가 반복적으로 곱해지면 기울기가 기하급수적으로 작아진다.

기울기 소실 문제의 해결 방법

1. ReLU 함수

ReLU 함수는 이러한 기울기 소실 문제를 해결하기 위해서 제안되었다. ReLU는 입력값이 0보다 클 경우 기울기를 항상 유지하기 때문에 기울기 소실 문제를 완화하는 것이 가능하다. 또한, Sigmoid, tanh 함수처럼 특별한 연산이 필요 없이 단순히 0을 기준으로 출력값이 결정되기 때문에 비교적으로 연산 속도가 빠르다는 특징이 있다.

하지만 ReLU 함수는 입력값이 0보다 작을 경우 기울기가 항상 0이기 때문에 입력값이 음수인 뉴런은 다시 회생시키는 것이 어렵다는 문제(죽어가는 ReLU, Dying ReLU)가 있다.

2. Leaky ReLU 함수

Dying ReLU 현상을 보완하기 위해 제안되었다. 이는 입력값이 음수인 경우 기울기가 0이 아닌 매우 작은 특정 값을 출력하도록 한다.

α값에 따라 입력값이 음수이더라도 0이 아닌 기울기값이 출력되기 때문에 뉴런이 죽는 현상을 방지할 수 있다.