모딥)
- Activation Function의 한 종류인 sigmoid
- 多단의 모델에서는 sigmoid 함수를 이용할 경우, 최종 미분값이 0에 굉장히 근접하게 되어, 입력값이 결과에 영향을 주지 못하게 된다. => Vanishing gradient (뉴럴네트워크의 두 번째 빙하기 초래)
- 두 가지 해결법이 존재
1. Activation Function의 수정
- 제프리 힌튼 교수, 새로운 activation function 제시 -> ReLU
- ReLU: Rectified Linear Unit – 0 이하는 off / 0보다 큰 경우에서는 비례해서 커짐
- 마지막 단에는 0~1 사이 결과값을 가질 수 있도록 sigmoid 사용
- Leaky ReLU / ELU / Maxout 등 여러 variation이 등장
2. 초기값의 현명한 설정
- weight가 어느 순간 0이 되어버려 그 앞의 모든 weight가 0이 되어 gradient가 사라지는 문제
- Deep Belief Nets (DBN): Restricted Boatman Machine (RBM)에 의해 초기화 된 모델
- learning->fine tuning
- Xavier initialization / He’s initialization 등장
- 과적합: 학습 데이터에 대해서는 높은 정확도를 보이지만, 검증 데이터 혹은 테스트 데이터에 대해서는 정확도가 낮은 경우를 의미
- 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나기 쉽다.
- 과적합은 데이터 사이언스뿐만 아니라 AI 전반적으로 매우 큰 이슈
- 오버피팅을 해결하기 위한 dropout과 앙상블
- 과적합을 방지하고 좋은 결과를 얻기 위해서는 적절한 모형 선택과 정확한 실험설계가 필요하다.
'AI 스터디 내용 > ML , DL' 카테고리의 다른 글
RNN (0) | 2021.03.06 |
---|---|
5주차 - 역전파 (0) | 2021.02.26 |
4주차 - AF (0) | 2021.02.26 |
3주차 Sigmoid (0) | 2021.02.26 |
2주차 - Gradient descent (0) | 2021.02.26 |