728x90

모두의 딥러닝 lec12~



sequence data :
하나의 단어만 들었다고 그 문장의 의미가 다 이해되는 것이 아니고, 이전의 단어를 이해하고 그 다음 단어를 들었을 때 이해하게 되는 것. = 사람의 말, 자연어
이처럼 이전의 데이터가 그 다음의 데이터에 영향을 주는 것을 의미한다.

시리즈 결과에 굉장히 적합한 모델.



A를 구성하는데3개의 W가 구성됨. Wh, Wz, Wy 각 셀에 같은 W 로 학습을 하고, 똑같은 값을 추출한다.

입력값을 자연어로 줄 때 (ex. hello) RNN 로 표현하는 방법:
단어 4개에 값에 해당하는 위치에 1을 넣어 베타를 표현함.
각 LAYER에서 input layer + hidden layer 한 후 다음 칸에 영향을 준다. 마지막으로 y 를 뽑아낼 때
실제 값들과 원하는 자리가 같지 않을 때 , cost 함수는 어떻게 계산 할 것인가? 이전에 배웠던 softmax 함수을 사용한다.
이렇게 학습이 되면 그 후 한 글자는 뭐가 되겠다 예측이 가능!


이런 형태의 RNN 활용하는 곳 :
Language Modeling, speech Recognition, Machine Translation, Conversion Modeling/Questions Answering 등등..

rnn 은 종류가 아주 다양해 어떻게 활용하느냐에 따라 달라진다. 이미지 캡션같은 경우 - one to many 로 ( ex. 나는 모자를 쓰고있네.) Image Caption 등 만들 수 있다.
mamy to many - 비디오 프레임은 사진이 하나가 아니니까 여러개의 이미지를 받고 각각의 프레임을 설명하는 것으로 받을 수 있다. 다이나믹 함수를 사용해 우리가 만든 셀을 넘겨준다.



RNN TansorFlow))
1. 첫번째의 셀을 만든다. (셀에서 나가는 아웃풋의 크기를 정해주는 것이 중요.)
2. 만든 것을 실제로 구동을 시킨다. 그럼 이 드라이브는 하나는 아웃풋 출력을 내고 하나는 마지막의 스테이트 값을 낸다! 그 이유는 셀을 생성시키는 부분과 셀을 가지고 학습하고 구동하는 부분을 나눠줌으로서 우리가 원하는 형태의 셀을 마음대로 바꿀 수 있게 한다.






hihello RNN 훈련시키기! (내가 한 문자를 주면 다음 문자를 무엇인지 예측하게 하기.)

unique chars - 5개. 문자열을 원핫 인코딩으로 바꾸는 과정을 통해 문자는 숫자로, 숫자는 문자로 바꾸기

'AI 스터디 내용 > ML , DL' 카테고리의 다른 글

6주차 - 과적합  (0) 2021.02.26
5주차 - 역전파  (0) 2021.02.26
4주차 - AF  (0) 2021.02.26
3주차 Sigmoid  (0) 2021.02.26
2주차 - Gradient descent  (0) 2021.02.26
728x90

모딥)
- Activation Function의 한 종류인 sigmoid
- 多단의 모델에서는 sigmoid 함수를 이용할 경우, 최종 미분값이 0에 굉장히 근접하게 되어, 입력값이 결과에 영향을 주지 못하게 된다. => Vanishing gradient (뉴럴네트워크의 두 번째 빙하기 초래)
- 두 가지 해결법이 존재
1. Activation Function의 수정
- 제프리 힌튼 교수, 새로운 activation function 제시 -> ReLU
- ReLU: Rectified Linear Unit – 0 이하는 off / 0보다 큰 경우에서는 비례해서 커짐
- 마지막 단에는 0~1 사이 결과값을 가질 수 있도록 sigmoid 사용
- Leaky ReLU / ELU / Maxout 등 여러 variation이 등장
2. 초기값의 현명한 설정
- weight가 어느 순간 0이 되어버려 그 앞의 모든 weight가 0이 되어 gradient가 사라지는 문제
- Deep Belief Nets (DBN): Restricted Boatman Machine (RBM)에 의해 초기화 된 모델
- learning->fine tuning
- Xavier initialization / He’s initialization 등장

- 과적합: 학습 데이터에 대해서는 높은 정확도를 보이지만, 검증 데이터 혹은 테스트 데이터에 대해서는 정확도가 낮은 경우를 의미
- 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나기 쉽다.
- 과적합은 데이터 사이언스뿐만 아니라 AI 전반적으로 매우 큰 이슈
- 오버피팅을 해결하기 위한 dropout과 앙상블
- 과적합을 방지하고 좋은 결과를 얻기 위해서는 적절한 모형 선택과 정확한 실험설계가 필요하다.

'AI 스터디 내용 > ML , DL' 카테고리의 다른 글

RNN  (0) 2021.03.06
5주차 - 역전파  (0) 2021.02.26
4주차 - AF  (0) 2021.02.26
3주차 Sigmoid  (0) 2021.02.26
2주차 - Gradient descent  (0) 2021.02.26
728x90

모딥)
- XOR 문제는 매우 간단하지만, 하나의 신경망 모델로는 풀 수 없음이 수학적으로 증명이 되었기에 신경망 분야에 암흑기를 가져왔다
- 이를 해결하기 위해 여러 유닛을 겹쳐놓은 Multiple logistic regression unit이 등장하였다
- 이 경우 weight와 bias를 잘 학습시켜서 얻어낸다면 XOR 문제를 정상적으로 해결할 수 있게 되는데, 이때 weight와 bias의 학습은 역전파 기법을 이용하여 이루어진다
- 역전파(Back propagation): 에러에 의한 코스트 값을 다시 앞으로 돌려보내어 weight와 bias를 피드백 하는 것
- 텐서플로우에선 텐서보드를 통해 역전파가 가능하다



'AI 스터디 내용 > ML , DL' 카테고리의 다른 글

RNN  (0) 2021.03.06
6주차 - 과적합  (0) 2021.02.26
4주차 - AF  (0) 2021.02.26
3주차 Sigmoid  (0) 2021.02.26
2주차 - Gradient descent  (0) 2021.02.26
728x90

Online learning - 100만개의 데이터를 10만개씩 나눠서 학습시키는 방법. 10만개의 데이터가 새로 추가될 때 기존의 10만개씩 학습한 데이터를 다시 학습하지 않고 추가로 학습을 시킨다.


Activation functions : 뉴런의 단순함을 보고 사람들이 기계적으로 만들 수 있겠다 생각해 고안해낸 것.
어떤 신호 x 가 들어오면 w으로 곱이퇴고 bios으로 합함. 일정 값이 넘어가면 output 해주는 형식.


AND OR 로직) 과거엔 기계가 예측할 수 있게 하는 것이 중요한 문제였음.
XOR ) 값이 다르면 같으면 0 .

Comvonlutional Neural Networks *LeCun

고양이를 보게한 후 시신경의 움직임을 관찰하고, 그림의 종류에 따라 뉴런의 움직임이 다른 것을 발견함.
-> 인간이 그림을볼 때 그림의 전체가 아니라 일부만 보는 시신경이 있고 나중에 합쳐지는것이 아닌가?
부분을 잘라 그 다음 layer 로 보내 나중에 합치는 네트워크를 개발. 알파고도 이런 방식. 90% 이상의 성능을 보임. 이를 이용해 90년대 자율주행 자동차도 일부 성공함.
But problem) 복잡한 문제를 풀려면 10여개 이상의 layer 를 학습시켜야 하는데 앞의 error를 뒤쪽으로 갈 수록 전달하지 못해 학습을 못시켜서 성능이 떨어지게 됨.  ==> 침체기

Deep API Learning )
file copy해 어떤 디렉토리에 저장하고 싶다고 하면  시스템이 자동으로 어떤 api를 써야하고 어떤 순서로 써야하는지 알려주는 기능. 정확도 65%


유튜브 자막이나 페이스북 관심 피드, 구글 검색 엔진, 넷플릭스, 아마존 등이 인공지능을 도입해 성공한 사례.

지금 시작해야 하는 이유) 누구나 지금 시작해도 전문가가 될 수 있고 파이썬과 같은 언어를 활용해 인공지능다룰 수 있음.

----------‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐

모딥)
- 모델의 공정하고 정확한 평가를 위해서는 학습에 사용되지 않은 데이터를 이용하여 평가해야 한다
- 머신러닝 알고리즘의 성능을 제대로 파악하기 위해서는 훈련 데이터와 평가에 사용할 데이터가 각각 달라야 한다.
- 이렇게 하는 가장 간단한 방법은 평가를 위해 또 다른 데이터를 준비하거나, 이미 준비된 데이터 중에서 일부를 떼어 내 활용하는 것이다. 일반적으로 후자의 방법이 사용되며, 이때 평가에 사용되는 데이터를 테스트 세트, 훈련에 사용되는 데이터를 훈련 세트라고 부른다.
- 샘플 추출 전 데이터를 섞거나 골고루 샘플을 추출하는 과정이 필요하다 >> Numpy이용
- 훈련 세트로 fit() 메서드를 호출해 모델을 훈련하고, 테스트 세트로 score() 메서드를 호출해 평가
- 넘파이: 파이썬의 대표적인 배열 라이브러리 >> 고차원의 배열을 손쉽게 만들고 조작할 수 있는 기능 제공
- 준비된 배열에서 무작위로 샘플을 선택하여 훈련 세트와 테스트 세트로 이동 >> 인덱스 섞은 후 input_arr과 target_arr에서 샘플을 선택 (np.arange()함수 사용)
- learning rate를 잘못 정할 경우 무한정으로 반복을 거치며 제대로 된 결과가 나오지 않을 가능성이 있으므르 주의할 것
- 학습율의 올바른 설정을 돕는 두가지 방법론
1. Zero centered Data: 기존 오리지날 데이터의 중심이 0으로 가도록 바꾼다.
2. Normalized Data: 1을 만족시키면서 어떤 특정 범위 내에 모든 데이터들이 위치하도록 전처리(PreProcessing)하는 과정이다. 만약 머신러닝이 제대로 되지 않는다면 전처리 과정을 거쳐 유의미한 데이터셋을 넣었는지 확인하는 것이 좋다.
- Minsky 교수의 일침 "딥러닝은 XOR 문제를 해셜하지 못한다"
=> 딥러닝의 암흑기 도래
- 이후 역전파 방식의 발견으로 재조명 받기 시작
- 하지만 Backpropagation 알고리즘은 몇 개의 layer에서는 잘 작동했으나 10여개의 layer에서는 error를 앞으로 보내는 것이 번거로워 성능이 떨어지는 문제점이 봉착하게 되었다.

'AI 스터디 내용 > ML , DL' 카테고리의 다른 글

6주차 - 과적합  (0) 2021.02.26
5주차 - 역전파  (0) 2021.02.26
3주차 Sigmoid  (0) 2021.02.26
2주차 - Gradient descent  (0) 2021.02.26
1주차 - Supervised, Unsupervised  (0) 2021.02.26
728x90

모두의 딥러닝 강의를 보며 필기한 내용입니다.




- sigmoid, Logistic function
: g(z) 가 무한대로 커지더라도 1에 가까워지기만 하고, z가 무한대로 작아지더라도 0 에 가까워짐 ⇒Binary Classification
Ex) 페이스북 - 좋아요 타임라인 학습해서 수백개의 타임라인 중 일부만 공개. (사용자가 선호하는 것들만.)
카드회사 - 유저가 기존 결제내역과 다르 결제를 하면 수상히 여기고 유저에게 연락.

합법 1 불법 0 합리적1 비합리적 0. 이런식으로 0,1로 이루어짐.
여기서의 Linear Regression  가 문제. 0~1 값이 나와야 하는데 Wx + b 에서 그 이상이나 이하의 값이 나온다.
그래서 H(X) logistic hypothesis  나옴.

목표 - Cost function 최소화하기.
But 문제) 위의 H(×) 함수 (시그모이드를 합친 함수)로 바뀌고 나서 ,  linear 한 틈이 아님.
그래프가 경사가 많아서 linear함수에선 문제되지 않았던 첫 시작점이 문제가 될 수 있음. 최저점이 달라지기 때문. Local minimum,  global minimum  찾는게 문제인데 그래서 gre- 알고리즘은 H(x) 함수 사용 불가.


새로운 cost함수. 예측 값 같으면 cost 함같으면 비슷하면 코스트함수 작아지고 예측값 틀리면 코스트함수 커짐.

이번 주의 내용은 첫 시간과 지금까지 배운 내용들을 더 상세하게 보고 이해한 느낌이 들었다.


Sigmoid 정리 - logistic classifier 써서 Wx = y 형태의 함수에 입력값에 따라 세 개의 벡터를 나타냄. 세 개의 값이 합쳐 모두 1이 되게끔 만드는 것이 Softmax.
0.7 0.2 0.1 가 확률일 때 (a,b,c가 각각 나올 확률) 그 중에 하나만 고르려면 one-hot encoding 사용. 그 나온 값을 참고해 값 하나 (ex. A) 고를 수 있다. 출력 값이 0 과 1 사이에 존재하게 됨



‐---------------------------------------------------------------------


모딥)
- Logistric Regression 은 학습 데이터의 특성과 관계를 파악하여 미지의 인풋데이터에 대해 결과가 어떤 클래스로 분류 될수 있는지 예측하는 알고리즘

- training 데이터 특성과 분포를 나타내는 최적의 직선을 찾고, 그 직선을 기준으로 데이터를 위 또는 아래 등으로 분류해 주는 알고리즘
-> 정확도가 높으며 Deep Learning 의 기본 컴포넌트로 사용된다

- 시그모이드 함수: 입력값 z가 어떤값이 오더라도 출력값은 0-1사이에 오는 함수

- linear regression 출력값 Wx+b가 어떤 값을 갖더라도, 출력함수 sigmoid를 사용해서 0.5보다 크면 1, 작으면 0을 출력함으로써 classification 형성 가능

- 시그모이드 함수와 t 간의 차이에 대한 loss function은 다음과 같은 식으로 정의할 수 있다.
=> E(W,b) = - integral) i =1 to n { ti log yi + (1 - ti) log (1 - yi)}

손실함수가 최소가 되는 값 찾는 알고리즘은 다음과 같다
1. input , W, b 선택
2. 손실함수 계산
3. 최소값인지 아닌지 비교 -> 최소값이면 while을 나가야 함.
4. W, b를 다시 계산 (손실함수를 w,b로 편미분 한 만큼 변동 시킴)
5. 다시 2번으로

- log0 이 무한대가 되어서 , 아주 작은 값을 더해 준다는 이야기가 계속 나오는데, 아래 log의 정의로 부터 log0은 마이너스 무한대가 됨을 알 수 있다.

- b가 1보다 크다면 0 = b의 마이너스 무한대승, 양변에 logb를 취하면 log0= −∞

- Softmax regression은 Linear regression에 시그모이드 대신 소프트맥스 함수를 넣은 것

- S(yi) = e^(yi) / integral j e^(yj)

- 정답 벡터는 one-hot 벡터 사용 (정답 1, 나머지 0)


edwith)
- 정규화: 데이터를 일정한 규칙에 따라 변형하여 이용하기 쉽게 만드는 일 (출처: 네이버 지식백과)

- 과적합: 훈련데이터에서는 100% 정확도를 보이지만 실제 테스트 데이터에서는 낮은 예측률을 보이는 현상

- dropout: 과적합을 막기 위해 사용되는 방법 중 하나. 신경망 훈련을 시키는 동안 모델 내에서 임의로 노드 간 연결을 끊어서 훈련시키는 것
- 드롭아웃을 시키는 노드가 무엇이냥 따라 조금씩 다른 구조를 가지게 되므로 여러가지 구조를 학습시킬 수 있다. => 앙상블 효과

'AI 스터디 내용 > ML , DL' 카테고리의 다른 글

6주차 - 과적합  (0) 2021.02.26
5주차 - 역전파  (0) 2021.02.26
4주차 - AF  (0) 2021.02.26
2주차 - Gradient descent  (0) 2021.02.26
1주차 - Supervised, Unsupervised  (0) 2021.02.26
728x90

수업을 듣고 따로 메모한 내용을 다시 올리는 식입니다. 영상은 유튜브에서 모두의 딥러닝을 참고해주세요.


모딥
배우는 중간중간 목적을 잊어서 이 식을 왜 쓰는지 계속 되새겨 보도록 노력을 했어요.
Data를 가지고 w,b가 최소가 되는 점을 찾기 위해 Gradient descent (경사하강법) 알고리즘을 사용한다. 즉 매개변수 w,b 를 훈련 set 에 학습시키는 방법입니다. 
0.0과같이 아무 값에서 시작해도 경사도를 미분에서 구해서 항상 최저점에 도달할 수 있기 때문이다. 
이러한 학습과정을 통해 model 을 만든다.
이것들을 먼저 이해하는데 노력한 후에 수학공식을 다시금 보며 더 확실히 이해했습니다. 

Edwith
L함수. 즉, 손실함수는 알고리즘이 얼마나 잘 작동되는지 알아보기 위해 쓰이며 출력된 y예측값, 참값y의 오차를 구하는 식입니다. 참값 y가 0,1 일때 식에 대입해 결과값을 보며 y예측값의 범위를 알아봤습니다. 최대한 작은 결과가 나와야 잘 작동되는 알고리즘이기 때문입니다.
비용함수는 위에서 찾은 알고리즘으로 훈련함수가 얼마나 잘 측정되었는지 보기 위해 쓰입니다. 손실함수를 평균 내 가장 작은 값이 좋은 함수라고 이해했습니다. 
모딥에서 나온 경사하강법 알고리즘을 설명하는데 결국 이 알고리즘을 쓰는 목적은 기울기를 구해 더 효과적인 minimal 한 함수를 찾기 위한 것 이라고 이해했습니다. 


(데마님 스터디 내용)

 

모딥)
선형회귀와 다변수 선형회귀의 개념을 알아보고 실제로 구현을 해보았다
- 훈련세트의 데이터로부터 상관관계 혹은 피쳐 등을 파악하여 새로운 인풋 데이터에 대한 예측 결과를 도출하는 것
- 가중치와 편향치를 찾아 이로부터 선형회귀 그래프를 도출 해 낼 수 있다
- 입력과 출력의 관계가 선으로 표현되는 어떠한 상관관계를 이룰 경우 선형이라고 부른다 (비선형도 존재)

 

추가 공부자료 : blog.naver.com/beyondlegend/222161076326

 

Edwith)
벡터화와 로지스틱회귀, 신경망 네트워크에 대해서 공부했다
- 벡터화란 한번에 처리하는 데이터의 양을 늘려 CPU 사용률을 높이고 처리속도를 빠르게 하는 기법이다.
- 병렬 프로세서가 벡터화 연산을 가능하게 한다.
- 저번주차에 확인했던 내용인 로지스틱 회귀에 대해 다시 공부하면서 더 심층적인 이해를 할 수 있었다.
- 신경망 네트워크는 생물의 신경망에서 아이디어를 얻은 통계학적 학습 알고리즘이다.
- 워런 맥털록, 월터 피츠가 발표한 MCP 뉴런에서 시작되었으며, 이후 로젠블라트의 퍼셉트론 등으로 발전하며 현재의 위치까지 오게 되었다.
- 퍼셉트론은 XOR 문제를 해결하지 못한다는 지적 등에 가로막혀 한 때 연구가 동결되었으나, 이미지 인식 분야에서 압도적인 성능을 보이며 성능을 인정받아 다시 활발히 연구가 진행되었다.

 

 

 

'AI 스터디 내용 > ML , DL' 카테고리의 다른 글

6주차 - 과적합  (0) 2021.02.26
5주차 - 역전파  (0) 2021.02.26
4주차 - AF  (0) 2021.02.26
3주차 Sigmoid  (0) 2021.02.26
1주차 - Supervised, Unsupervised  (0) 2021.02.26
728x90

<스터디 진행 방식>

시작 날짜: 2020.12.28~2021.2.28 

진행방식: 양질의 강의를 매주 일정량 듣고 주 1회간단한 레포트 형식의 내용요약 ,감상문 공유 및 상호간 피드백 

 

강의는 '모두의 딥러닝' , 'Edwith' 를 들었습니다.

 


Supervised Learning 지도학습 이란?

머신러닝에서 supervised learning이란, 이미 정해진 데이터들이 있고, 우리는 이 데이터들을 training set 또는 training data라고 합니다. 그 데이터들을 학습을 하는것이 바로 supervised learning이라고 합니다. 예를 들어서 고양이나 개의 그림을 가져다 놓고 "이건 고양이야", "이건 개야" 라고 학습을 계속 시키다가 training data가 아닌 다른 새로운 데이터를 가지고 왔을때 개인지 고양이 인지 구분 시키는 것을 말 하는것 이죠.

regression model 이란?

regression model이란, Supervised Learning에서도 어떤 값(x)이 들어 올때, 결과값(y)를 예측 하는 모델 입니다. 아래 자료도 한번 같이 보겠습니다. 왼쪽 x는 학습시간, 결과인 y는 점수를 뜻합니다. 10시간 공부했을때 90점을 획득했고, 3시간 공부했을때는 50점을 획득 한다는 의미 인 것이죠. 이런 데이터로 학습을 하여 7시간 공부했을 때는 과연 몇점을 획득 할 수 있을까? 하는것이 바로 이 regression model 입니다.

regression model data

실습 데이터

자, 첫번째 실습으로 아주 간단한 데이터를 준비해주셨더라구요. 이 데이터를 통해서 한번 Supervised Learning의 regression model을학습해보도록하겠습니다. 학습 데이터는 다음과 같습니다.

regression model data

x가 1일때 y는 1입니다. 역시, x가 3일때는 y도 3이죠.
이걸 가지고 한번 regression medel을 만들어 보도록 하겠습니다. 위 데이터를 가지고 먼저 그래프를 만들어 보도록 하겠습니다.

regression model graph

위와 같은 데이터를 Linear regression 입니다. 바로 입력값에 대비하여 출력값이 비례하는것을 말 하는것이죠. 우리 일상생활속에서 아주 흔한 케이스를 말하는 가설중 하나 입니다. 결국 이런 비례하는 선을 찾는것이 되겠죠. 이걸 우리는 수식으로 아래와 같이 나타 낼 수 있을겁니다.



출처: https://stricky.tistory.com/436 [The DataBase that i am good at] (같이 스터디 하시는 DB님 블로그!)

 

 

 


 

1. 머신러닝의 개념과 발단 등을 알아보고 그 예시들을 간단히 알아보는 시간을 가졌습니다. 

2. Supervised , Unsupervised 의 차이점을 알았습니다. 결국 기계가 data에 다가가는(?) 방식에서 차이가 있다고 느꼈습니다. (정해진데이터로 학습, 스스로 데이터 보고 학습)

3. Supervised learning 의 세가지 종류 ( regression , binary classification,  multi label classification) 차이점에 대해 배웠습니다. 이 부분은 예제와 함께(성적) 공부하니 한번에 이해가 갔습니다.

4. Linear Regression 에서 결국 가장 중요한 것은 많은 가설 중 결국 많은 데이터가 그래프에서 linear한 선들 중 어느 선에 정확하게 맞는지 보고 (수학을 이용해 데이터와 선의 거리가 가까울수록 좋는 가설) 어떤 가설이 더 좋은지 찾는 것입니다.

5. 로지스틱 회귀는 Binary classification(이진분류) 을 구하기 위한 공식. 이진 분류 목표는 특성벡터 x값으로 레이블 y가 1 or 0 (참 혹은 거짓) 인지 학습을 위함.

 

 


- 1주차 강의는 머신러닝의 전반적인 개요와 딥러닝 라이브러리인 텐서플로우의 전반적인 동작 방식에 대해 알아봤으며, 머신러닝에서 흔히 사용되는 분류 모델인 로지스틱 회귀 모델에 대해서 간단하게 공부해보았습니다.


- 선형대수학 시간에 텐서라는 것을 간단하게만 들었는데 그때는 쓸모가 없다고 생각하고 머리에 들어오지도 않던 개념이 실제로 사용되는 것을 보면서 좀더 이해가 잘 되었던 것 같습니다.


- 로지스틱 회귀는 선형적 구분이 가능한 클래스를 레이블링하는데에 뛰어난 성능을 내는 분류 모델 중 하나로, 구현이 쉽고 간단하다는 장점을 보입니다. 단, 선형적으로 구분되지 않는 클래스들에 대해서는 수렴하지 않기 때문에 분류가 어렵다는 단점또한 가지고 있죠. 이름은 회귀지만 회귀 모델이 아닌 분류 모델이라는 점이 인상 깊었습니다.


- 기본적으로는 이진분류인 로지스틱 회귀 모델을 다중 분류로 확장시키기 위해 사용되는 방법론으로는 OvR 방식이 있습니다.


- 예측이 정확할 수록 코스트가 0에 수렴하는 것을 볼 수 있는데, 이와 같은 가중치 방식을 사용하여 학습시킨다는 점이 가장 큰 특징입니다.


- 수치적 계산에 특화된 머신러닝 라이브러리인 사이킷런을 사용하여 로지스틱 회귀 모델을 훈련 시킬 수 있습니다. 기본값이 OvR이기 때문에 다중분류를 지원합니다.


- 오버피팅 문제를 해결하기 위해서는 레귤러라이제이션을 사용합니다. 레귤러라이제이션은 규제라고도 부르며, 과도한 파라미터 값을 제한하기 위해 추가적인 bias를 주입하는 개념입니다. 대표적으로 L2감쇠 등이 있습니다.

 

'AI 스터디 내용 > ML , DL' 카테고리의 다른 글

6주차 - 과적합  (0) 2021.02.26
5주차 - 역전파  (0) 2021.02.26
4주차 - AF  (0) 2021.02.26
3주차 Sigmoid  (0) 2021.02.26
2주차 - Gradient descent  (0) 2021.02.26

+ Recent posts