본문 바로가기

개인공부/자격증

제 4회 빅데이터 분석기사 합격

취득 목적:  

빅데이터와 AI 관련된 연구와 개발 역량을 키우고, 해당 역량에 대해 기본적으로 평가 받기 위해 취득하고자 했다.

특히, 이전에 인공지능을 이용한 연구와 인공지능과 관련된 공부를 조금이나마 했었지만 기계학습 부분(SVM, random forest 등)과 통계 분석 부분과 결과 해석부분에 대한 지식이 많이 부족하여 이론적인 부분을 채우고 싶었다.


학습: 

구입 교재 :

필기 - 이기적 빅데이터 분석기사 필기

실기 - 공개적 빅데이터 분석기사 실기 (Python)

 

학습 : 

 

필기

자격증 공부 이전에 공학 석사 생활을 하면서 연구에 필요한 분석 방법을 제한적으로 사용하고 들은 경험(회귀분석 - RMSE, 결정계수, 피어슨 상관계수, 회귀를 위한 모델 - 선형회귀, LSTM, CNN 정도)이 있다. 또한 딥러닝 관련 공부는 모두를 위한 딥러닝 강의와 NIPA 지원 무료 인공지능 교육을 수료했었고 대학원에서 인공지능, 데이터 관련 수업을 수강했었다.

이러한 경험 덕분에 필기 시험의 빅데이터 탐색 과목의 일부분과 빅데이터 모델링 과목 중 인공신경망은 한 번 정도 정독하고 넘어갔다.(통계, 분석변수 처리, 데이터 탐색, 서포트벡터머신, 연관성분석 등은 다뤄본적이 없어 학습이 필요했다..)

 

위를 제외한 나머지 부분들은 세밀하게 정독을 하려고 했으나.... 너무 양도 많고 감이 잡히지 않아서 소단원 끝날때마다 나오는 확인 문제와 단원이 끝나는 연습문제를 먼저 풀어보고 부족한 부분을 읽어보는 방식으로 공부했다. 특히 빅데이터 분석 기획 부분은 많이 생소하여 문제를 풀면 거의 비가 내렸었다... 

 

필기를 공부하면서 조금 관심있게 봤던 부분들을 생각해보면(확인문제와 연습문제를 풀어보면 대충 중요한 부분들이 정해진다..)

1. 빅데이터 분석기획
- 데이터 분류 => 정량적/정성적 데이터 구분, 정형/반정형/비정형 데이터, 단변량/다변량, 질적, 명목, 서열 등 구분

- 지식창조 매커니즘, DIKW

- OLTP, OLAP 구분

- 빅데이터 특징 (3V + 2V 가 무엇인지)

- 관련 법, 비식별 조치방법

- 분석기획 특징, 분류를 위한 테이블(optimization, insight, solution, discovery)

- 하향식/상향식 접근방식

- 폭포수/프로토타입/나선형과 같은 여러 모형 특징

- 분석 방법론(kdd, crisp-dm 등..)

- 데이터 거버넌스

- 데이터 분석 수준진단(...)

- 데이터 변환 방식의 종류(RDBMS, NoSQL 등)

- 데이터 저장 방식 종류

 

2. 빅데이터 탐색(확률분포 부분은 그냥 공부에서 제외)

- 결측 값 처리, IQR, 상관관계 분석

- 중앙값, 최빈값, 분위수

- 자료의 분포형태(왜도, 첨도 특징)

- 가설검정, 유의수준, p-value, 기각역, 점추정, 구간추정

 

3. 빅데이터 모델링

- 연관성 분석(지지도, 신뢰도, 향상도의 특징 및 계산방법)

- 군집분석(거리 계산 방법)

- 다변량분석 기법들의 특징(언제쓰이는가?)

- 시계열 분석(각각의 특징, 분석방법)

- 비정형 데이터 분석(방법, 특징)

- 앙상블 방법의 종류와 각 특징(부스팅, 배깅 등)

- 비모수 통계의 종류(윌콕슨 검정, 부호검정 등)

- 데이터 분할(tr, va, te, 데이터 분할 방법의 Cross validation 등)

- 과대, 과소적합 특징 및 해결방법(L1(lasso), L2(ridge) 정규화의 특징, 방법)

- 지도/준지도/비지도/강화학습 특징, 구별

- regression, classification 구별/각 모델별 특징알기(신경망, 딥러닝, 의사결정나무, svm, 랜덤포레스트 등)

 

4. 빅데이터 결과 해석

- cunfusion matrix(정확도, 정밀도, 재현율, F1 score, roc, auc)

- 회귀/군집 모델의 평가 종류(sse, mse, r2, adj-r2 등)

- 교차검증 방법(K-fold, Cross validation, hold out 등)

- 과대, 과소적합 특징 및 해결 방법

- 데이터 시각화(명칭을 익숙)

 

자세히 본 부분들이 결국 책 전체지만... 상기된 부분을 쓰윽 가볍게 2번정도 읽었고, 나머지 부분에 대해서는 문제위주로 빠르게 해설지 보는 식으로 학습하였다.

 

 

 

실기 - 사용 언어 : Python

실기는 크게 3가지 부분으로 1. 빅데이터 관련 지식(주관식), 2. 파이썬 코딩(작업형 1), 3. 예측 모델링 및 평가(작업형 2)로 나눌 수 있다.

 

 먼저, 작업형 1, 2의 비중이 크기 때문에(작업형 총 점수 : 70점) 주관식 부분은 4문제 정도만 맞추자라는 생각을 하였고, 첫번째 빅데이터 주관식의 경우 공개적 빅데이터 분석기사 실기 책 앞부분에 나와있는 단답형 기출문제와 예상문제를 보았다. 이때 기출의 경우 동일한 답을 가진 문제는 나오지 않을 것으로 생각하여 관련 내용을 다시 확인하는 식으로 학습하였다.

 두번째 작업형 1의 경우 기본적인 코딩은 가능한 수준이지만 잘 다뤄보지 않은 Pandas의 DataFrame을 연습하기 위해 DataManim 이라는 사이트에서 작업형 1 유형의 연습문제를 두 회정도 풀어보았다. 

 

 마지막으로 작업형 2의 경우 문제를 해결하는데 있어 절차는 크게 달라지지 않고, 복잡한 모델링을 요구하지 않기 때문에 네이버 카페 데이터 전문가 포럼의 시험 후기에서 주로 어떠한 모델을 사용했는지 체크하였다. 기본적으로 모델링하는 절차는 공개적 빅데이터 분석기사 실기 책의 작업형 2 예제 문제 답안을 베이스로 데이터 전문가 포럼의 코드들을 참고 하였고, 내가 사용하는 모델에 특성에 맞게 전처리 부분과 몇몇 부분들을 다듬어 최종적으로 절차상 필요한 함수들을 외웠다. (대학원 시절 연구에서는 함수를 검색해가면서 사용했기 때문에 함수를 딱히 외우진 않았...)

 

  회귀/분류 모델 - RandomForest, 범주형 변수처리 - label encoder, 변수의 scale 조정과 파생 변수 생성은 하지 않음


결과: 

필기 : 62.5점

제4회 빅데이터 분석기사 필기 결과

실기 : 75점

제4회 빅데이터 분석기사 실기 결과


고찰: 

필기

턱걸이로 간신히 합격했다...

한국사, ADsP와 같이 전반적으로 학습량과 학습 기간이 많이 가져가지 않았다. 이전과 똑같이 기출의 경우 1회분만 풀었다.

조금 아는 부분들이 있다고 학습기간을 짧게 가져가고,  그러다보니 대충 공부했던 부분들이 많아서 고득점이라고 생각했던 모델링과 결과 해석부분에서 많이 틀렸다.... 그래도 위에서 반드시 외웠던 부분들은 시험에 나와서 정말 다행이었다!

추후에 ADP는 정말 부족한 부분들을 채우기 위해 정말 꼼꼼히 학습을 해야겠다....

 

실기

작업형 2 유형에서 기존 기출들과 다른 유형으로 다중 분류 문제가 나왔었는데 모델 평가 관련하여 f1-macro score 기준으로 채점한다고 안내되었다. f1 macro는 뭐지? 당황했지만 정답 값과 예측한 값의 차이가 작아지도록 최적화 하는 방법을 이용하였고, 회귀 모델 평가에서 사용되는 MSE를 이용하여 대략적으로 모델 최적화를 진행하였다(다행이 작업형 2 유형 만점..).

 

주관식과 작업형 2 유형의 경우 준비했던 전략이 잘 들어맞았지만 작업형 1 유형에서 예상보다 잘 풀지 못했었다.

파이썬의 date 관련 함수나, 문자열 관련 함수를 알고 있었으면 풀었을텐데 알지 못해 하드 코딩해서 풀어서 틀렸다...

실기 또한 필기와 마찬가지로 파이썬을 조금 할 줄 안다고 작업형 1 유형 대비가 잘 이뤄지지 않았던 것 같다.

필기와 마찬가지로 ADP 준비를 위해 조금 더 언어 숙달을 위해 많이 학습을 해야겠다..

 

 

 

'개인공부 > 자격증' 카테고리의 다른 글

네트워크 관리사 2급 합격  (1) 2022.12.17
데이터분석 준전문가(ADsP) 합격  (0) 2022.07.06
57회 한국사능력검정시험 2급  (0) 2022.02.23