Codes

빅데이터분석기사 실기 9회 재수 합격 후기 / 빅분기 python 파이썬 / 수준 / 난이도 / 쓸모 / 비전공자

르지 2024. 12. 16. 17:47

내가 검색했던 모든 키워드를 제목에 넣었다... 한 명이라도 이 글을 읽는다면 나의 승리다.

바쁘다 바빠 현대사회! 모던한 당신을 위한 4줄 요약
필기는 경제나 통계 전공이 아니라는 가정 하에 두 달, 경제나 통계 전공이면 3주컷 가능
컴공/컴과면 전날 술 먹고 아침에 숙취 가득한 채로 봐도 그냥 붙는듯...
실기는 쓰이는 코드만 외워서 제대로 잘 치기만 하면 바로 통과
쓸모는 딱히 없는데 '기사' 이름이 간지나고 꿀통 시험인 게 소문이 안 나서 면접 시 '이런 것도 있네?' 정도 인상을 심어줄 수 있음

 

 

비전공자여도 3주컷하고 붙으시는 분들 많던데 너무 기죽지 말자. 재수해서 따시는 분들도 많은 것 같다. (네X버 데이터전문가 포럼에서 후기 읽어봄)

python 기초를 마치고 전처리 연습은 열심히 해서 1유형은 큰 어려움 없이 풀었고, 3유형은 ols 딱 하나 외워갔다. 11월 16일에 HSK 시험이 있어서 16일까지는 빅분기 공부를 거의 못 했다. 2주 동안 하루 3시간 이상 준비했다. 3유형이 자신이 없었고 1유형은 다 맞힌 줄 알았는데... 조금 아쉽다.

8회 2유형에서 EOF 에러가 떴는데, 멍청하게도 구름 환경으로 연습을 거의 안 해서 무슨 에러인지도 몰랐고...(END OF FILE의 약자, 아마 파일 생성 과정에서 괄호를 안 닫은 것 같다) 파일 제출에 실패해서 불합이었다. 대부분 코랩 주피터로 연습을 할 텐데, cell by cell로 실행되는 선녀 같은 주피터에 적응되면 구름을 처음 접했을 때 아주 불편하고 당황스럽게 느껴질 것이다. 예시문제도 있으니 구름 환경에서 무조건 연습해 보자

https://dataq.goorm.io/exam/3/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/1

 

구름EDU - 모두를 위한 맞춤형 IT교육

구름EDU는 모두를 위한 맞춤형 IT교육 플랫폼입니다. 개인/학교/기업 및 기관 별 최적화된 IT교육 솔루션을 경험해보세요. 기초부터 실무 프로그래밍 교육, 전국 초중고/대학교 온라인 강의, 기업/

edu.goorm.io

 

 

정답이 정해진 1유형 & 3유형과 달리 2유형은 예측 데이터를 제출하면 알아서 정답 데이터와 비교하여 점수를 주는 것이다 보니 시험마다 말이 조금 많은 것 같다. 카페 후기를 읽어 보니 30점을 받으신 분들도 꽤 있었다. 결론부터 얘기하자면, 전처리를 하지 않는 것이 오히려 우월전략이었다. 모든 것이 결과론적인 것이겠지만..

 

우선 나는 전처리 없이 pd.get_dummies로 원핫 인코딩을 하고 파라미터 조정 없이 RandomForestClassifer를 사용했다. 파일이 제출된 것을 확인한 후 모델을 바꿔 보거나 (knn, xgboost까지 돌려 봄) unique 값이 많은 특정 컬럼을 드랍했다. 그런데 하면 할수록 점수가 떨어지길래 초심으로 돌아가(?) 슴슴한 RandomForestClassifier로 제출했다. 이건 옛날에 공부할 때 멘토님이 알려주신 건데, 모델 정했으면 해당 모델에 train 데이터를 모두 집어넣어 학습한다. train_test_split을 사용하는 경우, test_size에 해당하는 만큼 데이터를 사용할 수 없게 된다. (validation set에는 fit을 사용하지 않는 것과 일맥상통) 근데 아까우니까... 결과적으로는 아래 코드만 사용한 셈이 되었다.

x_train = train.drop("target", axis = 1)
y = train.target
X_train = pd.get_dummies(x_train)
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier(random_state = 42)
rfc.fit(X_train)
pred = rfc.predict(test)

예측 데이터만 열게 맞게 잘 뽑고 제출 버튼만 제대로 누르면 된다. 차라리 1유형이나 3유형 공부를 더 열심히 하는 것이 맞을 것 같다. 3유형은 원래부터 자잘하게 외울 코드가 많고, 1유형은 점점 어려워질 것 같다. 다른 기사 시험에 비해 합격률이 높아서 2유형도 조정될 가능성이 많지만 갑자기 난도가 확 오르지는 않을 테니 빅데이터분석기사가 필요하다면 최대한 빨리 취득하는 것이 좋겠다.

 

필기는 참고서가 다양하고 무얼 사든 믿고 볼 수 있었다. 빅데이터분석기사는 기출이 공개되지 않는 만큼 여러 출판사에서 나온 책을 참고해서 보았을 때 모자란 부분이 조금씩 채워지는 시너지가 있기도 했다. 

 

하지만 실기는 참고서를 굳이 구매한다면 한 권만 구매하는 것을 추천하고, 제일 좋은 것은 책 없이 데이터마님과 퇴근후딴짓 등에서 제공하는 캐글 데이터로 연습하는 것이다.

 

DataManim — DataManim

next 1.빅데이터 분석기사 실기 (PYTHON)

www.datamanim.com

 

 

Big Data Certification KR

퇴근후딴짓 의 빅데이터 분석기사 실기 (Python, R tutorial code) 커뮤니티

www.kaggle.com

 

필기와 달리 빅분기 실기는 여러 출판사의 서적을 구매하는 것을 강력하게 비추천하는데, 빅데이터분석기사 실기는 오류 없는 코드를 정확히 외워서 구현해야 점수를 얻을 수 있기 때문이다. 그런데 시간이 없는 상태에서 다양한 코드를 보면 비전공자 입장에서는 헷갈릴 수밖에 없다. 시험은 준비하며 본 책 두 권에 대한 간략한 후기는 접은글에 있다.

더보기

예문에듀 빅데이터분석기사 실기 한 권 완성 python

틀린 코드는 거의 없었지만 중고서점에서 구판을 구매했기 때문에 파이썬 버전이 바뀌면서 안 돌아가는 코드가 몇 개 있었다. 자습할 때는 훌륭한 책이지만 시험에 합격하는 목적으로는 다소 아쉬운데, 중간에 전처리를 너무 열심히 하신다... 전처리를 열심히 한다고 성능이 반드시 좋아지는 것이 아니고, 현재까지는 전처리에 공을 많이 들이지 않아도 자격증을 취득하는 데 아무런 문제가 없기 때문에 투머치라는 생각이 들어서 아쉬웠다. 내용 자체는 공부할 만하다고 생각해서 복습 겸 차차 정리해 보려고 한다. 검정 부분이 아주 빈약했지만 중고서점에서 옛날 책을 산 나의 잘못이다.

 

내일은 빅데이터분석기사 실기 with 파이썬

책 편집이 깔끔하고 2유형 코드가 외우기 쉬워서 좋았다. 하지만 역시 3유형 내용이 빈약했고, 저자 본인도 헷갈리는지 책 중간에 before 데이터와 after 데이터 위치가 바뀐 부분이 있었다.(ttest에서 코드를 두 번 보여주는데 첫 번째 맞고 두 번째가 틀림) 그래도 챗GPT가 쓴 게 아니고 사람이 쓴 게 맞긴 한가 보다. 코랩으로 진행하는데 출판사 사이트에 들어가서 데이터셋을 다운로드 받아야 하는 게 좀 귀찮았다. 다른 데는 다 링크로 주던데...

쓸모는... 딱히 없다. 다른 기사 시험에 비해 합격률이 높기도 하고 자격증 하나로 취직이 뿅 되는 것도 아니니까... 나는 데이터 관련 교육사항이 있었고 진행한 프로젝트도 있었는데 수상이력과 자격사항이 공란이라 면접에서 대놓고 질문을 받기도 하였다. 부랴부랴 SQLD와 빅데이터분석기사를 취득했지만 면접에서 10초 정도 당당하게 대답할 수 있는 용도이지 결정적으로 도움이 될 거라고 생각하지는 않는다. 프로젝트 포트폴리오를 기깔나게 만들거나 수상하는 것이 훨씬 좋은 스펙이 될 것이다. 그래도 일상의 작은 성취가 삶을 더 나아지게 한다는 점에서 빅데이터 분야에 관심이 있으면 노력하여 취득하는 것을 추천한다.

 

Knight가 된 김에 송년회에서 기사 서임식이나 치러 달라고 해야지...