문과의 고군분투기/Data 분석과 기획

R 프로그래밍 & 통계학 입문 교육 후기 - 포항공대 온라인 플랫폼

energy_water 2020. 9. 15. 04:56
반응형

우연하게도 Postech과 Posco가 공동으로 제공하는 청년 AI · Big Data 아카데미 온라인 기초과정(MOOC)를 접하게 되었다. 제한인원이 없는 동영상 강의이니 신청하고 싶다면 지금이라도 가능하다.

 

pabi.smartlearn.io/

 

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

오늘은 그 중에서도 빅데이터 과정의 수업을 듣고 쓰는 후기이다. (원래는 1주일로 끝을 보려했으나) 무려 2주가 소요됐다.

  • 빅데이터분석과 R프로그래밍Ⅰ
  • 데이터사이언스를 위한 통계학입문Ⅰ

사이트에 접속하면 알겠지만 통계학과 R프로그래밍 사이의 수강 순서는 없고 머신러닝기법 R프로그래밍 전에 빅데이터분석과 R프로그래밍을 선수강하라는 가이드가 있다.

 

빅데이터 과정

  • 이터사이언스를 위한 통계학입문Ⅰ, Ⅱ
  • 빅데이터분석과 R프로그래밍Ⅰ
  • 머신러닝기법과 R프로그래밍Ⅰ, 

하지만 R프로그래밍과 통계학이 서로 상호작용하면서 이해되는 부분이 있어서 Ⅰ파트를 동시에 들은 건 나쁜 선택은 아니었던 것 같다. 어짜피 모두 같은 교수님 (포스텍 산업경영공학과 교수님)이 지도하시기 때문에 어느정도 감안하고 녹화하신 것으로 보인다.

 

강좌소개에 따르면 데이터애널리틱스에 입문하여 데이터사이언티스트를 목표로 하는 학생을 타깃으로 하고 있다. 나는 아무 상관이 없으나.. 데이터 과학의 실체에 대해 좀 더 구체적으로 알고자 막연하게 수강을 시작했다. 막연한 것이 문제였을까...

빅데이터분석과 R프로그래밍Ⅰ

반응형

기존에 조금씩 듣던 온라인 강의들과의 공부량 차이는 어마어마 하다. 빅데이터분석과 R프로그래밍 제 1 파트는 4회의 강의로 나뉘어져 있고, 각 강의는 또 4개의 영상으로 나뉘어져 있다 (통계학 강의도 같은 구조이다). 각 영상은 평균 10~15분 정도이기 때문에 특별히 길진 않지만, 평소에 문과는 다루지 않는 개념(통계학, 프로그램)이기도 하고, 내용이 꽤나 함축적이기 때문에 헤비한 감이 있다. 중간 중간 충분히 친절하지 않다고 느껴질 때가 있는데, 강의 자체의 문제라기 보다는, 수강자가 중고등학교 수학을 기억하고 있다는 것을 전제했기 때문이거나 내 머리가 안따라줘서 등의 복합적인 이슈라고 볼 수 있을 것 같다..

 

사담은 그만..

 

그럼에도 불구하고, 이 강의를 듣는다면 R 프로그램을 실제로 다룰 수 있게 된다! 1강에서 설치부터 시작해서 각 강의에 첨부된 파일을 다운받아서 편집 프로그램인 R Studio에 열고 명령어를 수행하며 따라하다 보면 여러 함수에 대한 예제를 접할 수 있고, 시각화도 해볼 수 있다.

~예쁘게 저장된 파일들~
산점도를 그려 Boa요 (제가 입력한게 아니기 때문에 소심하게 가렸습니닷)

개인적으로 두번째 강의가 가장 난이도가 있었는데, 아직 프로그램이 생소한 상태에서 잊혀졌던 수학적 개념들(...역행렬, 공분산..)과 연관된 함수가 한번에 많이 등장한 회차라서 부담스러웠다. 이 많은 기능들을 계속 사용해야 기억에 잘 남을텐데, 코세라처럼 연습문제 플랫폼이 있거나 한 것은 아니라서 알아서 복습과 실습을 잘 수행해야 한다는 어려움이 있다. (기회가 된다면 주도적 학습에 대해서도 포스팅을 하고 싶은데 아직까지는 노하우가 좀 부족하다ㅠ - 수업 직후, 다음날, 일주일 뒤, 한달 뒤에 복습이 기억에 효과적이라고 주워들은 적이 있어 응용해보'려고' 하고 있다).

1파트를 완강하고 나니 꽤나 RStudio에 익숙해진 느낌이긴 하다. 거의 비슷한 데이터셋으로 반복적인 패턴으로 분석을 수행하는 방법이 프로그램을 익히는데 도움이 됐다. 프로가 되려는 꿈이 있다면, 수많은 기능들을 자유자재로 다루고 데이터를 구조화 하기까지 경험이 필요할 것 같기에 취업 프로그램에는 적합하지 않다는 생각이 든다. 하지만 우선, 입문을 원한다면 무료이기도하고, 구성이 나쁘지 않은 커리큘럼이다. 물론 파트 2까지 완강한 뒤에 이 의견이 타당한지 쓸 수 있을 것 같다 (완강..하게 될까..?)

 

데이터사이언스를 위한 통계학입문Ⅰ

R프로그래밍에 비하면 라이트하게 넘어갈 수 있다 (시작은 그랬다). 나는 상경계를 졸업했기에 통계학을 들었던 기억이 있고 어느정도 유사한 내용이 많았지만, 실상 내용을 기억하진 않기 때문에 내적 반가움 외에 크게 도움되는 건 없었다^^..

파트 1에서 1,2,3강은 대단한 수학적 지식을 요하지 않는다. 통계의 기본적 개념인 평균, 표준편차 등이 등장하고, 시각화까지도 수월했다. 그런데 4강에서 확률과 이산형 분포를 다루면서 조금 머리가 아팠다ㅋㅋ.. 파트2에서는 난이도가 조금 올라가지 않을까 예상해본다.

~설렁설렁 들었던 한 때~
끝에 가서는 조금 웃음기가 사라졌다 ^_ㅜ

왜 이런 짓을 했는가

R언어는 여기저기서 말이 안나오는 곳이 없다. 그래서 R언어가 뭔데..? 라는 단순한 호기심에서 시작해서, 데이터를 분석하는 R프로그래밍을 한 번 다뤄보고 싶었다. 한편, 여러 인공지능 관련 책이나 강의에서 계속 통계학을 바라보고, 통계 분석법을 언급하기 때문에 베이즈와 같은 개념을 다시금 보는 것이 인공지능의 기초를 이해하는데 도움이 될 수 있을 것 같다는 생각에 통계 과정도 수강해보았다. 최종적으로 데이터 과학을 인공지능과 연관짓는 '머신러닝기법과 R프로그래밍' 수업까지 완강을 하게 될지는 모르겠지만 말이다. 통계학은 전통적인 지식이니, 좀 더 설명이 필요하면 시중의 책으로 보충할 수 있겠다는 생각은 들었다.

 

해당 플랫폼이 조금 '헤비'한 감은 있다. 따져보면 대학에서 최소 3~4주간 여러 회차에 나눠서 수강하고, 과제도 제출할 분량을, 자기주도학습으로 성과를 이룬다는 것이 쉽지는 않다. 하지만 국내에서 4차 산업 관련 강의를 공개해준다는 것은 긍정적인 현상이지 않을까? 영어에 어려움이 있지만 뜻이 있는 많은 분들이 이러한 국내 플랫폼에서의 수강 기회를 누리셨으면 좋겠다. 

반응형