본문 바로가기

구글 코랩(Google Colab)를 활용한 데이터 프로젝트를 시작해보자!

 

데이터 분석을 하다 보면, 프로젝트 단위로 데이터의 다양한 분석이 필요할 수 있다.

전처리를 해야하는 파트, 모델링을 해야 하는 파트, 시각화를 해야되는 파트 등등 각각의 역할에 맞추어서 팀 프로젝트를 진행해야할 때가 있다. 팀 프로젝트 말고, 스터디를 진행하거나 공통의 과제를 진행할 때도 개발 환경을 맞추어서 작업을 할 일이 많이 생긴다. 만약 서로 다른 OS환경(MAC, 리눅스, 윈도우 등) 에서 작업을 진행하게되면 어떻게 될까? 나중에 각각의 개발 내용을 통합할때, 라이브러리 등 개발환경이 달라져서 생기는 여러가지 이슈가 발생할 수 있다. 그럴때 개발 인프라가 갖추어져 있다면 다행일 것이다. 하지만 아직은 많은 회사에서 인프라가 갖추어져 있지는 않을 것이다. 그리고 학생신분이라면 공통의 인프라를 갖추긴 상당한 비용이 들 것이다. 이때, 구글 코랩(Colaboratory)이 대안이 될 것이다. 서로 같은 개발 환경에서 개발을 진행하고, 프로젝트를 병합했을때, 문제를 최소한으로 만들 수 있다. 그렇다면 구글 코랩(Colaboratory)이 무엇인지 살펴 보도록 하자. 

 

Colab

1) Colab이란? 

 

코랩에 들어가 보면 Colab이란 무엇인지 잘 나와있다. Colaboratory(줄여서 'Colab'이라고 함)을 통해 브라우저 내에서 Python 스크립트를 작성하고 실행할 수 있습니다. 따로 인프라 구성이 필요하지 않으며, 무료로 GPU를 사용할 수 있다. 그리고 간편한 코드 공유가 가능하여, 학생이든, 데이터 사이언티스트듯, AI 연구원이드 업무를 더욱 간편하게 처리할 수 있다. 

 

 

2)  Colab의 장점 

- 별도의 아나콘다나 파이썬을 설치할 필요가 없이 이미 설치된 쥬피터 노트북을 제공해준다. 

- 데이터 분석에 사용 되는 pandas, numpy, Tensor Flow, Keras등 과 같은 기본 패키지가 기본적으로 설치되어져 있다. 

- GPU를 무료로 사용할 수있다. 

- Git 과 연동이 가능하여 사람들과 협업하여 코딩이 가능하다. 

- 구글 드라이브, 구글 스프레드시트 와 같은 구글 플랫폼들과도 연동이 되어져 있어 저장공간으로 함께 활용이 가능하다. 

 

 

3) Colab의 단점 

- 개발환경이 무한정 제공되지 않으며 제한적이다. 

   . 코랩 노트북으로 동시에 사용할 수 있는 구글 클라우드의 가상 서버는 최대 5개

   . 서버의 메모리는 약 12GB이고 디스크 공간은 100GB

- Jupyter notebook 환경에서 작업이 되는 한계가 있다. vs code 등에서 유용한 디버깅 기능 등은 활용에 제한 적일 수 있다

- 12시간 또는 상황에 따라  시간에 따른 작업 내용이 사라질 수 있다. 

- GPU 서버를 제공하나, 제한적으로 사용할 수 밖에는 없다. (비트코인 체굴 등으로 활용하는 사람이 있어 제한적으로 제공되는 것으로 생각된다.) 

- Local 환경 비해 보안적으로 취약할 수 있다. 

 

 

4) Colab 유료 버젼

- 월 9.99달러

- 24시간 동안 프로그램 실행 가능 

- 서비스 지역: 현재는 미국과 캐나다

 

구글 코랩은 여러가지 특징 및 장단점을 지니고 있다. 하지만 데이터 분석 스터디, 데이터 프로젝트의 파이럿 단계에서는 충분히 활용이 가능할 것으로 보인다. 이제 구글 코랩을 상황에 맞게 적절히 활용해 본다면 어떨까?