데이터 분석을 하다 보면, 프로젝트 단위로 데이터의 다양한 분석이 필요할 수 있다.
전처리를 해야하는 파트, 모델링을 해야 하는 파트, 시각화를 해야되는 파트 등등 각각의 역할에 맞추어서 팀 프로젝트를 진행해야할 때가 있다. 팀 프로젝트 말고, 스터디를 진행하거나 공통의 과제를 진행할 때도 개발 환경을 맞추어서 작업을 할 일이 많이 생긴다. 만약 서로 다른 OS환경(MAC, 리눅스, 윈도우 등) 에서 작업을 진행하게되면 어떻게 될까? 나중에 각각의 개발 내용을 통합할때, 라이브러리 등 개발환경이 달라져서 생기는 여러가지 이슈가 발생할 수 있다. 그럴때 개발 인프라가 갖추어져 있다면 다행일 것이다. 하지만 아직은 많은 회사에서 인프라가 갖추어져 있지는 않을 것이다. 그리고 학생신분이라면 공통의 인프라를 갖추긴 상당한 비용이 들 것이다. 이때, 구글 코랩(Colaboratory)이 대안이 될 것이다. 서로 같은 개발 환경에서 개발을 진행하고, 프로젝트를 병합했을때, 문제를 최소한으로 만들 수 있다. 그렇다면 구글 코랩(Colaboratory)이 무엇인지 살펴 보도록 하자.
1) Colab이란?
코랩에 들어가 보면 Colab이란 무엇인지 잘 나와있다. Colaboratory(줄여서 'Colab'이라고 함)을 통해 브라우저 내에서 Python 스크립트를 작성하고 실행할 수 있습니다. 따로 인프라 구성이 필요하지 않으며, 무료로 GPU를 사용할 수 있다. 그리고 간편한 코드 공유가 가능하여, 학생이든, 데이터 사이언티스트듯, AI 연구원이드 업무를 더욱 간편하게 처리할 수 있다.
2) Colab의 장점
- 별도의 아나콘다나 파이썬을 설치할 필요가 없이 이미 설치된 쥬피터 노트북을 제공해준다.
- 데이터 분석에 사용 되는 pandas, numpy, Tensor Flow, Keras등 과 같은 기본 패키지가 기본적으로 설치되어져 있다.
- GPU를 무료로 사용할 수있다.
- Git 과 연동이 가능하여 사람들과 협업하여 코딩이 가능하다.
- 구글 드라이브, 구글 스프레드시트 와 같은 구글 플랫폼들과도 연동이 되어져 있어 저장공간으로 함께 활용이 가능하다.
3) Colab의 단점
- 개발환경이 무한정 제공되지 않으며 제한적이다.
. 코랩 노트북으로 동시에 사용할 수 있는 구글 클라우드의 가상 서버는 최대 5개
. 서버의 메모리는 약 12GB이고 디스크 공간은 100GB
- Jupyter notebook 환경에서 작업이 되는 한계가 있다. vs code 등에서 유용한 디버깅 기능 등은 활용에 제한 적일 수 있다
- 12시간 또는 상황에 따라 시간에 따른 작업 내용이 사라질 수 있다.
- GPU 서버를 제공하나, 제한적으로 사용할 수 밖에는 없다. (비트코인 체굴 등으로 활용하는 사람이 있어 제한적으로 제공되는 것으로 생각된다.)
- Local 환경 비해 보안적으로 취약할 수 있다.
4) Colab 유료 버젼
- 월 9.99달러
- 24시간 동안 프로그램 실행 가능
- 서비스 지역: 현재는 미국과 캐나다
구글 코랩은 여러가지 특징 및 장단점을 지니고 있다. 하지만 데이터 분석 스터디, 데이터 프로젝트의 파이럿 단계에서는 충분히 활용이 가능할 것으로 보인다. 이제 구글 코랩을 상황에 맞게 적절히 활용해 본다면 어떨까?
'데이터 정보' 카테고리의 다른 글
외부 데이터를 수집을 위한 오픈API/ 데이터 크롤링에 대해서 알아보자 (0) | 2022.11.20 |
---|---|
데이터 웨어하우스를 넘어 데이터 레이크(Data Lake)로 구축해보자 (0) | 2022.11.19 |
캐글(Kaggle)이란? 캐글(Kaggle)로 시작하는 데이터 분석 (0) | 2022.11.16 |
빅데이터 분석을 위한 클라우드의 장점/단점 비교 (0) | 2022.11.15 |
데이터 분석 어떤 프로그램을 사용해야 될까? (0) | 2022.11.14 |