처음 데이터 분석을 시작하려는 사람들은 어디서부터 어떻게 시작을 하면 좋을지 막막하기만 할 것이다.
기본적인 프로그래밍 스킬은 책, 온라인 강의, 독학 등으로 익힐 수 있다. 드디어 기본적인 프로그래밍 스킬을 익혔다. 바로 회사원이라면 회사에 준비되어 있는 인프라와 데이터를 활용해 업무에 투입될 것인가? 학생이라면 어디서 인프라와 데이터를 구해서 연습을 해 볼 것인가? 무작정 aws, gcp 등과 같은 클라우드 서비스를 활용해서 비용을 지불하고 인프라를 구축해야 할까? 그렇다면 데이터는? 내가 잘하고 있는 건가? 등등 데이터 분석을 하다 보면 여러 가지 고민이 들 것이다. 그렇다면 캐글(Kaggle)에서 데이터 분석을 연습을 시작해 보는 것은 어떨까? 캐글은 우리가 데이터 분석을 연습할 수 있는 모든 환경을 제공해 준다. 그럼 캐글에 대해서 자세히 알아보도록 하자!
1) 캐글이란?
캐글은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 2017년 3월 구글에 인수되었다. (출처: 위키백과)
2) 캐글의 목적
최근 빅데이터 분석, AI로 기존의 문제를 해결하려는 기업들의 Needs가 증가하고 있다. 기업들은 방대하게 쌓여가는 데이터의 가치를 알았고, 이를 분석하고 알고리즘화 하기를 원한다. 하지만 데이터 분석의 인력은 턱 없이 부족한 현실이다. 이때, 캐글이 그 문제를 해결해 주었다. 기업은 데이터를 캐글에 공개하고, 세계 각지의 수많은 데이터 과학자들로 하여금 그 문제의 해결책을 얻고자 하였다. 즉 캐글은 세계최대 데이터 과학자와의 교류의 장인 것이다.
3) 캐글에서 할 수 있는 것들
- 공개된 데이터를 통한 데이터 분석 / AI 예측 연습
- 경연(Competition)을 통한 상금 획득
- 데이터 사이언티스들과의 소통
경쟁으로 상금을 다투는 데이터 사이언티스들의 커뮤니티 공간인 캐글에서 데이터 분석을 시작해 보라는 것이 어쩜, 어색할 수도 있을 것이다. 이제막 데이터 분석에 입문한 나에게, 전문가들과 경연(Competition)을 하라하는 건가? 하는 생각도 들 것이다. 하지만 반대로 생각을 해볼 수도 있다. 그럼 데이터 분서에 입문한 사람들이 느낄 수 있는 장점에 대해서 간단히 알아보자.
1) 경연(Competition)을 하기 위해서는 많은 사람들이 모인 만큼 그만큼 충분한 인프라가 제공된다는 것이다.
2) 수많은 경연(Competition)에 사용되었던, 다양한 데이터셋들이 존재한다.
3) 경연(Competition)을 함께 했던, 전문가들의 우수한 해결책들과 코드들을 살펴볼 수 있다.
4) 서로 의견을 공유 할 수 있다.
5) 모든 것이 무료로 활용할 수 있다.
즉, 캐글의 인프라 및 데이터를 활용하여 전문가들의 코드를 참조하며, 내가 배운 프로그래밍 스킬을 올려간다면, 나중에는 상금과 명예까지도 함께 얻을 수 있지 않을까?
'데이터 정보' 카테고리의 다른 글
데이터 웨어하우스를 넘어 데이터 레이크(Data Lake)로 구축해보자 (0) | 2022.11.19 |
---|---|
구글 코랩(Google Colab)를 활용한 데이터 프로젝트를 시작해보자! (0) | 2022.11.18 |
빅데이터 분석을 위한 클라우드의 장점/단점 비교 (0) | 2022.11.15 |
데이터 분석 어떤 프로그램을 사용해야 될까? (0) | 2022.11.14 |
데이터 분석가/ 데이터 엔지니어/ 데이터 사이언티스트 무엇이 다른가? (0) | 2022.11.13 |