본문 바로가기

분류 전체보기

(36)
어떤 딥러닝 프레임워크를 사용해야 할까? 장단점 비교 (텐서플로우/ 파이토치/ 케라스) 데이터 사이언티스트를 꿈꾸는 사람들의 최종 목표는 딥러닝 프로젝트를 하는 것이다. 딥러닝은 너도나도 할 것 없이 많은 회사들에서 진행하고 있다. 알파고, 자율 주행, AI 휴먼 등 모두 뉴런 네트워크 기반의 딥러닝 프레임워크가 사용된다. 딥러닝 프레임워크는 진짜로 수도 없이 많다. 텐서 플로우(Tensor Flow),파이 토치(Pytorch),케라스(Keras), CNTK, Caffe, Theano, Mxnet, DeepLearning4 j 등 수많은 프레임워크들이 존재한다. 그중 학계, 기업에서 가장 많이 쓰는 프레임워크 3가지를 고르라면 텐서 플로(Tensor Flow),파이 토치(Pytorch),케라스(Keras) 일 것이다. 우리가 딥러닝을 할 때 어떤 프레임워크를 사용해야 할까? 정답은 그때그때..
데이터 사이언티스트 이런 능력까지 필요해? 데이터 사이언티스트가 되기 위해서는 과연 어디까지 공부를 해야 하고, 어떤 능력까지 있어야 하는 것일까? 인터넷이나 책에 나오는 이야기들은 다 뻔한 이야기 들일 것이다. 하지만 뻔한 이야기들이 가장 중요하게 필요한 능력이라는 것에는 믿어 의심하지 않는다. 그렇다면 우리가 생각하는 그런 능력 말고 다른 능력은 어떤 능력이 있을까? 이번 포스팅에서는 기본적인 능력 말고, 데이터 사이언티스트가 기본적으로 알아두고 있으면 좋은 소양(?) 같은 것에 대해서 알아보도록 할 것이다. 사실 데이터 관련 인력이 팀에는 부족할 수 있다. 따라서 데이터 사이언티스트는 만능이 될 필요가 있다. 이럴 거면 데이터 사이언티스트를 하지 말아야 하는 것일까? ^^ * 이런것 까지 알아야 하나? * 1) 코딩 능력 파이썬, R, SQ..
데이터 사이언티스트, 전공자만 될 수 있는 것일까? AI 대학원 필수로 가야하는 것인가? 많은 사람들이 데이터 관련 직군으로 취업을 하려고 한다. 이와 같은 현상은 비단, 신입뿐만 아니라 경력직에 대해서도 많이 나타나고 있다. 데이터 관련 직군이라 함은 데이터 사이언티스트, 데이터 엔지니어, 데이터 분석 등이 있을 것이다. 어떻게 하면 좀 더 유리하게 스펙을 만들어서 관련 직군으로 취업을 할 수 있을까? 여기에는 많은 답이 있을 것이다. 그중에서 가장 고민이 되는 부분이 관련 전공자 혹은 대학원 진학하는 것, 가장 많이 고민할 것이다. 요즘 대학원 진학이 취업이 안돼서 도피성으로 진학한다는 소문까지 돌고 있는 실정이라 더욱더 고민이 깊어질 것이다. 그렇다면 이런 오해까지 무릅쓰고라도 데이터 사이언티스트의 길을 가기 위해 대학원이 필수 적일까? 다음에서 전체적으로 데이터 사이언티스트로 가는 길..
데이터 분석 관련 자격증에 도전해보자! 어느정도 데이터 분석 스킬이 쌓였다면, 데이터 분석 관련 자격증에 도전해 보는 것은 어떨까? 수많은 컴퓨터자격증이 있지만, 그 중에서 최근에 가장 핫한 직무인 데이터 분석관련 자격증을 딴다면 향후 진로에도 큰 도움이 될것이다. 데이터 분석 관련 자격도 최근에는 몇개가 되는 것 같다. 가장 최근에 생긴 시험이 빅데이터 분석기사와 데이터분석 자격 검정인 ADP / ADsP가 가장 먼저 떠오늘 것이다. 하지만 SQL 자격검정 시험인 SQLP/ SQLD와 데이터아키텍처 가격 검정인 DAP/ DAsP등도 데이터 관련 자격에 포함된다고 할 수 있다. 또한 클라우드 관련 자격 검정도 무시할 수 없는 데이터 분석 관련 자격증이라고 할 수 있다. 클라우드 관련 자격은 AWS 관련 자격증있다. 우선 이번 포스팅에서는 클라..
외부 데이터를 수집을 위한 오픈API/ 데이터 크롤링에 대해서 알아보자 막상 데이터를 분석하려고 할 때, 데이터가 없어 분석을 못할 경우가 발생을 한다. 회사에 있다면, 다른 부서에 컨택을 해서 필요한 데이터를 찾아볼 수도 있다. 혹은, 이미 구축된 데이터 레이크에서 데이터를 찾아볼 수도 있을 것이다. 하지만 원하는 데이터를 찾지 못할 수 있다. 만약 내부 데이터를 활용하는데 한계가 있거나 내부에 데이터가 없다면 어떻게 해야 할까? 정답은 바로 외부에서 데이터를 조달하는 방법이 있을 것이다. 외부에서 데이터를 조달하는 방법에는 어떤 것들이 있을까? 오픈되어 있는 데이터를 API를 통해서, 혹은 CSV 파일이나 엑셀 파일로 가져오는 방법이 있을 것이다. 또는 크롤링으로 인터넷에 있는 데이터를 수집해 오는 방법이 있을 것이다. 상황에 맞게 적절한 방법으로 데이터를 가져오면 될 ..
데이터 웨어하우스를 넘어 데이터 레이크(Data Lake)로 구축해보자 빅데이터를 분석을 하다 보면 많은 양의 데이터를 저장해야 할 필요성이 있다. 로컬 컴퓨터에 그동안 수집한 데이터를 저장하는 것도 한계에 따르게 된다. 그리고 필요한 데이터를 적재적소에서 빠르게 찾아서 활용해야 될 필요성을 느끼게 된다. 그렇다면 어떤 시스템에서 우리가 필요한 데이터를 저장하고 활용해야 할까? 데이터를 저장하고 관리하는 시스템은 과거부터 많은 발전을 이루었다. 파일 시스템, 데이터 웨어하우스, 데이터 레이크로 점차 데이터를 관리하는 목적과 사이즈에 따라 변화되기 시작했다. 다음에서 발전 단계에 따른 특징 및 장단점에 대해서 알아보자 1) 파일 시스템이란 - 파일 시스템이란: 컴퓨터에서 파일이나 자료를 쉽게 발견 및 접근할 수 있도록 보관 또는 조직하는 체제를 가리키는 말이다. (위키백과) ..
구글 코랩(Google Colab)를 활용한 데이터 프로젝트를 시작해보자! 데이터 분석을 하다 보면, 프로젝트 단위로 데이터의 다양한 분석이 필요할 수 있다. 전처리를 해야하는 파트, 모델링을 해야 하는 파트, 시각화를 해야되는 파트 등등 각각의 역할에 맞추어서 팀 프로젝트를 진행해야할 때가 있다. 팀 프로젝트 말고, 스터디를 진행하거나 공통의 과제를 진행할 때도 개발 환경을 맞추어서 작업을 할 일이 많이 생긴다. 만약 서로 다른 OS환경(MAC, 리눅스, 윈도우 등) 에서 작업을 진행하게되면 어떻게 될까? 나중에 각각의 개발 내용을 통합할때, 라이브러리 등 개발환경이 달라져서 생기는 여러가지 이슈가 발생할 수 있다. 그럴때 개발 인프라가 갖추어져 있다면 다행일 것이다. 하지만 아직은 많은 회사에서 인프라가 갖추어져 있지는 않을 것이다. 그리고 학생신분이라면 공통의 인프라를 갖..
캐글(Kaggle)이란? 캐글(Kaggle)로 시작하는 데이터 분석 처음 데이터 분석을 시작하려는 사람들은 어디서부터 어떻게 시작을 하면 좋을지 막막하기만 할 것이다. 기본적인 프로그래밍 스킬은 책, 온라인 강의, 독학 등으로 익힐 수 있다. 드디어 기본적인 프로그래밍 스킬을 익혔다. 바로 회사원이라면 회사에 준비되어 있는 인프라와 데이터를 활용해 업무에 투입될 것인가? 학생이라면 어디서 인프라와 데이터를 구해서 연습을 해 볼 것인가? 무작정 aws, gcp 등과 같은 클라우드 서비스를 활용해서 비용을 지불하고 인프라를 구축해야 할까? 그렇다면 데이터는? 내가 잘하고 있는 건가? 등등 데이터 분석을 하다 보면 여러 가지 고민이 들 것이다. 그렇다면 캐글(Kaggle)에서 데이터 분석을 연습을 시작해 보는 것은 어떨까? 캐글은 우리가 데이터 분석을 연습할 수 있는 모든 환..