본문 바로가기

데이터 분석 어떤 프로그램을 사용해야 될까?

 

최근 빅데이터는 정말 다양한 곳에서 사용되고 있습니다.

그래서 모두 데이터를 분석하기 위한 툴을 하나씩은 배우고 싶어합니다. 더 나아가 데이터 분석가, 데이터 사이언티스트 등을 꿈꾸는 사람도 많이 늘어나고 있다. 사실상 일반 업무에서 데이터 분석이 중요한 위치를 찾이하고 있는 실정이다. 그렇다면 데이터를 분석하기 위해서는 어떤 프로그램을 활용할 수 있을까? 사무 업종에서 전통적으로 사용하고 있는 엑셀이 가장 기본적인 프로그램이라고 할 수 있다. 그리고  관계형 데이터 베이스가 발달하면서 데이터 베이스 직군에서 많이 사용하는 SQL 또한 훌륭한 데이터 분석 도구라고 할 수 있다. 하지만, 빅데이터, 머신러닝, 딥러닝이 발달하면서, 통계학적 지식을 기반으로 발전한 R프로그래밍, 많은 라이브러리를 제공해 주고 있는 파이썬이 대표적이라고 할 수 있다. 이제 각 데이터 분석 언어들의 특징에 대해서 알아보도록 하겠다. 

 

 

1) 엑셀 

. 장점 :

    - 기본적인 사용자 층이 두꺼워서 참고 자료가 많다 

    - Data의 관리가 편하고, 데이터를 직관적으로 모든 확인할 수 있다. 

    - 기본적인 연산 및 수식이 지원되어서 빠른 결과물을 도출할 수 있다. 

    - 다양한 형태의 결과물을 도출할 수 있다. 

    - VBA로 코드로 개발을 지원하며, 많은 자동화 프로그래밍을 할 수 있다. 

. 단점 : 

    - 데이터 베이스로 쓰기에는 기능이 약하다. 

    - 데용량 데이터를 처리하기에는 프로세스 시간이 너무 많이 걸린다. 

    - 딥러닝, 머신러닝 기능의 라이브러리를 사용할 수 없다. 

 

 

2) SQL 

. 장점 :

   - 관계형 데이터 베이스를 관리하는데 매우 용이하다. 

   - 간단한 프로그래밍 문법으로 원하는 데이터를 조작하기에 용이하다. 

   - 사용자가 쉽게 배울 수 있다. 

   - 데이터 중복의 최소화 유지, 데이터 일관성 유지, 데이터 무결성 유지에 매우 강하다. 

. 단점 : 

  - 비정형 데이터를 관리하고 분석하는데는 취약하다. 

  - 반복처리, 비교처리 ,예외처리, 변수 선언 등 일부 취약한 기능이 있다. 

  - 데이터를 조회할 때마다 네트워크 트레픽을 유발한다. 

  - 딥러닝, 머신러닝 기능의 라이브러리를 사용할 수 없다. 

 

 

3) R프로그래밍 

. 장점 :

   - 딥러닝, 머신러닝 기능을 포함한 데이터를 분석하기 위한 다양한 패키지들을 제공해 줌 

   - 통계 분석에 있어서 정말 다양한 기능들을 제공해 주고, 결과도 상세하게 보여준다. 

   - 오픈소스로 무료로 사용할 수 있다. 

   - 강력한 커뮤니티를 보유하고 있다. 

. 단점 : 

   - 메모리 관리 문제, 처리 속도가 느린 편이다.   

   - 통계학적인 순수함에 약간은 머물러 있는 느낌이 든다. 

 

 

4) 파이썬 

. 장점 :

   - 딥러닝, 머신러닝 기능을 포함한 데이터를 분석하기 위한 다양한 패키지들을 제공해 줌 

   - 대용량 데이터의 처리 속도가 빠르다. 

   - 스크립트 언어로 가독성 및 문법위가 쉽다. 

   - 빠른 개발속도 및 높은 확장성 및 이식성을 지니고 있음 

   - 계속 발전하는 활발한 생태계를 유지하고 있다.  

   - 오픈소스로 무료로 사용할 수 있다. 

. 단점 : 

   - 통계 관련 기능에서 R프로그래밍보다 떨어지는 단점이 존재 

   - 전체적인 처리 속도가 다소 느린 경향이 있다. 

 

각 언어의 특징이 명확한 만큼 각각의 상황에 맞게 사용하는 것이 좋을 것이다. 서로 동일한 기능도 많이 제공하고 있어 자신이 편리한 도구를 사용하는 방법도 좋다. 아직 모든 데이터 분석 도구에 익숙하지 않다면, 그리고 데이터 사이언티스트, 데이터 분석가로써 비정형 데이터에서 부터 딥러닝까지 다양하게 하고 싶다면, 파이썬을 배워보는 것을 추천한다. 점점 더 데이터 분석 직군에서는 파이썬을 많이 활용하는 추세이다.