본문 바로가기

외부 데이터를 수집을 위한 오픈API/ 데이터 크롤링에 대해서 알아보자

 

막상 데이터를 분석하려고 할 때, 데이터가 없어 분석을 못할 경우가 발생을 한다.

회사에 있다면, 다른 부서에 컨택을 해서 필요한 데이터를 찾아볼 수도 있다. 혹은, 이미 구축된 데이터 레이크에서 데이터를 찾아볼 수도 있을 것이다. 하지만 원하는 데이터를 찾지 못할 수 있다. 만약 내부 데이터를 활용하는데 한계가 있거나 내부에 데이터가 없다면 어떻게 해야 할까? 정답은 바로 외부에서 데이터를 조달하는 방법이 있을 것이다. 외부에서 데이터를 조달하는 방법에는 어떤 것들이 있을까? 오픈되어 있는 데이터를 API를 통해서, 혹은 CSV 파일이나 엑셀 파일로 가져오는 방법이 있을 것이다. 또는 크롤링으로 인터넷에 있는 데이터를 수집해 오는 방법이 있을 것이다. 상황에 맞게 적절한 방법으로 데이터를 가져오면 될 것이다. 이제 각각의 데이터를 가져올 수 있는 방법의 특징과 장단점에 대해서 알아보도록 하자 

 

외부데이터 가져오기

 

* 오픈 API 

   1) 오픈 API란 

       - 오픈 API 또는 공개 API는 개발자라면 누구나 사용할 수 있도록 공개된 API를 말하며, 개발자에게 사유 응용 소프트웨어나 웹 서비스의 프로그래밍 적인 권한을 제공한다. 반대말은 프라이빗 API다. (위키백과) 

   2) 오픈 API의 장점 

      - 데이터 Json 형태로 제공해 주어서 데이터 수집을 위한 개발 시간을 단축 할 수 있다. 

      - 데이터를 오픈만 해준다면 웹에서 제공되는 정보보다 심도 깊고 질좋은 데이터들을 얻을 수 있다. 

      - 공공 데이터, 마이 데이터 등 점점 더 확대 적용되고 있는 중이다. 

 

 

   3) 오픈 API의 단점 

      - 제공해 주는 쪽에 의존적이다. (오류가 나거나 , 데이터 중단이 되었을 때, 조치할 수 있는 것이 한정적이다.) 

      - 오픈 데이터를 가져오기 위한 가입이 필요할 수 있다. 

  

   4) 오픈 데이터 사이트 

     - 공공데이터포털, 서울 열린 데이터 광장, 통계청, SK telecom Big Data Hub, 네이버 데이터랩 등 존재 

 

 

* 데이터 크롤링

  1) 데이터 크롤링이란 

      - 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위 

  2) 데이터 크롤링의 장점 

      - 웹에서 볼 수 있는 정보를 대부분을 가져올 수 있다. 

      - SNS 등에서도 데이터를 수집할 수 있다.

 

 

  3) 데이터 크롤링의 단점  . 

      - 크롤링 개발 역량이 필요함 

      - 개인정보 이슈, 저작권 이슈, 불법적인 이슈가 있을 수 있어 잘 알아보고 수집을 해야 된다. 

 

외부 데이터도 적절히 가져와서 사용한다면 효과적으로 데이터 분석을 할 수 있을 것이다.