본문 바로가기

데이터 정보

(22)
GPT4, GPT3와 무엇이 다른가? (Chat GPT는 GPT3.5이다) GPT4는 GPT3에 비해 얼마나 큰 도약이 될까요? GPT4가 튜링테스트를 통과했다는 이야기가 돌고 있다. 튜링테스트란 무엇인지 아시나요? 튜링테스트란 기계가 인간과 얼마나 비슷하게 대화할 수 있는지를 기준으로 기계에 지능이 있는지를 판별하고자 하는 시험으로, 앨런 튜링이 제안한 시험입니다. 이미테이션 게임이라고도 부릅니다. 이런 튜링 테스트를 통과했다는 이야기에 벌써부터 기대가 부풀고 있습니다. 그리고 얼마 전 화재를 이룬 Chat GPT는 GPT 3.5를 활용했다고 합니다. API를 따로 제공하고 있지 않아서 기업에서의 활용적인 측면이 다소 떨어지는 측면이 있었는 GPT4가 조만간 출시될 것으로 보이며 API를 제공할 것으로 보여 관심이 올라가고 있는 상황입니다. 그렇다면 GPT3 보다 얼마나 성능..
OpenAI의 ChatGPT란 무엇인가? 사용해 볼까? DL / AI 쪽은 계속해서 신기술이 나오고 있습니다. 너무 빨리 신기술이 나오고 있어 지루할 틈도 없고, 사실 공부해서 따라가기도 힘든 실정이다. 공부를 해서 쫌 사용해 볼까? 하면 다시 새로운 기술들이 나오고 있다. 얼마 전 2022년 11월 20일 화제가 된 OpenAI 초거대 신경망을 활용한 ChatGPT가 있다. 예전 알파고만큼 전 세계적으로 화제를 일으켰다. 어떻게 하면 대화형으로 이렇게 정밀하게 구현을 했는지 신기할 정도이다. 주변에서 AI이야기를 많이 했어도 실생활에 이렇게까지 들어온다면 정말이지 놀라울 따름이다. 그렇다면 OpenAI 초거대 신경망을 활용한 ChatGPT에 대해서 알아보도록 하자! 1) ChatGPT란? - OpenAI가 개발한 프로토타입 대화형 인공지능 챗봇이다. Cha..
CICD (지속적통합/지속적배포)로 MLOps를 완성시켜보자! CICD를 통해서 MLOps를 완성시켜보자. 사실 MLOps, CICD 이런 용어가 데이터 분석을 하는 분들에게는 다소 생소하게 들릴 수 있다. 하지만 데이터 엔지니어를 꿈꾸는 이들은 한번쯤은 들어봤을 용어 들이다. 그렇다고 데이터 사이언티스트들이 몰라도 되는 그런 이야기는 아닐다. 현업에서는 데이터 사이언티니스 ,데이터 엔지니어의 영역이 불분명하게 나뉘는 경우도 있고, 요즘처럼 데이터 인력을 구하기 어려운 시장에서는 일당 백을 해야하는 상황도 생기게 된다. 또 CICD와 같은 개념을 이해하고 데이터 업무를 본다면 몸 값 또한 올라갈 것이다. 이제 CICD란 무엇인지 알아보고, 이를 통해 MLOps를 완성 시켜 보도록 하겠다. 이번 포스팅에서는 CICD에 대해서 주로 알아볼 예정이다. MLOps에 대해서..
데이터 엔지니어, DevOps를 넘어 MLOps로 향해 보자! 데이터 분석을 하시는 분들에게 DevOps, MLOps란 말은 말은 다소 생소하게 보일 수 있다. 하지만 기조에 개발을 하시던 개발자 분들은 DevOps란 말이 익숙할 것이다. 하지만 데이터 분석가, 데이터 사이언티스트, 데이터 엔지니어에게는 DevOps 보다는 ML(머신러닝)이라는 말이 익숙할 것이다. 얼마 전부터 이 두 단어를 결합한 MLOps란 말이 만들어지기 시작했다. 머신러닝을 DevOps 관점에서 해보자란 의미에서 결합한 말이 것이다. 그렇다면 왜 MLOps라는DevOps관점에서 ML관점에서 유사점과 차이점에 대해서 알아보도록 하자! 1. DevOps란 무엇인가? 1) 정의 소프트웨어의 개발(Development)과 운영(Operations)의 합성어로서, 소프트웨어 개발자와 정보기술 전문가 ..
머신러닝 회기 모델의 성능 평가 지표 - MAE, MSE, RMSE, MAPE, MPE 지난 번에는 분류모델의 정확도를 구할 수 있는 모형에 대해서 알아보았다. 이번에는 회기 모형의 모델 성능 평가 지표에는 어떤 것이 있으며 언제 이 성능평가 지표를 사용하는지에 대해서 알아보도골 하겠다. 대부분의 회기 모델의 성능 평가 지표는 예측한 Y 값과 실제 Y 갑의 오차를 바탕으로 구해지는 것을 알 수 있다. MAE, MSE, RMSE, MAPE, MPE, MSLE 등 여러가지 성능평가 지표에서 볼 수 있듯이, 마지막의 E는 모두 error의 약자라고 할 수 있다. 그렇다면 어떤 에러를 활용하여 모델의 성능을 구할때 좋은지 살펴 보도록 하겠다. 1) MAE (Mean Absolute Error, 평균 절대 오차) - 방식: 실제 값과 예측 값의 차이의 절대값을 평균으로 모델 성능 평가 - 해석: 작..
머신러닝 분류 모델의 성능 평가 지표 - Precision (정밀도), Recall (재현율), Accuracy (정확도), F1 Score (조화평균) 예측 모형을 구성하는 것뿐만 아니라 예측을 한 한 모형의 해석도 상당히 중요하다. 자신이 예측해 놓은 자료를 해석을 못한다면 아무런 소용도 없을 것이다. 다양한 예측 모형이 있을 것이고, 거기에 맞는 다양한 성능 평가 지표들이 있을 것이다. 오늘은 머신러닝 분류 모델의 성능 평가를 하는 지표에 대해서 알아보도록 하겠다. 머신러닝, 딥러닝을 하고자 하는 사람들은 한 번을 들어 보았을 것이다. 거기에 해당하는 각 지표들 Precision (정밀도), Recall (재현율), Accuracy (정확도), F1 Score (F1 스코어) 등에 대해서 알아보도록 하겠다. 분류 모델은 기본적으로 정답과 예측치가 맞고 틀린 것에 대해서 알 수 있을 것이다. 성능지표를 자세하게 알아보기에 앞서 각각 맞고, 틀리는 것을..
NoSQL은 무엇인가? RDBMS와 어떤 차이가 있을까? 데이터 분석에 관심이 많은 사람들은 NoSQL이란 말을 많이 들어봤을 것이다. 그렇다면 기존에 회사에서 많이 쓰는 SQL 기반의 RDBMS와는 어떤 차이가 있을까? SQL을 안 쓰는 데이터 베이스란 말인가? 제가 처음에 NoSQL을 접할 때는 단순히 관계형 데이터베이스를 유지한테 SQL을 안 쓰는 것으로만 이해를 했었다. NoSQL의 특징 및 장단점에 대해서는 아래에서 자세히 살펴보도록 하자. 그리고 NoSQL의 종류는 어떤 것이 있을까? 어떤 점에서 데이터 중심이 되고 있는 지금 시점에서 RDBMS와는 다른 특징으로 주목을 받고 있을까? 1) NoSQL이란? - NoSQL 데이터베이스는 전통적인 관계형 데이터베이스 보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 메커니즘을 제공한..
빅데이터 전문 기업에 대해서 알아 볼까? (바이브 컴퍼니, 팔란티어) 빅데이터 관련 기업으로는 너무나도 많은 기업들이 있을 것이다. 구글, 네이버, 카카오 애플, 메타(페이스북) 등 전 세계 내놓으라는 기업들은 다 전문적으로 빅데이터, AI를 하고 있다. 연구를 통한 성과뿐만 아니라, 매출까지도 발생시키고 있다. 우리가 너무나도 잘 알고 있는 기업들 말고, 빅데이터 전문 기업에 대해서 알아볼까? 한다. 오늘 알아볼 회사는 바로 국내 기업인 바이브 컴퍼니, 해외 기업인 팔란티어이다. 데이터 분석, 머신러닝, AI에 관심이 많은 사람들은 한 번쯤 들어봤을 법한 이름들이다. 주식투자를 하는 사람들에게도 나름 유명한 기업이다. 왜 이 기업들이 데이터 관련된 일을 잘한다고 하고, 사람들에게 알려졌을까? 이제 알아보도록 하자! 1) 팔란티어 - 팔란티어 테크놀로지스: 빅 데이터 분석..