본문 바로가기
독서/IT

데이터 천재들은 어떻게 기획하고 분석할까? [리뷰]

by 빠뜨루 2023. 5. 1.
반응형

 

데이터 천재들은 어떻게 기획하고 분석할까? [리뷰]

<소개>


빅데이터와 인공지능을 어떻게 활용하는지 알려주는 책


<줄거리>

[빅데이터란]
Volume (양이 많다는 것), Velocity(생성 속도가 빠르다는 것) Variety (다양성) 3V로 설명할 수 있다. 데이터-인사이트-가치 단계로 변화된다. 데이터는 사실에 기반한 객관성을 가지고 있다. 이러한 데이터를 이용하여 문제에 부딪혔을 때 그 의사결정을 선진화하는 것, 조금 더 체계적으로 근거를 가지고 현명한 의사결정을 하는 것, 이것이 분석의 궁극적인 목표라고 할 수 있다.

[데이터 가치창출]
빅데이터 프로젝트의 기획, 데이터 분석을 통한 인사이트 도출, 도출된 인사이트의 확인, 마지막으로 인사이트에 따른 실행 단계로 이루어진다.

[데이터 시각화]
데이터를 차트로 표현했을 때 더 많은 양의 데이터를 일목요연하게 파악할 수 있다. 관계와 추세를 찾을 수 있으며 시각화된 숫자는 기억하기도 쉽다. 그리고 문제점을 신속하게 파악할 수 있다.

[머신러닝]
예측 모델의 구조를 결정하고 파라미터를 추정하는 과정을 총칭해 머신러닝, 인공지능에서는 '모델링' 혹은 학습 learning 이라고 부른다. X라는 변수와 Y라는 결과가 주어졌을 때 둘 사이의 관계를 잘 설명할 수 있는 모델을 적재적소에서 찾는다면 인공지능의 가능성은 무한하다고 볼 수 있다.

[인공지능이란]
인공지능과 머신러닝을 굳이 구분한다면 인공지능은 머신러닝이 실체화된 것이라 하겠다. 인공지능을 구현하는 기술은 크게 지식 기반 방법과 데이터 기반 방법으로 구별할 수 있다. 데이터 기반 방법은 기계가 귀납적으로 모델을 만들어 지식을 추출하는 것이다. 주어진 데이터에 대한 입출력 관계에 가중치를 구하는 것을 학습이라고 한다. 이러한 방식은 인간의 신경망과 비슷한 방법인데, 신경망의 층을 늘려 다층으로 만들어 가중치를 구하는 것이 딥러닝이다.

[이미지 분석]
데이터를 처리하는 것을 데이터 마이닝이라 부르며, 데이터 마이닝에서 중요한 것은 데이터다. 이미지별로 차이를 추출하여 인식을 한다.

[인공지능의 미래]
좋은 결과물을 만드는 것은 인간의 상상력이 중요하다. 그리고 인공지능 오픈소스와 대용량 데이터의 공개에 따라 소프트웨어를 잘 다룰 줄 아는 공학자의 능력이 중요해진다.

[텍스트 분석]
비정형 데이터란 이미지, 영상, 텍스트 등 특정한 형태 없이 개별적으로 존재하는 데이터를 의미한다. 이러한 비정형 데이터의 비중은 계속 늘어나고 있으며 인간의 의사결정에 핵심적인 영향을 미치기에 아주 중요하다. 주로 텍스트는 명사와 동사 위주로 분석을 한다. 이를 통해 워드 클라우드나 노드 형식으로 표현한다. 그로 인해 각 키워드마다 연관관계를 파악할 수 있으며 트렌드를 파악할 수 있다.


<주요 내용>

넷플릭스의 전체 매출의 무려 60%가 '추천' 카테고리에서 나온다

야구는 동작 하나하나를 떼어내 측정하고 기록하기가 용이하다.

'통찰' 이란 뜻의 인사이트는 in이라는 단어와 sight라는 단어로 구성되어 있다. 즉, '안을 본다'라는 의미이다.


<후기>

빅데이터를 활용하여 인사이트를 만드는 전문가보다는 그러한 정보가 필요한 고객들에게 더 활용도가 높은 책인 것 같다. 내용적으로 대분류에 따른 소분류 내용들이 다 따로 노는 느낌으로 잘 이어져서 아쉬웠다.

빅데이터를 가지고 인공지능을 활용하여 모델을 만드는 것은 언젠가 상향 평준화될 것이다. 어떠한 문제엔 어떠한 데이터를 활용해야 한다는 공식 같은 것은 없다. 그렇기에 그러한 데이터를 선택하고 방향성을 잡는 의사결정자의 능력이 점점 더 중요해질 것이라 보였다.


<추천>

인공지능을 이용해 보고 싶은 현업 담당자라면 읽어보면 좋을 듯하다. 빅데이터 전문가라고 하는 사람들이 무엇을 하는지 그리고 자신은 무엇을 준비해야 하는지 대략적으로 알 수 있어 도움이 될 것 같다.

반응형

댓글