본문 바로가기

삼성 SDS Brightics 서포터즈 3기

4. [삼성 SDS Brightics] 마블 수익에 장르가 영향을 끼치는가?+수익 예측(모델 평가 및 레포트) 3편 <1차 개인 분석 프로젝트>

안녕하십니까. 삼성 SDS Brightics 서포터즈 3기 김태웅입니다.

저번 포스팅에서는

1. 개요 및 데이터 전처리

2. 분석 및 모델링

3. 시각화 및 레포트

2. 분석 및 모델링을 진행해 봤었습니다.

이번에는

1. 개요 및 데이터 전처리

2. 분석 및 모델링

3. 시각화 및 레포트

중 마지막인

3. 시각화 및 레포트를 진행할 예정입니다.

(+모델 평가)

 

https://blog.naver.com/xodndxovnd/222802852620

 

4. [삼성 SDS Brightics] 마블 수익에 장르가 영향을 끼치는가?(모델 평가 및 레포트) 3편 <1차 개인 분

자자~ 이제 1차 개인 분석 프로젝트 3부작의 마지막! 포스팅입니다~ 마지막이라고, 포스팅을 그만둔다는게 ...

blog.naver.com

상큼 발랄 분석 이야기는  네이버 블로그를 참고 부탁드립니다.


1. 모델 평가

여태 모델을 만들고, 다중회귀분석을 진행해 봤습니다.

해당 분석이 유효한 분석인지. 첫 시간에 말씀드린 가설이 맞는지 확실히 확인해 보는 시간입니다.

다시 복기 해드리자면,

귀무가설 H0 : 마블 전 세계 매출에 '장르'가 영향을 끼치지 않는다

대립가설 H1 : 마블 전 세계 매출에 '장르'가 영향을 끼친다.

가 설정한 가설이었습니다.

가설 검정은 이미 이전 포스팅에서 다루었습니다.

이번 포스팅에서는 생성한 예측 모델을 평가해볼 것입니다.​

검증과 평가는 유효한지를 보는 것은 같습니다.

 

 

저번 시간에 생성한 Linear Regression Predict(선형회귀 모델 예측)에 이어 Evaluate Regression(회귀평가)클릭

다음으로 Label Column종속변수(Y)로 설정했던 log_prc을 넣어주고,

Prediction Column에는 모델 예측으로 테이블에 추가된 예측값 prediction을 추가.

해당 매소드는 예측값실제값차이를 확인하기 위해서입니다.

첫시간에 mse, r2 등등 회귀 모형을 평가하는 지표를 설명 드렸었습니다.

 

해당 지표를 사용해 모델을 예측하는것입니다. 그러기 위해서 학습시켜준 실제 y값과, 예측 모델을 통해

도출 된 예측값(prediction)비교해보는 것입니다.

해당 평가 결과에서 가장 중요하게 알아 두어야 할 것은 3가지 입니다. 확실히 해야한다면, 나머지 값도 비교해봐야하지만, 대게 아래 세 가지 지표를 주로 사용해 평가하기 때문입니다.

첫 번째 : r2_score

두 번째 : mean_squared_error

세 번째 : root_mean_squared_error

r2_score (설명력)(결정계수) : 모형에 포함시킨 독립변수X가 종속변수 Y의 변동분을 설명할 수 있는가? 에 대한 내용을

비율로 표시한 것입니다. (1에 가까울 수록 좋은 것입니다.)

주로 40%이상이면 유효한 설명력을 갖고 있다고 말하고, 70~80%이상이면 매우 높은 설명력을 갖는다고 합니다.

mean_squared_error (MSE)(평균제곱오차) : 예측값(predict) - 실제값(log_prc)들을 제곱하고, 평균을 내고, 모두 더해준 값입니다.

한마디로 잔차를 의미합니다. 예측값과 실제값이 얼마나 차이가 있나?를 알아보기 위해서입니다.

 이는 값이 작을 수록 좋은 평가를 내립니다.

root_mean_squared_error (RMSE)(평균제곱근오차) : MSE의 보정입니다. 편차들을 제곱해줬기 떄문에 MSE는 실제 편차라 할 수 없죠! 그래서 루트를 씌위 실제 편차를 반영하는 것입니다.

r2_score는 49%, MSE는 0.133. RMSE는 0.365로 모두 준수한 결과를 보여주고 있습니다.

모델이 적합하다 결론을 내리겠습니다.

이런 결론을 내리는 것은 추상적인 지표가 있지만, 오롯 프로그래머의, 분석하는 당신의 영역입니다. 분석의 목적, 데이터 셋의 형태에 따라 해당 결과가 유효한지를 판단하는 것입니다. 만약 더 확실한 설명이 필요한 모델이라면? 해당 모델은 유효하지 않다고 판단할겁니다.

지금 Brightics Studio 에서 Evaluate Regression검색해서 선택하고, 값을 할당하고 실행만 시킨 것이

파이썬에서는 위와 같이 구현 됩니다.

 

 

Brightics Studio 의 편의성을 강하게 느끼고 갑니다.


 

2. 레포트 작성

 

회귀분석 및 모델 만들기가 모두 끝났습니다.

이로써 각 영화의 장르(평점)들이 마블 영화별 전 세계 매출에 영향을 끼친다는 것을 알 수 있었습니다.

우리는 이제부터 Brightics에 만든 다중회귀분석 모델을 포스팅 1, 2, 3 순서대로 예시 레포트에 시각화하여 넣어볼겁니다.

미니맵 인터페이스 위쪽을 보면 창+버튼이 존재합니다.

웹사이트 같이 창을 여러개 두고 모델, 레포트 편하게 이동하며 작업이 가능합니다.

그리고 나면 예전에 모델 만들기 시작할 때 뜨던 창이 뜨는데,

위 사진과 같이 Reports를 누르고, New 버튼을 눌러줍니다.

새로운 창이 뜹니다.

왼쪽 체크는 기본적으로 사용했던 데이터 셋을 불러와서 시각화시켜줄 수 있는 NEW DATA 버튼이 존재합니다. 

DATA BOX내가 불러온 데이터들이 한눈에 정리되서, 확인하기 좋게 정리해주는 일종의 '정리 박스' 역할을 합니다.

오른쪽 체크는 무엇을 할 수 있나?

이와 같이 텍스트를 만들어 줄 수도,

시각화한 그래프들의 속성, 특징들변경시켜줄 수 있는 툴바입니다.

만든 모델을 가져와 레포트를 작성할 것이기 때문에 다시 우리가 만들었던 회귀모델 페이지로 돌아가봅시다.

내가 가져오고 싶은 그래프 위쪽에 보면 체크와 같이 종이에 + 된 그림이 있습니다.

마우스 올려보면 Add to report라 뜹니다. 해당 버튼을 클릭합니다.

위와 같이 그래프들이 실행해 뒀던 창에 옮겨진걸 확인할 수 있습니다.

왼쪽 DATA BOX에는 불러온 그래프들의 정보를,

오른쪽에는 그래프들을 다룰 수 있는 OBJCT가 있습니다.

 

위와 같이  TEXT를 활용하여, 그래프를 묶을 수 있습니다.

 

만약 작성 중이던 창이 모두 찬다면,

오른쪽 위 체크 Add Page를 눌러 추가해준 다음, 왼쪽 체크를 통해 여러 페이지를 이동하며 수정해줄 수 있습니다.

 

이제 깔끔하게 만든 레포트PDF로 전환해보겠습니다.

오른쪽 위 체크에 마우스를 올려보면 Export PDF라고 뜹니다. 클릭해줍니다.

PDF로 변환이 끝나고, 바로 프린트도 가능하게 해줍니다.

 

  • 외전  : 일원배치분산분석

첫 포스팅에 장르별 영향을 보자며, 왜 평점을 가져왔는지에 대해 알려드렸습니다.

그걸 토대로 생각해보면, 회귀분석을 통해 '평점이 매출에 영향이 있다.' 를 알아냈고,

다음으로 진짜 '장르'들이 서로서로 차이가 있어야지, 제가 세운 가설이 의미가 있습니다.

이는 일원배치분산분석을 통해 3개의 장르 중 2개 이상의 평균 차이가 존재한다.

라는 것으로 장르별 차이를 확인했습니다.

 

( '3개의 장르 중 2개 이상의 평균 차이가 존재한다.' 는 일원배치분산분석의 가설 설정입니다 )

 

그래서 결론은 다음과 같습니다.

SPSS 일원배치분산분석 결과 레포트

 

 

분석 결과, F=4.851, p=0.017으로 유의수준 0.05을 기준으로 통계적으로 유의하게 나타났고, 대립가설을 채택합니다.

'적어도 두 집단 간의 평균은 차이가 있다'라는 결론을 도출시킵니다.


https://www.brightics.ai/kr/docs/ai/manual/tutorial/b19f13b94cc87c33.html

 

Brightics Studio 1.1 Tutorial

 

www.brightics.ai

초반에 알려드린 Brightics Studio 튜토리얼 페이지입니다. 분석을 하나도 몰라도 해당 튜토리얼을 따라 Brightics Studio를 사용한다면, 준 전문가라 할 수 있습니다. 제 포스팅을 보고 헷갈리는 부분이 있다면 참고 부탁드립니다.

드디어  첫번째 개인 프로젝트를 3주간에 걸쳐 '마블 영화의 장르별 전 세계 수익구조'Brightics Studio를 사용하여 다중선형회귀분석 및 예측 모델, 그리고 레포트까지 작성하는 법을 알아봤습니다.

분석은 분석이고, Brightics Studio의 편의성, 유저 친화적 인터페이스, 방대한 기능까지 더 많은 것을 알 수 있었습니다.

무서워하지 마세요.

두려워하지 마세요.

여러분도 이미 데이터 분석 전문가입니다.

 

※해당 포스팅은 Brightics 서포터즈 할동의 일환으로 작성되었음을 알립니다.