본문 바로가기

삼성 SDS Brightics 서포터즈 3기

2. [삼성 SDS Brightics] 마블 수익에 장르가 영향을 끼치는가?+수익 예측(데이터 전.처.리.) 1편 <1차 개인 분석 프로젝트>

Gross_worldwide 값들이 log_prc라는 값들로 치환된 걸 볼 수 있습니다!

안녕하십니까. 발대식 이후 다시 돌아온 3기 김태웅입니다.

 

이번 포스팅은 3주동안 진행하는 개인 분석 프로젝트로

앞으로 한 가지 주제

1. 개요 및 데이터 전처리

2. 분석 및 모델링

3. 시각화 및 레포트

이렇게 총 3개의 포스팅을 보여드릴 예정입니다.

 

https://blog.naver.com/xodndxovnd/222791783826

 

2. [삼성 SDS Brightics] 마블 수익에 장르가 영향을 끼치는가?(데이터 전.처.리.) 1편 <1차 개인 분석

안녕~하쎄용~ HI~ 봉주르~ 구텐탁~ .. 어 안녕 맞나요? 발대식이! 끝났으니깐! 이제 ! 오늘! 드디어! 저...

blog.naver.com

위 링크는 같은 포스팅이지만, 잔망 웅버를, 좀더 많은 팁을 알고 싶다면 방문 부탁드립니다.

 

이번 분석 개요는 마블 스튜디오의 전 세계 수익에 '장르'가 영향을 끼치는지 알아보고, 예측 모델링을 만드는 것입니다.

그리고 이를 마케팅에 반영할 수 있는 분석을 하는 것이 목표입니다.

다중선형회귀분석일원배치분산분석을 활용해 분석 및 모델링을 진행해 보며, Brightics Studio를 함께 배워 나가 보면 좋을 것 같습니다.

 


1. 개요 및  분석 설명

 

오늘 사용할 분석 기법인 회귀분석이란?

종속변수 Y(마블 전 세계 매출)독립변수 X(장르)가 영향을 끼치는가? 를 알아보는 가설 검정 과정을 거칩니다.

조금 깊이 말씀 드리자면, Y의 변동분을 X변수가 추가 됐을 때, 이를 설명할 수 있는지를 설명하는 것입니다.

기본적인 가설설정

귀무가설 H0 : X = 0

vs

대립가설 H1 : X =/ 0

 

​분석할 마블 이야기를 이야기 형식으로 말씀드려보겠습니다.

 

태웅 : 야야 마블.. 전 세계 매출이 장르별로 영향을 끼치려나? 끼치겠지?

유리 : 어어 그러지 않을까?

태웅 : 그러면 그걸 한번 분석해볼까?

유리 : 그럼 대립가설은 영향을 끼친다. 귀무가설은 영향을 끼치지 않는다. 로 가설 설정을 마치고 분석을 해보자.

 

한마디로 정리하면

귀무가설 H0 : 마블 전 세계 매출에 '장르'가 영향을 끼치지 않는다

대립가설 H1 : 마블 전 세계 매출에 '장르'가 영향을 끼친다.

와 같습니다.

이를 토대로 가설을 설정하고 분석을 진행해보겠습니다.

 

사용 데이터 셋

오늘 사용할 데이터 셋입니다.

MARVEL_GrossWorld_Score.csv
0.00MB
marvel.txt
0.00MB

제가 직접 각 영화별로 평점을 매기는 사이트 들어가서 크롤링으로 긁어온 공개 데이터들입니다.

기본적인 전처리는 완료된 데이터이며, 실습 따라오고 싶으신 분들은 해당 데이터셋을 다운 받아 주시기 바랍니다.

(첫 번재 자료는 EXCEL, 두 번째 자료는 TXT 입니다)

앞서 분명히 '장르'가 미치는 영향을 알아본다며 왜 '평점'을 긁어왔는지 궁금하신 분들이 계실 겁니다.

우리는 종속변수 Y에 '전 세계 매출'을 넣을 것이고,

독립변수 X에 '장르' 를 넣을 겁니다.

 

불가능 합니다. 범주형 자료 분석을 통해 구분한다면 모를까 숫자 + 문자열로 회귀분석할 순 없습니다.

 '장르'를 이야기할 수 있는 숫자 지표가 바로 '평점'입니다.

물론 평점이 장르만을 대변 할 순 없습니다. 평점이라는 변수 안에 스토리, 러닝 타임, 연기력 등등이 존재할 것입니다.

하.지.만.

저는 Brightics Studio 사용법을 알아보기 위해 분석을 진행하는것이니, 이번 포스팅에서는 '사용 방법'에 더 초점을 맞춰주시면 감사하겠습니다.

차후 더 세분화시켜 분석이 가능해지면 추가적인 변수들 또한 포함시켜 진행하겠습니다.

 

 

앞서 설명한 대로 종속변수 Y는 매출로 설정하고, 독립변수 X는 두개를 설정합니다.

앞에 설명 드린 것은 '단순선형회귀분석'의 기본 개념이고, 지금 하려는건 '다중선형회귀분석'입니다.

.

단순선형회귀분석 - 종속변수 Y : 독립변수 X = 1 : 1

다중선형회귀분석 - 종속변수 Y : 독립변수X = 1 : n

단순히 1대1관계이냐, 1대 다 관계이냐 차이를 보여줍니다. 영향을 줄까? 하는 변수들이 더 많아진 것입니다.

그래서 우리는 IMDB라는 곳에서 가져온 영화 평점들을 독립변수 X1이라 설정하고,

 RT (로튼 토마토)라는 곳에서 가져온 영화 평점들을 독립변수 X2라 칭하겠습니다.

회귀분석을 왜하는지, 어떻게 적용하는지

오늘 사용할 데이터 셋에 대한 설명도 모두 들으셨습니다. 

그렇다면 이제 Brightics Studio로 넘어가 보겠습니다.

 


2. 데이터 전처리

 

분석은 outline잡는 것, 계획 잡는 것에 많은 노력과 시간을 투자해야만 합니다.

하지만 Brightics는 해당 과정을 간소화시켜줍니다.

 

https://www.brightics.ai/kr/docs/ai/manual/tutorial/b19f13b94cc87c33.html

 

Brightics Studio 1.1 Tutorial

 

www.brightics.ai

Brightics Studio는 해당 홈페이지에 접속하면, 튜토리얼을 확인할 수 있습니다.

각종 분석, 함수, 모델링에 대한 기본 작동 방법이 안내 돼 있으며, 아웃라인 파일도 받아볼 수 있습니다.

 

예시로 현재 분석에 사용하려하는 모델링 파일 받는 방법을 알려드리겠습니다.

위에 올려드린 링크 접속 -> 튜토리얼 -> (왼쪽 상단)Studio 튜토리얼 -> (오른쪽) 3. 다중선형회귀분석(1) 클릭

 

 

그리고 맨밑으로 스크롤을 내리면 해당 파일을 받을 수 있습니다.

 

 

파일을 원하는 경로에 받으면, 이렇게 파일이 저장됩니다. 그렇다면 이제 Brightics Studio실행하겠습니다.

 

 

저번 포스팅에서 새로운 파일 만들 때는 New 버튼을 눌렀습니다.

하지만 이번에는 다운 받은 새로운 모델(아웃라인)을 가져올 것이기에 Import 클릭합니다.

 

그리고 나오는 Import Model에서 Select File을 클릭합니다.

이후 다운 받은 파일을 선택해주고, OK를 눌러줍니다.

 

 

이렇게 모델 불러오기가 완료 됩니다.

 

이렇게 Brightics튜토리얼을 통해 여러 분석, 모델들의 아웃라인을 받아서 미리 구성된 곳에 데이터를 넣고, 칼럼들을 지정해주고, 변수를 설정해주기만 하면 분석 및 모델링, 예측까지 끝낼 수 있는 매우 큰 편리함을 갖고 있습니다.

 

다음으로 불러온 모델에 제가 가져온 데이터 셋을 적용시켜 보겠습니다.

 

 

저번 포스팅에서와 같이 데이터 셋을 불러오며, Tab으로 구분 지어 둬서, Tab으로 설정합니다.

 

 

데이터 셋을 불러오는 도중 칼럼에 문제가 있다고 합니다. 확인을 위해

 

오른쪽 아래 Detail을 클릭 해주면 문제가 있는 란만 띄워주고 어떤 에러가 발생했는지 자세히 알려줍니다.

 

 

다시 Detail을 클릭하고, 문제 있던 칼럼들을 바로 수정합니다.

원본 파일 갈 필요 없습니다. 복잡한 코드도 필요없습니다.

그냥 해당 창에서 바로 수정하시면 됩니다.

Brightics에서는 위 예시 이외에 편리한 데이터 전처리가 정말 많습니다. 결측치 제거, 데이터 결합, 변경, 샘플링 등등 

다음 분석 프로젝트에 사용해보는 것을 약속 드리겠습니다.

 

 

설정을 마친 뒤 데이터셋을 잘 불러왔습니다.

그 다음으로 대략적으로 데이터를 시각화 시켜 봅시다. 그림을 보고 분석 방향을 잡습니다.

우선 종속변수Y(Gross Worldwide)값이 너무 크니 보기 좋게 치환할 수 있을지 확인해 봅니다.

 

 

불러온 데이터 테이블 오른쪽 위에 보면, Chart Settings라는 항목이 보입니다.

해당 항목은 테이블의 형태, 변수등 모든 설정을 조작하게 합니다.

 

 

Chart Settings에 들어가면, Data(x축 y축)을 설정할 수 있고, Chart Type을 통해 테이블의 형태 또한 자유자재로 변경할 수 있습니다.

저는 종속변수Y(Gross Worldwide)의 값이 어떤 분포를 보이는지 확인하기 위해 선형 그래프를 그려보겠습니다.

결과로 지수 함수 그래프가 나왔습니다. 그러면

로그 함수 그래프로 치환해줄 수 있습니다.

그런데 치환하기 전에 회귀분석 하는건데 독립변수 X1, X2의 '산점도''칼럼' 한번 확인해 주도록 하겠습니다.

 

 

원래 있던 테이블 그래프 오른쪽위에 보면 Duplicate라고 이면지 두장이 그려진 버튼이 있습니다.

이걸 클릭해주면 해당 테이블 셋이 복사되어 옆에 나타납니다.

그렇게 각 독립변수의 그래프들을 그려보면,

 

 

이렇게 각 변수의 산점도와 칼럼 그래프를 확인할 수 있습니다.

(우상향 곡선을 보인다. 회귀분석 결과 괜찮을 것 같다는 생각을 해볼 수 있겠습니다.)

참고로 그래프는 가로로, 세로로 둘 수 있습니다.

이는 그래프 우측 상단 말고, 그래프들을 담고 있는 Table 우측 상단Vertical 부터 다른 형태로 바꿀 수 있는 버튼이 있습니다.

 

 

이제 종속변수Y를 로그 함수로 치환합니다.

미니맵에서 Add Function Column을 클릭해주시고,

New Column Name에 새로 만들 칼럼 이름을 기입해주세요. 본인이 알아보기 쉽게 기입해주세요.

 

마지막으로 Expression에는 log(Gross_worldwide)를 기입해주시면 된답니다.

해당 문장은 Gross_worldwide 값들을 log를 취해 주겠다. 라는 의미입니다.

우린 이걸 코드라고 부르지 않기로 했어요. 간단한 선언문 정도이니, 익숙해져가면 좋습니다.

위와 같이 설정하고, RUN을 하면,

 

 

Gross_worldwide 값들이 log_prc라는 값들로 치환된 걸 볼 수 있습니다. 훨신 보기 깔끔해졌습니다.

 


 

이렇게 '마블 수익에 장르가 영향을 끼치는가?'를 분석하는데 첫 번째 시간으로

개요 및 데이터 전처리를 살펴봤습니다.

 

다음 시간에는 몇가지 함수 알아보기와 실제 회귀분석 및 모델링을 해볼 예정입니다.

 

긴 글 읽어주셔서 감사합니다. 좋은 팁 얻어 가시면 좋겠습니다.

 

※해당 포스팅은 Brightics 서포터즈 할동의 일환으로 작성되었음을 알립니다.