교육/KT 에이블스쿨

[KT AIVLE School(에이블스쿨)] - 2주차 후기(데이터 처리, 데이터 분석)

aaaahy 2023. 8. 27. 22:29

에이블 스쿨 2주차(8.14 ~ 8.18) - 4기 AI트랙

공휴일(광복절)이 있어 수업은 4일만 진행했다 !

 

데이터 처리

이전 파이썬 프로그래밍 시간에 배웠던 데이터프레임에 관해 추가 학습을 진행하였다.

데이터프레임을 수정하기 위해 열 이름 변경, 삭제, 병합을 할 수 있었다 !!

무엇보다 concat과 merge의 차이점을 이해하는 것에 중점을 두었고 어떤 방식으로 사용해야하는지 다양한 실습을 했다.

  • concat ⇨ 데이터프레임을 붙여라
  • merge ⇨ 키 칼럼 값으로 병합해라

concat과 merge를 사용하기 위해 추가적으로 inner join, outer join, left join, right join 등 다양한 조인방식도 학습할 수 있었다!!

 

가장 흥미있고 중요하다고 생각하는 방법론 !! 

CRISP - DM 방법론으로 

비즈니스 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 개발의 순환 단계이다. 

강사님께서 방법론 이미지를 어딘가에 붙여놓으라고 하실 정도로.. ㅋㅋㅋ 

앞으로 데이터 분석에 관한 과정을 진행하면서 우리가 배우는 단계이기도 하다. 

 

우리반 커뮤니티에 작성한 수줍은 교육 소감

이 날을 마지막으로 커뮤니티에 더 이상 아무도 교육소감을 올리지 않았다고 한다.

 

데이터 분석(의미 찾기)

데이터 분석 방법론에서 데이터 이해 단계의 분석 부분(EDA & CDA)에 관해 진행하였다.

무언가 진짜 변수 의미를 찾고 가설을 확인하고 검증하는 단계를 시작하니 분석하는 것이 생각보다 어렵게 느껴졌다.

  • EDA - 문제를 파악하는 탐색적 분석 단계
  • CDA - 가설을 검증하는 확증적 분석 단계

개별 변수 분석인 단변량 분석부터 시작하여 가설을 확인하는 이변량 분석까지 진행하였다.

단변량 분석에서는 숫자형(수치형) 자료와 범주형 자료를 구분하고 각각에 맞는 기초통계량과 그래프를 사용하는 방법이 무엇인지 실습을 통해 학습할 수 있었다. 

그래프를 보며 변수에 관해 각자 분석하여 어떤 의미를 가지는지 생각하는 시간이 있었는데 쉽지 않았다 🥲

기억남는 포인트 - 분석의 시작점 : 밀집구간, 희박한 구간을 찾아서 왜? 그럴까 파악해보기 !! 

 

X ➝ Y 가설을 확인 - 이변량 분석

X와 Y가 숫자형 자료인지 범주형 자로인지에 따라 시각화와 수치화하는 방법이 다르다! 

이 부분에 관해 표로 정리해주셨고 필기하고 실습하면서 조금씩 외워지는 것 같았다.

실무에서 주어질법한 상황을 예를 든 종합 실습을 진행하면서 가설을 확인하여 시각화, 수치화를 통해 내가 분석한 부분을 기록해보고 정리하는 시간을 가졌다. 

시각화 자료가 눈에 잘 보이는 부분이었지만 수치화 자료를 통해 p-value 값이나 t 통계량, f 통계량 등 통계적 결과의 관점을 배우면서 흥미를 느낄 수 있었다.