데이터 분석
통계적 데이터 분석
- 과거 통계적 데이터 분석 결과물의 핵심은 추론이다.
- 전체 모집단이 존재하고, 현재 가지고 있는 데이터를 표본 집단으로 가정한다.
- 현재의 표본 데이터로 모집단의 특징을 아는 것이 통계적 데이터 분석의 목적이다.
- 데이터가 많아질수록 추론의 신뢰도가 높아진다.
- 인공 신경망과 같은 최신 머신러닝 모델이 더 뛰어난 성능을 보이는 영역이 존재하나, 데이터의 수 및 학습 환경 등의 영향을 받기 때문에 해결하고자 하는 문제가 무엇이냐에 따라 통계 모델을 사용하기도 한다.
데이터 문해력
- 데이터를 건전한 목적과 윤리적인 방법으로 사용한다는 전제 하에, 현실 세상의 문제에 대한 끊임없는 탐구를 통해 질문하고 답하는 능력
- 좋은 질문을 할 수 있는 역량
- 필요한 데이터를 선별하고 검증할 수 있는 역량
- 데이터 해석 능력을 기반으로 유의미한 결론을 만들어내는 역량
- 가설 기반 A/B테스트를 수행하여 결과를 판별할 수 있는 역량
- 의사결정자들도 이해하기 쉽게 분석 결과를 표현할 수 있는 역량
- 데이터 스토리텔링을 통해 의사결정자들이 전체 그림을 이해하고 분석 결과에 따라 실행하게 하는 역량
탐색적 데이터 분석 (EDA, Exploratory Data Analysis)
- Input Data, 전처리 방법론, 모델 후보군 고려
- 데이터 유형
- 모델과 학습 방법론
- 외부 유사 데이터
- Target Data와 Metric에 대한 (대략적인)정보 파악
- 기본 모델 / 단일값 결과물에 대해 베이스라인 점수 파악
데이터 선별
데이터 수집이 올바르게 진행되었는가?
예외치(Outlier)는 어떻게 선별할 것인가?
예외된 데이터는 어떻게 이후 분석에 사용할 것인가?
결측치는 어떻게 생겼을까?
결측치가 있는 데이터를 사용할 것인가?
결측치는 모델에 넣기 전 전처리 작업을 거친다. 결측치가 포함된 행 또는 열 자체를 제거하기도 하며, 대푯값으로 대체하기도 한다.
→ 따라서 “결측치를 얼마나 모델에 넣을 것인가?” 는 선별 기준이 아니다
외부 데이터를 가져온다면 어떤 것이 가장 큰 차이로 존재할까?
새로 생길 데이터에 있어 고려하지 못한 사례는 어떤 게 있을까?(edgecase)
데이터 시각화
채널 Channel
- 채널은 데이터의 속성을 시각적으로 표현하는 방법이다.
- 색상, 크기, 모양은 데이터 시각화에서 사용되는 채널의 예이다.
- 데이터의 복잡성을 감소시키지는 않는다
- 데이터에 따라 적합한 채널이 존재한다. 예시로 색상은 정확한 수치 비교에는 적합하지 않다
- 위치, 방향, 질감도 시각화의 채널이다.
전주의적 속성
- 전주의적 속성이란 사람이 의식적인 주의를 기울이기 전에 무의식적으로 인지하는 시각적 특성
- 색상의 대비 등
색상
범주형 Categorical
- Discrete, Qualitative 등으로 불림
- 독립된 색상으로 구성되며 범주형 변수에 사용
- 서로 다른 색상을 사용하여 데이터 포인트들 사이의 명확한 구분을 제공
- 색의 차이로 구분하는 것이 특징이지만, 채도나 명도 등의 개별적 차이로 범주를 구분하는 것은 어렵다
연속형 Sequential
- 정렬된 값을 가지는 순서형, 연속형 변수에 적합
- 연속적인 색상을 사용해 값 표현 → 밝기나 채도 등을 조절해 데이터의 크기나 강도 표현
발산형 Diverge
- 연속형과 유사하지만 중앙을 기준으로 발산
- 상반된 값이나 서로 다른 2개를 표현하는 데에 적합
- 중앙의 색은 양쪽 점에서 편향되지 않아야 함 → 꼭 무채색일 필요는 없음 : RdYlBU 등의 색상도 사용됨 (중간값 연노랑)
'Study - AI > EDA - Data Analysis' 카테고리의 다른 글
데이터 전처리 : 시계열, 이미지, 텍스트 (0) | 2025.01.13 |
---|---|
정형 데이터 (0) | 2025.01.13 |