시계열 데이터

  • 하나의 변수를 시간에 따라 여러 번 관측한 데이터
  • 가격, 매출, 온도, 성장 등 변화 예측과 반복되는 패턴에 대한 인사이트 도출을 목표로 함
    • 단순히 값 뿐만 아니라 변동성 등에 대한 다양한 예측
  • 시간 또는 회차 단위이며, 시간 t는 절대적인 순서가 중요한 데이터이므로 t는 고정하고 이외의
    변수들의 여러 요인에 대해 분석하는 것이 일반적

시계열 데이터의 특징

  • 추세(trend) : 장기적인 증가 또는 감소
  • 계절성(seasonality) : 특정 요일/계절에 따라 영향
  • 주기(cycle) : 고정된 빈도가 아니지만 형태적으로 유사하게 나타나는 패턴
  • 노이즈(noise) : 측정 오류, 내부 변동성 등 다양한 요인으로 생기는 왜곡




이미지 데이터

이미지 데이터 전처리

고차원 데이터를 전처리를 하는 이유는 크게 세가지

  1. 데이터 퀄리티 향상

  2. 데이터 양 증대

  3. 쉬운 검증(시각화를 통한 인지 개선)

    → 1과 2는 테크닉, 3은 시각화로 접근

  • 색상 공간(Color Space) : RGB, HSV, Grayscale

  • 노이즈 삽입(Noise)

  • 사이즈 조정(Resizing) : Crop & Interpolation

  • 아핀 변환(Affine Transformation) : 회전, 왜곡, 평행 이동 등

  • 특성 추출(Feature Extraction) : SIFT, SURF, ORB, FAST 등

    → 이후 task에 따라 도메인 지식 기반 변형 가능


이미지 데이터 라이브러리

  • OpenCV : 효율적인 처리, 복잡한 사용
    • BGR 순서로 데이터 저장. H * W로 저장
  • PIL (Python Image Library => Pillow) : 쉬운 이미지 전처리 기능 모두 제공
    • RGB 순서로 데이터 저장, W * H로 저장
  • scikit-image : SciPy 기반 이미지 처리, scikit-learn과 유사한 포맷으로 쉬운 사용
  • albumentations : 이미지 전처리용 라이브러리. 일반적으로 데이터 증강 등에 활용
  • torchvision : torch 기반 이미지 전처리
  • SciPy : 대부분의 기능적 요소 탑재, 다만 사용성이 다른 라이브러리에 비해 아쉬움




텍스트 데이터

정규 표현식

정규표현식(Regex) 정리



'Study - AI > EDA - Data Analysis' 카테고리의 다른 글

정형 데이터  (0) 2025.01.13
데이터 분석 & 데이터 시각화  (0) 2025.01.10