EfficientNet

다음은 EfficientNet에서 parameter를 통해 스케일을 설정하는 방법이다. EfficientNet은 b0부터 b7까지 다양한 모델 구조가 존재하는데, 이 구조의 종류를 결정하는 parameter → phi(φ)

  • alpha(α)
    → α는 depth scaling을 조절하는 상수이며, 그리드 서치를 통해 미리 정해진 값임
  • beta(β)
    → β는 width scaling을 조절하는 상수이며, 그리드 서치를 통해 미리 정해진 값임
  • gamma(γ)
    → γ는 resolution scaling을 조절하는 상수이며, 그리드 서치를 통해 미리 정해진 값임
  • phi(φ)
    → φ는 compound coefficient
    • b0~b7 모델의 크기를 결정하는 핵심 파라미터
    • φ 값이 커질수록 모델의 크기가 커짐
    • depth, width, resolution 모두를 동시에 조절
    • b0는 φ=0, b7은 φ=7을 의미

α, β, γ는 그리드 서치로 미리 정해지는 상수값으로,

  • 모델 구조를 결정하지 않음
  • 제약조건 α·β²·γ²≈2를 만족하도록 설정됨





EfficientDet

  • EfficientDet b0부터 b7까지 증가함에 따라 input image의 해상도는 증가한다
    • b0: 512x512
    • b7: 1536x1536
    • compound scaling에 따라 resolution도 증가
  • EfficientNet과 동일한 scaling 방식을 활용하기 위해, backbone으로 efficientNet b0~b6을 사용한다
    • EfficientNet을 backbone으로 사용
    • Compound scaling 방식 적용
  • Object detection은 실생활에 사용되기 위해 efficiency가 중요하기 때문에, 더 높은 정확도와 효율성을 가지는 구조를 만들고자 제안되었다
    • 실시간 처리가 필요한 응용
    • 정확도와 효율성의 균형 추구
  • 서로 다른 feature map을 단순합하지 않고, 각각의 input을 위한 학습 가능한 weight를 두는 BiFPN을 사용한다
    • Feature map 간의 가중치 학습
    • 더 효과적인 feature fusion
  • BiFPN에서 weight는 softmax를 통과하므로 항상 양수임
    • 이는 각 레이어의 상대적 중요도를 나타냄
    • 음수값이 될 수 없도록 설계됨





Scailing

딥러닝 모델의 성능을 효율적으로 올리기 위해 사용하는 scale up 방식으로는 대표적으로 (1) width scaling, (2) depth scaling, (3) resolution scaling 이 있다. EfficientNet에서는 이 세가지를 모두 사용하여 최적의 scaling 방법을 제안했는데, 해당 scaling 방식은 Compound Scailing

  1. Width Scaling (네트워크 너비 조절)
    • 각 레이어의 채널 수(필터 수)를 늘리는 방식
    • 더 많은 특징을 병렬적으로 학습할 수 있음
    • 예: 32채널 → 64채널로 증가
    • 장점: 더 풍부한 특징 추출 가능
    • 단점: 파라미터 수가 크게 증가
  2. Depth Scaling (네트워크 깊이 조절):
    • 레이어의 수를 늘리는 방식
    • 더 복잡한 특징을 순차적으로 학습할 수 있음
    • 예: ResNet-18 → ResNet-50처럼 레이어 수 증가
    • 장점: 더 복잡한 패턴 학습 가능
    • 단점: 그래디언트 소실 문제 발생 가능
  3. Resolution Scaling (입력 해상도 조절):
    • 입력 이미지의 해상도를 키우는 방식
    • 더 세밀한 특징을 포착할 수 있음
    • 예: 224×224 → 380×380으로 증가
    • 장점: 미세한 디테일 포착 가능
    • 단점: 메모리 사용량과 연산량 증가

Compound Scaling의 특징:

  • 위 세 가지 방식을 동시에 균형있게 조절
  • φ(compound coefficient)를 통해 통합적으로 제어
  • depth: d = α^φ
  • width: w = β^φ
  • resolution: r = γ^φ
  • α, β, γ는 작은 그리드 서치로 찾은 상수
  • 세 가지 scaling이 서로 상호작용하며 최적의 성능 도출



'Study - AI > Object Detection' 카테고리의 다른 글

Object Detection Wrap-Up  (0) 2025.04.05
Advanced Object Detection  (0) 2025.04.02
Neck  (0) 2025.01.27
Object Detection Library : MMDetection, Detectron  (0) 2025.01.24
Object Detection Overview  (0) 2025.01.17