Cascade RCNN
Cascade RCNN은 학습할 bounding box의 IOU threshold를 0.5에서 더 높여보면 어떨까라는 아이디어에서 출발했음. Cascade RCNN은 Iterative BBox at Inference와 Intergral Loss
를 결합하여 기존의 Faster RCNN보다 더 좋은 성능을 나타낸다
- Cascade RCNN은 Iterative BBox at Inference와 Intergral Loss를 사용해서 Bbox pooling을 반복 수행할 시 성능 향상되는 것, IOU threshold가 다른 Classifier가 반복될 때 성능 향상 되는 것을, IOU threshold가 다른 RoI head를 cascade로 쌓을 시 성능 향상되는 것을 증명했다.
Deformable convolution
- Cascade R-CNN의 주요 특징
- 기존 컨볼루션의 고정된 수용 영역을 개선
- 객체의 형태에 따라 동적으로 수용 영역을 조절
- Iterative BBox와 결합하여 성능 향상
- 특히 변형이 있는 객체 검출에 효과적
Integral Loss
- 주로 human pose estimation에서 사용되는 loss 함수임
Transformer
- DETR 등에서 사용됨
Sliding window
- Cascade R-CNN의 구성 요소가 아님
- Region proposal 기반 방식을 사용함
Window Multi-Head Attention
- Transformer 계열의 기술임
- Swin Transformer 등에서 사용됨
ViT based detector
ViT를 사용하는 Detection network
- Swin은 Shifted Window Multi-Head Attention를 통해 receptive field가 제한되는 단점을 해결했다
- Window 기반 self-attention의 한계를 극복
- Shifted window 방식으로 window 간 정보 교환 가능
- Swin은 Shifted Window Multi-Head Attention와 Window Multi-Head Attention를 동시에 사용한다
- 두 가지 attention 메커니즘을 번갈아가며 사용
- 연산 효율성과 성능을 모두 확보
- Swin은 position embedding은 사용하나 class embedding은 사용하지 않는다
- Position embedding으로 위치 정보 인코딩
- Class embedding은 사용하지 않는 특징
- 기타 등등
- DETR은 end-to-end 학습이 가능
- NMS와 같은 후처리 과정이 필요없음
- Set prediction으로 직접 고정된 수의 객체 예측
Transformer & ViT
Self attention mechanism의 attention 수식에는 softmax를 포함한다
- Attention(Q,K,V) = softmax(QK^T/√d)V
- Softmax로 attention score를 정규화
MLP head에는 class embedding vector를 입력하여 최종 결과를 추출한다
- [CLS] 토큰의 출력을 MLP head에 입력
- 최종 분류 결과 도출
ViT는 learnable embedding앞에 class embedding을 추가 해준다
- [CLS] 토큰을 patch embedding 시퀀스의 맨 앞에 추가
- 이 토큰이 전체 이미지의 특징을 종합
Transformer는 self attention 메커니즘을 활용 NLP에서 long range dependency를 해결한다
- Self attention으로 모든 위치 간의 관계 고려
- RNN의 장거리 의존성 문제 해결
ViT는 image를 flatten해 3d로 변형 후 learnable embedding 처리를 한다?
→ 틀린 설명- Image는 patch 단위로 분할 후 flatten하여 1D로 변형됨
- 3D가 아닌 2D embedding으로 변환
- 순서: Image → Patch분할 → Flatten(1D) → Linear Projection → Embedding
YOLO v4
- Enhancement of receptive field
→ BOS- SPP, ASPP, RFB 등의 기법
- 연산량이 증가하며 receptive field 확장
- Inference 시간에 영향을 미침
- Activation function
→ BOS- Mish 등의 새로운 활성화 함수
- 추가 연산이 필요함
- Inference 속도에 영향을 미침
- Data augmentation
→ BOF- Cutmix, Mosaic 등
- 학습 시에만 사용되고 추론 시에는 사용되지 않음
- Inference 비용 증가 없이 성능 향상
- Feature Integration
→ BOS- FPN, PAN, BiFPN 등
- 추가적인 네트워크 구조 필요
- Inference 시간 증가
- Post-processing method
→ BOS- DIoU-NMS 등
- 추가 연산 필요
- Inference 시간에 영향을 미침
M2Det
M2Det 모델의 FFM(Feature Fusion Module) 구조가 다음 그림과 같이 구성되어 있고 각각의 input shape이 (512, 32, 32), (256, 128, 128)일 때, output feature map의 shape인 (C, H, W)

입력값
- (512, 32, 32)
- (256, 128, 128)
과정
- 첫 번째 입력 (512, 32, 32)의 처리
- Conv: 512→128채널, 3x3, padding=1
- (512, 32, 32) → (128, 32, 32)
- Upsample 4x4
- (128, 32, 32) → (128, 128, 128)
- Conv: 512→128채널, 3x3, padding=1
- 두 번째 입력 (256, 128, 128)의 처리
- Conv: 256→64채널, 3x3, padding=1
- (256, 128, 128) → (64, 128, 128)
- Conv: 256→64채널, 3x3, padding=1
- Concat 연산
- 첫 번째 경로: (128, 128, 128)
- 두 번째 경로: (64, 128, 128)
- Concat 결과: (192, 128, 128)
따라서 output feature map의 shape는 (192, 128, 128)이 됨
CornerNet
- Anchor box의 주요 단점:
- Box의 크기, 비율 등 많은 hyperparameter 필요
- 이러한 설계 과정이 복잡하고 번거로움
- 많은 수의 anchor box 생성 필요
- 대부분이 negative sample로 class imbalance 문제 발생
- 학습 효율성이 떨어짐
'Study - AI > Object Detection' 카테고리의 다른 글
Object Detection Wrap-Up (0) | 2025.04.05 |
---|---|
EfficientNet & EfficientDet (0) | 2025.02.04 |
Neck (0) | 2025.01.27 |
Object Detection Library : MMDetection, Detectron (0) | 2025.01.24 |
Object Detection Overview (0) | 2025.01.17 |