EfficientDet so với DAMO-YOLO: So sánh kỹ thuật về các kiến trúc phát hiện đối tượng

Khi xây dựng các quy trình computer vision có khả năng mở rộng, việc lựa chọn kiến trúc model phù hợp là quyết định then chốt ảnh hưởng đến cả khả năng triển khai lẫn độ chính xác của việc phát hiện. Hướng dẫn này cung cấp sự so sánh kỹ thuật chuyên sâu giữa hai kiến trúc nổi tiếng trong lĩnh vực nhận diện hình ảnh: EfficientDet và DAMO-YOLO.

Mặc dù cả hai model đều mang lại những đổi mới đáng kể cho lĩnh vực object detection, sự tiến bộ nhanh chóng của AI thị giác đã mở đường cho các hệ sinh thái tích hợp hơn. Trong suốt quá trình phân tích này, chúng ta sẽ khám phá các cơ chế cốt lõi của các mạng lưới cũ này, đồng thời minh họa lý do tại sao các giải pháp hiện đại như Ultralytics PlatformUltralytics YOLO26 đã trở thành tiêu chuẩn công nghiệp cho các môi trường production.

EfficientDet: Phát hiện đối tượng có thể mở rộng và hiệu quả

Được giới thiệu bởi các nhà nghiên cứu tại Google, EfficientDet được thiết kế để mở rộng kiến trúc model một cách có hệ thống trong khi vẫn duy trì hiệu suất cao. Nó đạt được điều này bằng cách tận dụng kỹ thuật compound scaling trên độ sâu mạng, chiều rộng và độ phân giải đầu vào.

Thông tin chi tiết về EfficientDet: Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức: Google Brain
Ngày: 20-11-2019
Arxiv: 1911.09070
GitHub: google/automl

Đổi mới kiến trúc

Đóng góp chính của EfficientDet là mạng Bi-directional Feature Pyramid Network (BiFPN). Không giống như các FPN truyền thống, BiFPN cho phép hợp nhất đặc trưng đa quy mô một cách dễ dàng và nhanh chóng bằng cách sử dụng các trọng số có thể học được để hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau. Điều này kết hợp với backbone EfficientNet, tạo ra một dòng model (từ D0 đến D7) có khả năng mở rộng một cách có dự đoán trước.

Điểm mạnh và Điểm yếu

Điểm mạnh chính của EfficientDet nằm ở hiệu quả tham số. Đối với các tác vụ cần tối đa hóa mean Average Precision (mAP) trên các môi trường đám mây bị hạn chế nặng nề, phương pháp compound scaling của nó mang tính dự đoán rất cao. Tuy nhiên, EfficientDet rất phức tạp để huấn luyện từ đầu và thường đòi hỏi hyperparameter tuning đáng kể. Hơn nữa, việc phụ thuộc nhiều vào các thao tác TensorFlow cụ thể khiến việc chuyển đổi sang triển khai trên biên (edge) thông qua ONNX hoặc TensorRT trở nên cồng kềnh hơn so với các khả năng xuất hợp lý được tìm thấy trong các model YOLO hiện đại.

Tìm hiểu thêm về EfficientDet

DAMO-YOLO: Tự động tìm kiếm kiến trúc trong thực tế

DAMO-YOLO đại diện cho một cách tiếp cận khác biệt, sử dụng Neural Architecture Search (NAS) để tự động thiết kế các cấu trúc mạng tối ưu cho việc suy luận thời gian thực.

Thông tin chi tiết về DAMO-YOLO: Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23-11-2022
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO

Đổi mới kiến trúc

DAMO-YOLO giới thiệu một số công nghệ mới lạ. Nó sử dụng một backbone được tạo bởi NAS có tên là MAE-NAS, một RepGFPN hiệu quả cho phần cổ (neck), và thiết kế ZeroHead giúp giảm đáng kể chi phí tính toán của detection head. Hơn nữa, nó sử dụng AlignedOTA để gán nhãn và dựa nhiều vào việc cải thiện thông qua chưng cất kiến thức (knowledge distillation) để tăng hiệu suất cho các biến thể nhỏ hơn của nó.

Điểm mạnh và Điểm yếu

DAMO-YOLO tỏa sáng ở tốc độ suy luận GPU, được thiết kế đặc biệt để triển khai trên các kiến trúc NVIDIA sử dụng TensorRT. Bằng cách loại bỏ các cấu trúc head nặng nề, model mang lại khả năng dự đoán có độ trễ thấp. Ngược lại, việc tìm kiếm kiến trúc tự động có thể làm cho cấu trúc model trở nên khó hiểu và khó debug hoặc tinh chỉnh thủ công cho các thiết bị biên tùy chỉnh. Không giống như Ultralytics YOLO11 vô cùng linh hoạt, DAMO-YOLO chủ yếu tập trung vào phát hiện hộp bao (bounding box) tiêu chuẩn, thiếu hỗ trợ gốc cho các tác vụ nâng cao như pose estimation hoặc phát hiện oriented bounding box (OBB) ngay khi khởi chạy.

Tìm hiểu thêm về DAMO-YOLO

So sánh hiệu năng

Hiểu được các sự đánh đổi thực nghiệm là điều cần thiết để lựa chọn model. Bảng dưới đây so sánh dòng EfficientDet với loạt DAMO-YOLO dựa trên các performance metrics quan trọng.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
Phân tích dữ liệu

EfficientDet-d7 đạt được độ chính xác lý thuyết cao nhất nhưng đòi hỏi sức mạnh tính toán khổng lồ, khiến nó không phù hợp cho edge AI. DAMO-YOLO cung cấp tốc độ TensorRT vượt trội, mặc dù nhìn chung nó đòi hỏi nhiều tham số hơn các model EfficientDet cấp thấp hơn để đạt được độ chính xác tương đương.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa EfficientDet và DAMO-YOLO phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn EfficientDet

EfficientDet là lựa chọn mạnh mẽ cho:

  • Google Cloud và TPU Pipelines: Các hệ thống tích hợp sâu với Google Cloud Vision APIs hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa nguyên bản.
  • Nghiên cứu về Compound Scaling: Các đánh giá học thuật tập trung vào việc nghiên cứu ảnh hưởng của sự cân bằng giữa độ sâu mạng, chiều rộng và mở rộng độ phân giải.
  • Triển khai trên di động thông qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho các thiết bị Android hoặc Linux nhúng.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là số liệu chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với các ràng buộc về độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đối với hiệu suất phát hiện.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Lợi thế Ultralytics: Vượt xa các Model Cũ

Mặc dù EfficientDet và DAMO-YOLO cung cấp những hiểu biết học thuật có giá trị, các nhà phát triển hiện đại cần các framework cân bằng giữa hiệu suất tiên tiến và tính công thái học cho nhà phát triển. Đây là nơi hệ sinh thái Ultralytics vượt trội.

Dễ sử dụng và hệ sinh thái không đối thủ

Việc triển khai các model từ các kho lưu trữ nghiên cứu riêng biệt, được tùy chỉnh nặng nề thường dẫn đến những cơn ác mộng về tích hợp. Ultralytics cung cấp một hệ sinh thái được bảo trì tốt và thống nhất, với tài liệu phong phú và API đậm chất Python. Cho dù bạn đang sử dụng Google Colab để huấn luyện hay xuất sang CoreML để suy luận trên thiết bị di động, quy trình chỉ yêu cầu một vài dòng mã.

from ultralytics import YOLO

# Load the highly recommended YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX for production
model.export(format="onnx")

Cuộc cách mạng YOLO26

Đối với các nhà phát triển đang đánh giá EfficientDet hoặc DAMO-YOLO, Ultralytics YOLO26 đại diện cho bước tiến hóa cuối cùng. Được phát hành vào đầu năm 2026, nó giới thiệu các khả năng thay đổi mô hình:

  • Thiết kế End-to-End không NMS: Được tiên phong bởi YOLOv10, YOLO26 loại bỏ hoàn toàn nhu cầu hậu xử lý NMS (Non-Maximum Suppression). Điều này giúp các kiến trúc triển khai đơn giản hơn đáng kể và độ trễ nhất quán trên các phần cứng đa dạng.
  • Suy luận CPU nhanh hơn tới 43%: Đối với các triển khai biên thiếu GPU mạnh mẽ—những kịch bản mà DAMO-YOLO gặp khó khăn—YOLO26 được tối ưu hóa mạnh mẽ, mang lại tốc độ tăng đáng kể trên các CPU tiêu chuẩn.
  • Bộ tối ưu hóa MuSGD: Thu hẹp khoảng cách giữa các đổi mới LLM và thị giác máy tính, YOLO26 tích hợp bộ tối ưu hóa MuSGD (lấy cảm hứng từ Moonshot AI), đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh chóng so với các vòng lặp huấn luyện kém ổn định của EfficientDet.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa quy trình xuất, đảm bảo khả năng tương thích vượt trội với các vi điều khiển công suất thấp và thiết bị Raspberry Pi.
  • ProgLoss + STAL: Những hàm mất mát (loss functions) nâng cao này mang lại những cải tiến đáng kể trong nhận diện đối tượng nhỏ, một lĩnh vực mà các kiến trúc cũ thường thất bại.

Hiệu quả bộ nhớ và tính linh hoạt của tác vụ

Unlike transformer models or heavily fused NAS networks, Ultralytics models are characterized by their stringent memory efficiency. They consume remarkably lower CUDA memory during training, enabling rapid iteration on consumer-grade hardware.

Hơn nữa, trong khi EfficientDet và DAMO-YOLO bị ràng buộc cứng nhắc với các hộp bao, Ultralytics hỗ trợ gốc instance segmentationimage classification trong cùng một framework trực quan. Đối với những người dùng đang duy trì các dự án cũ hơn, Ultralytics YOLOv8 vẫn là một giải pháp thay thế vững chắc, được triển khai rộng rãi đáng để khám phá.

Kết luận

Việc chọn kiến trúc thị giác phù hợp bao gồm cân nhắc giữa hiệu suất lý thuyết thô và thực tế triển khai. EfficientDet cung cấp phương pháp mở rộng toán học thanh lịch, và DAMO-YOLO mang lại tốc độ GPU thô hấp dẫn. Tuy nhiên, đối với các nhóm ưu tiên phát triển nhanh, triển khai đáng tin cậy và các tính năng tiên tiến, các model Ultralytics đứng đầu một cách rõ ràng. Bằng cách kết hợp các đổi mới như suy luận không NMS và tối ưu hóa MuSGD, YOLO26 đảm bảo rằng các dự án thị giác máy tính của bạn được xây dựng trên nền tảng có khả năng tốt nhất, dễ bảo trì và hiệu quả nhất hiện nay.

Bình luận