Chuyển đến nội dung

So sánh EfficientDet và DAMO- YOLO So sánh kỹ thuật các kiến ​​trúc phát hiện đối tượng

Khi xây dựng các hệ thống xử lý hình ảnh máy tính có khả năng mở rộng, việc lựa chọn kiến ​​trúc mô hình phù hợp là một quyết định quan trọng, ảnh hưởng đến cả tính khả thi triển khai và độ chính xác phát hiện. Hướng dẫn này cung cấp một so sánh kỹ thuật chuyên sâu giữa hai kiến ​​trúc nổi tiếng trong lĩnh vực nhận dạng hình ảnh: EfficientDet và DAMO- YOLO .

Mặc dù cả hai mô hình đều mang lại những cải tiến đáng kể cho lĩnh vực phát hiện đối tượng , sự tiến bộ nhanh chóng của trí tuệ nhân tạo thị giác đã mở đường cho các hệ sinh thái tích hợp hơn. Trong suốt bài phân tích này, chúng ta sẽ khám phá cơ chế cốt lõi của các mạng lưới truyền thống này, đồng thời minh họa lý do tại sao các giải pháp hiện đại như Ultralytics PlatformUltralytics YOLO26 đã trở thành tiêu chuẩn ngành cho môi trường sản xuất.

EfficientDet: Phát hiện đối tượng hiệu quả và có khả năng mở rộng

Được giới thiệu bởi các nhà nghiên cứu tại Google EfficientDet được thiết kế để mở rộng kiến ​​trúc mô hình một cách có hệ thống trong khi vẫn duy trì hiệu quả cao. Nó đạt được điều này bằng cách tận dụng khả năng mở rộng kết hợp trên độ sâu, độ rộng và độ phân giải đầu vào của mạng.

Chi tiết EfficientDet: Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức: Google Brain
Ngày: 2019-11-20
Arxiv: 1911.09070
GitHub: google/automl

Đổi mới Kiến trúc

Đóng góp chính của EfficientDet là Mạng Kim tự tháp Đặc trưng Hai chiều (BiFPN). Không giống như các FPN truyền thống, BiFPN cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng bằng cách sử dụng trọng số có thể học được để hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau. Điều này được kết hợp với kiến ​​trúc xương sống EfficientNet, tạo ra một họ các mô hình (D0 đến D7) có khả năng mở rộng một cách có thể dự đoán được.

Điểm mạnh và Điểm yếu

Điểm mạnh chính của EfficientDet nằm ở hiệu quả tham số. Đối với các tác vụ cần tối đa hóa Độ chính xác trung bình ( mAP ) trong môi trường điện toán đám mây bị hạn chế nghiêm ngặt, phương pháp mở rộng phức hợp của nó có tính dự đoán cao. Tuy nhiên, EfficientDet nổi tiếng là phức tạp khi huấn luyện từ đầu và thường đòi hỏi phải tinh chỉnh siêu tham số đáng kể. Hơn nữa, nó phụ thuộc nhiều vào các tham số cụ thể. TensorFlow các hoạt động giúp chuyển đổi sang triển khai ở biên thông qua ONNX hoặc TensorRT so với khả năng xuất khẩu được tối ưu hóa hiện đại, quy trình này phức tạp hơn. YOLO mô hình.

Tìm hiểu thêm về EfficientDet

DAMO-YOLO: Tìm kiếm kiến trúc tự động trong thực tế

DAMO-YOLO đại diện cho một cách tiếp cận khác biệt, sử dụng Neural Architecture Search (NAS) để tự động thiết kế các cấu trúc mạng tối ưu cho suy luận thời gian thực.

Chi tiết DAMO-YOLO: Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO

Đổi mới Kiến trúc

DAMO-YOLO giới thiệu một số công nghệ mới. Nó sử dụng một backbone do NAS tạo ra có tên MAE-NAS, một RepGFPN hiệu quả cho phần neck của nó, và một thiết kế ZeroHead giúp giảm đáng kể chi phí tính toán của detection head. Hơn nữa, nó sử dụng AlignedOTA để gán nhãn và phụ thuộc rất nhiều vào việc tăng cường chưng cất tri thức để tăng hiệu suất của các biến thể nhỏ hơn của nó.

Điểm mạnh và Điểm yếu

DAMO-YOLO nổi bật với tốc độ suy luận trên GPU, được thiết kế đặc biệt để triển khai trên kiến trúc NVIDIA sử dụng TensorRT. Bằng cách loại bỏ các cấu trúc đầu nặng nề, mô hình mang lại dự đoán độ trễ thấp. Ngược lại, việc tìm kiếm kiến trúc tự động có thể làm cho cấu trúc mô hình trở nên khó hiểu và khó gỡ lỗi hoặc tinh chỉnh thủ công cho các thiết bị biên tùy chỉnh. Không giống như Ultralytics YOLO11 rất linh hoạt, DAMO-YOLO chủ yếu tập trung vào detect hộp giới hạn (bounding box detection) tiêu chuẩn, thiếu hỗ trợ gốc cho các tác vụ nâng cao như pose estimation hoặc detect hộp giới hạn định hướng (OBB) ngay từ đầu.

Tìm hiểu thêm về DAMO-YOLO

So sánh hiệu suất

Hiểu rõ các sự đánh đổi thực nghiệm là điều cần thiết để lựa chọn mô hình. Bảng dưới đây so sánh họ EfficientDet với DAMO- YOLO chuỗi dữ liệu trên các chỉ số hiệu suất quan trọng.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Phân tích dữ liệu

EfficientDet-d7 đạt độ chính xác lý thuyết cao nhất nhưng đòi hỏi sức mạnh tính toán khổng lồ, khiến nó không phù hợp với AI biên . DAMO- YOLO cung cấp đặc biệt TensorRT Mặc dù tốc độ của nó thường yêu cầu nhiều tham số hơn so với các mô hình EfficientDet cấp thấp hơn để đạt được độ chính xác tương đương, nhưng nó thường đòi hỏi nhiều tham số hơn.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa EfficientDet và DAMO-YOLO phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn EfficientDet

EfficientDet là một lựa chọn mạnh mẽ cho:

  • Hệ thống Google Cloud và TPU Pipelines: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc cơ sở hạ tầng TPU, nơi EfficientDet có tối ưu hóa gốc.
  • Nghiên cứu về Compound Scaling: Đánh giá chuẩn học thuật tập trung vào việc nghiên cứu ảnh hưởng của việc mở rộng quy mô độ sâu, chiều rộng và độ phân giải mạng cân bằng.
  • Triển khai di động qua TFLite: Các dự án yêu cầu cụ thể xuất TensorFlow Lite cho thiết bị Android hoặc Linux nhúng.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
  • Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Cái Ultralytics Ưu điểm: Vượt xa các mô hình truyền thống

Trong khi EfficientDet và DAMO- YOLO Để cung cấp những hiểu biết học thuật có giá trị, các nhà phát triển hiện đại cần những framework cân bằng giữa hiệu năng tiên tiến và tính tiện dụng cho lập trình viên. Đây chính là điểm mạnh của hệ sinh thái Ultralytics .

Dễ sử dụng và Hệ sinh thái vượt trội

Triển khai các mô hình từ các kho lưu trữ nghiên cứu riêng biệt, được tùy chỉnh nhiều thường dẫn đến những cơn ác mộng tích hợp. Ultralytics cung cấp một hệ sinh thái thống nhất, được duy trì tốt với tài liệu phong phú và API theo phong cách python. Cho dù bạn đang sử dụng Google Colab để huấn luyện hay xuất sang CoreML để suy luận trên thiết bị di động, quy trình này chỉ yêu cầu vài dòng mã.

from ultralytics import YOLO

# Load the highly recommended YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX for production
model.export(format="onnx")

Cuộc cách mạng YOLO26

Dành cho các nhà phát triển đang đánh giá EfficientDet hoặc DAMO- YOLO Ultralytics YOLO26 đại diện cho bước tiến hóa tối ưu. Được phát hành vào đầu năm 2026, nó giới thiệu những khả năng mang tính đột phá:

  • Thiết kế NMS-Free End-to-End: Lần đầu tiên được tiên phong bởi YOLOv10, YOLO26 tự nhiên loại bỏ nhu cầu xử lý hậu kỳ Non-Maximum Suppression (NMS). Điều này dẫn đến kiến trúc triển khai đơn giản hơn rất nhiều và độ trễ nhất quán trên các phần cứng đa dạng.
  • Tăng tốc suy luận trên CPU lên đến 43%: Đối với các triển khai biên thiếu GPU mạnh—những kịch bản mà DAMO-YOLO gặp khó khăn—YOLO26 được tối ưu hóa mạnh mẽ, mang lại tốc độ tăng đáng kể trên các CPU tiêu chuẩn.
  • Trình tối ưu hóa MuSGD: Thu hẹp khoảng cách giữa những đổi mới LLM và thị giác máy tính, YOLO26 tích hợp trình tối ưu hóa MuSGD (lấy cảm hứng từ Moonshot AI), đảm bảo huấn luyện cực kỳ ổn định và hội tụ nhanh chóng so với các vòng lặp huấn luyện dễ gãy của EfficientDet.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss đơn giản hóa quy trình xuất, đảm bảo khả năng tương thích vượt trội với các vi điều khiển công suất thấp và thiết bị Raspberry Pi.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải thiện đáng kể trong nhận diện vật thể nhỏ, một lĩnh vực mà các kiến trúc cũ hơn truyền thống thường thất bại.

Hiệu quả bộ nhớ và tính linh hoạt trong công việc

Không giống như các mô hình biến áp hoặc mạng NAS tích hợp nhiều thành phần, Ultralytics Các mô hình này được đặc trưng bởi hiệu quả bộ nhớ nghiêm ngặt. Chúng tiêu thụ ít năng lượng hơn đáng kể. CUDA Bộ nhớ trong quá trình huấn luyện, cho phép lặp lại nhanh chóng trên phần cứng cấp độ người tiêu dùng.

Hơn nữa, trong khi EfficientDet và DAMO- YOLO bị giới hạn nghiêm ngặt trong các hộp giới hạn, Ultralytics Nó hỗ trợ phân đoạn đối tượngphân loại hình ảnh một cách tự nhiên trong cùng một khuôn khổ trực quan. Đối với người dùng đang duy trì các dự án cũ, Ultralytics YOLOv8 vẫn là một lựa chọn thay thế vững chắc, được triển khai rộng rãi và đáng để khám phá.

Kết luận

Việc lựa chọn kiến trúc thị giác phù hợp đòi hỏi phải cân nhắc hiệu suất lý thuyết thô so với thực tế triển khai. EfficientDet cung cấp một phương pháp mở rộng quy mô tinh tế về mặt toán học, và DAMO-YOLO mang lại tốc độ GPU thô ấn tượng. Tuy nhiên, đối với các nhóm ưu tiên phát triển nhanh chóng, triển khai đáng tin cậy và các tính năng tiên tiến, các mô hình Ultralytics rõ ràng vượt trội. Bằng cách kết hợp các đổi mới như suy luận không NMS và tối ưu hóa MuSGD, YOLO26 đảm bảo rằng các dự án thị giác máy tính của bạn được xây dựng trên nền tảng có khả năng, dễ bảo trì và hiệu quả nhất hiện có ngày nay.


Bình luận