DAMO- YOLO vs EfficientDet: Phân tích chuyên sâu về công nghệ phát hiện đối tượng hiện đại
Sự phát triển của thị giác máy tính đã tạo ra một loạt các kiến trúc mạnh mẽ được thiết kế riêng cho các nhu cầu thực tế khác nhau. Trong khi một số framework ưu tiên khả năng mở rộng quy mô lớn, những framework khác lại tập trung mạnh vào tốc độ suy luận thời gian thực. Trong bài so sánh kỹ thuật này, chúng ta sẽ khám phá DAMO- YOLO và EfficientDet , hai mô hình có ảnh hưởng lớn, thể hiện các cách tiếp cận khác nhau để giải quyết bài toán phát hiện đối tượng. Chúng ta sẽ phân tích kiến trúc của chúng, so sánh hiệu năng chuẩn và cuối cùng tìm hiểu lý do tại sao mô hình mới được phát hành lại được ưa chuộng. Ultralytics YOLO26 là sự lựa chọn tối ưu cho các triển khai sản xuất hiện đại.
Tổng quan kiến trúc
Cả hai mô hình đều được thiết kế để giải quyết sự đánh đổi giữa hiệu quả và độ chính xác, nhưng chúng dựa trên các cơ chế khác nhau về cơ bản để đạt được mục tiêu của mình.
DAMO- YOLO Tăng tốc thông qua tìm kiếm kiến trúc mạng nơ-ron
Được phát triển để vượt qua những giới hạn của việc phát hiện thời gian thực, DAMO- YOLO Sử dụng các kỹ thuật tìm kiếm tự động để xây dựng các mạng lưới hiệu quả cao, được thiết kế riêng cho môi trường có độ trễ thấp.
Thông tin chi tiết về DAMO- YOLO :
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23/11/2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO- YOLO
DAMO- YOLO Mô hình được xây dựng dựa trên kiến trúc tìm kiếm mạng nơ-ron (Neural Architecture Search - NAS) nhằm tối ưu hóa cả tốc độ và độ chính xác. Nó giới thiệu RepGFPN (Reparameterized Generalized Feature Pyramid Network), giúp tăng cường sự kết hợp các đặc trưng trong khi vẫn duy trì tốc độ suy luận cao. Hơn nữa, thiết kế ZeroHead của nó giảm thiểu chi phí tính toán thường liên quan đến các đầu phát hiện. Mô hình cũng được hưởng lợi từ AlignedOTA (Aligned Optimal Transport Assignment) và cải tiến chưng cất, đảm bảo rằng ngay cả các biến thể nhỏ nhất cũng học được các biểu diễn phong phú từ các mô hình lớn hơn.
EfficientDet: Khả năng mở rộng thông qua mở rộng theo cấp số nhân
Trái ngược với phương pháp ưu tiên tốc độ, EfficientDet tập trung vào khả năng mở rộng một cách có hệ thống trên nhiều mức ngân sách tính toán khác nhau.
Thông tin chi tiết về EfficientDet:
Tác giả: Mingxing Tan, Ruoming Pang, và Quốc V. Lê
Tổ chức: Google Brain
Ngày: 20/11/2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: google
EfficientDet giới thiệu BiFPN (Bidirectional Feature Pyramid Network), cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng. Không giống như các phương pháp truyền thống mở rộng kiến trúc bằng cách thêm các lớp hoặc kênh một cách tùy ý, EfficientDet sử dụng phương pháp mở rộng phức hợp, mở rộng đồng đều độ phân giải, độ sâu và chiều rộng của mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp cùng một lúc. Điều này cho phép nó đạt được độ chính xác hàng đầu trên phần cứng cao cấp trong khi vẫn cung cấp các biến thể nhỏ hơn cho các môi trường hạn chế.
So sánh hiệu năng và số liệu
Khi so sánh các mô hình này cạnh nhau, sự đánh đổi giữa độ chính xác tuyệt đối và tốc độ suy luận trở nên rõ ràng. Bảng dưới đây nêu bật các chỉ số hiệu suất chính, cho thấy khả năng suy luận của DAMO- YOLO so với họ mô hình EfficientDet như thế nào.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Như đã thấy ở trên, EfficientDet-d7 đạt được độ chính xác tổng thể cao nhất, làm cho nó phù hợp với các ứng dụng dựa trên điện toán đám mây đòi hỏi khắt khe. Ngược lại, DAMO- YOLO Dòng sản phẩm này cung cấp độ chính xác cạnh tranh cao với độ trễ thấp hơn đáng kể. GPU phần cứng mạnh mẽ hơn, khiến nó trở thành ứng cử viên sáng giá cho các triển khai biên thời gian thực.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa DAMO- YOLO Và EfficientDet phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Khi nào nên chọn DAMO-YOLO
DAMO- YOLO là một lựa chọn tốt cho:
- Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các kiến trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.
Khi nào nên chọn EfficientDet
EfficientDet được khuyến nghị sử dụng cho:
- Google Cloud và TPU Pipelines: Các hệ thống tích hợp sâu rộng với Google API Cloud Vision hoặc TPU cơ sở hạ tầng nơi EfficientDet có khả năng tối ưu hóa gốc.
- Nghiên cứu về mở rộng quy mô phức hợp: Nghiên cứu chuẩn mực học thuật tập trung vào việc nghiên cứu tác động của việc mở rộng quy mô cân bằng về độ sâu, độ rộng và độ phân giải của mạng.
- Triển khai trên thiết bị di động thông qua TFLite : Các dự án yêu cầu xuất sang TensorFlow Lite . Android hoặc các thiết bị Linux nhúng.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Giải pháp thay thế hiện đại: Ultralytics YOLO26
Trong khi cả DAMO- YOLO Mặc dù EfficientDet đại diện cho những cột mốc học thuật quan trọng, việc triển khai thực tế thường đòi hỏi một cách tiếp cận cân bằng hơn, giàu tính năng hơn và thân thiện hơn với nhà phát triển. Đây là nơi Ultralytics YOLO26 thiết lập một tiêu chuẩn mới trong ngành.
Ra mắt vào tháng 1 năm 2026, YOLO26 kế thừa những thành tựu của các phiên bản tiền nhiệm, bao gồm Ultralytics YOLO11 và YOLOv8 , mang đến một sự thay đổi mang tính đột phá trong cách chúng ta tiếp cận việc phát hiện đối tượng .
Đơn giản từ đầu đến cuối
YOLO26 sở hữu thiết kế hoàn toàn không có NMS Non-Maximum Suppression) từ đầu đến cuối . Bằng cách loại bỏ Non-Maximum Suppression ( NMS Trong quá trình xử lý hậu kỳ—một điểm nghẽn đã gây khó khăn cho các bộ phát hiện đối tượng trong nhiều năm—YOLO26 cung cấp một quy trình triển khai đơn giản hơn, nhanh hơn đáng kể, đặc biệt là trên phần cứng biên.
Hiệu năng và tính linh hoạt vượt trội
YOLO26 không chỉ cải thiện tốc độ mà còn định nghĩa lại tính ổn định và độ chính xác của quá trình huấn luyện. Nó giới thiệu MuSGD Optimizer , một sự kết hợp giữa... SGD và Muon được lấy cảm hứng từ những cải tiến trong huấn luyện LLM, dẫn đến tốc độ hội tụ nhanh hơn đáng kể và hiệu quả huấn luyện vượt trội. Không giống như các giải pháp thay thế dựa trên transformer nặng nề như RT-DETR , YOLO26 duy trì yêu cầu bộ nhớ cực thấp, đảm bảo nó có thể được huấn luyện trên phần cứng cấp người tiêu dùng.
Hơn nữa, YOLO26 tích hợp ProgLoss + STAL , cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, điều rất quan trọng đối với các trường hợp sử dụng như chụp ảnh trên không bằng máy bay không người lái và robot. Để tối ưu hóa cho các thiết bị tiêu thụ điện năng thấp, YOLO26 đã loại bỏ Distribution Focal Loss (DFL), giúp tăng tốc độ xử lý CPU lên đến 43% so với các thế hệ trước.
Hệ sinh thái và Dễ sử dụng
Một trong những trở ngại lớn nhất đối với các mô hình như EfficientDet là quy trình tích hợp phức tạp. Ngược lại, Nền tảng Ultralytics cung cấp một hệ sinh thái hoàn chỉnh, được duy trì tốt. Với API thống nhất, người dùng có thể dễ dàng chuyển đổi giữa phát hiện đối tượng, phân đoạn đối tượng , ước tính tư thế , phân loại hình ảnh và hộp giới hạn định hướng (OBB) .
Dưới đây là cách đơn giản để huấn luyện và chạy suy luận với YOLO26 bằng cách sử dụng... Ultralytics Python bưu kiện:
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")
Kết luận
Mặc dù việc nghiên cứu DAMO- YOLO so với EfficientDet cung cấp những hiểu biết tuyệt vời về sự đánh đổi giữa Tìm kiếm Kiến trúc Mạng thần kinh và khả năng mở rộng theo cấp số nhân, các nhà phát triển hiện đại cần những công cụ thu hẹp khoảng cách giữa nghiên cứu học thuật và thực tiễn sản xuất.
Đối với các nhà phát triển ưu tiên tính dễ sử dụng, cộng đồng mã nguồn mở năng động và sự cân bằng tối ưu giữa tốc độ và độ chính xác, Ultralytics YOLO26 là sự lựa chọn tối ưu. NMS Kiến trúc không cần cấu trúc trả phí, chi phí đào tạo thấp và khả năng tích hợp liền mạch với hệ sinh thái Ultralytics toàn diện khiến nó trở thành khung phần mềm tối ưu cho dự án thị giác máy tính tiếp theo của bạn.