DAMO-YOLO so với EfficientDet: Phân tích chuyên sâu kỹ thuật về Object Detection hiện đại

Sự phát triển của thị giác máy tính đã tạo ra một loạt các kiến trúc mạnh mẽ được thiết kế riêng cho các nhu cầu thực tế khác nhau. Trong khi một số framework ưu tiên khả năng mở rộng quy mô lớn, những framework khác lại tập trung mạnh vào tốc độ suy luận thời gian thực. Trong bài so sánh kỹ thuật này, chúng ta sẽ khám phá DAMO- YOLO và EfficientDet , hai mô hình có ảnh hưởng lớn, thể hiện các cách tiếp cận khác nhau để giải quyết bài toán phát hiện đối tượng. Chúng ta sẽ phân tích kiến trúc của chúng, so sánh hiệu năng chuẩn và cuối cùng tìm hiểu lý do tại sao mô hình mới được phát hành lại được ưa chuộng. Ultralytics YOLO26 là sự lựa chọn tối ưu cho các triển khai sản xuất hiện đại.

Tổng quan kiến trúc

Cả hai mô hình đều được thiết kế để giải quyết sự đánh đổi giữa hiệu quả và độ chính xác, nhưng chúng dựa vào các cơ chế khác biệt cơ bản để đạt được mục tiêu của mình.

DAMO-YOLO: Tăng tốc nhờ Tìm kiếm kiến trúc mạng nơ-ron

Được phát triển để vượt qua giới hạn của detect thời gian thực, DAMO-YOLO tận dụng các kỹ thuật tìm kiếm tự động để xây dựng các mạng hiệu quả cao được điều chỉnh cho môi trường độ trễ thấp.

Chi tiết DAMO-YOLO:
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO được xây dựng dựa trên kiến trúc xương sống (backbone) Neural Architecture Search (NAS) được tối ưu hóa cho cả tốc độ và độ chính xác. Nó giới thiệu RepGFPN (Reparameterized Generalized Feature Pyramid Network), giúp tăng cường hợp nhất đặc trưng (feature fusion) trong khi vẫn duy trì tốc độ suy luận cao. Hơn nữa, thiết kế ZeroHead của nó giảm thiểu chi phí tính toán thường liên quan đến các đầu detect. Mô hình cũng được hưởng lợi từ AlignedOTA (Aligned Optimal Transport Assignment) và cải tiến chưng cất (distillation enhancement), đảm bảo rằng ngay cả các biến thể nhỏ nhất cũng học được các biểu diễn phong phú từ các mô hình lớn hơn.

Tìm hiểu thêm về DAMO-YOLO

EfficientDet: Khả năng mở rộng thông qua mở rộng theo cấp số nhân

Trái ngược với phương pháp ưu tiên tốc độ, EfficientDet tập trung vào khả năng mở rộng có hệ thống trên nhiều ngân sách tính toán khác nhau.

Chi tiết EfficientDet:
Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức: Google Brain
Ngày: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet

EfficientDet giới thiệu BiFPN (Bidirectional Feature Pyramid Network), cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng. Không giống như các phương pháp truyền thống mở rộng kiến trúc bằng cách thêm các lớp hoặc kênh một cách tùy ý, EfficientDet sử dụng phương pháp mở rộng phức hợp, mở rộng đồng đều độ phân giải, độ sâu và chiều rộng của mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp cùng một lúc. Điều này cho phép nó đạt được độ chính xác hàng đầu trên phần cứng cao cấp trong khi vẫn cung cấp các biến thể nhỏ hơn cho các môi trường hạn chế.

Tìm hiểu thêm về EfficientDet

So sánh hiệu năng và số liệu

Khi so sánh các mô hình này cạnh nhau, sự đánh đổi giữa độ chính xác tuyệt đối và tốc độ suy luận trở nên rõ ràng. Bảng dưới đây nêu bật các chỉ số hiệu suất chính, cho thấy khả năng suy luận của DAMO- YOLO so với họ mô hình EfficientDet như thế nào.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Như đã thấy ở trên, EfficientDet-d7 đạt độ chính xác tổng thể cao nhất, khiến nó phù hợp cho các ứng dụng dựa trên đám mây đòi hỏi khắt khe. Ngược lại, dòng DAMO-YOLO cung cấp độ chính xác rất cạnh tranh với độ trễ thấp hơn đáng kể trên phần cứng GPU, biến nó thành một ứng cử viên mạnh mẽ hơn cho các triển khai biên thời gian thực.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa DAMO-YOLO và EfficientDet phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO là một lựa chọn mạnh mẽ cho:

Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên chọn EfficientDet

EfficientDet được khuyến nghị sử dụng cho:

Hệ thống Google Cloud và TPU Pipelines: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc cơ sở hạ tầng TPU, nơi EfficientDet có tối ưu hóa gốc.
Nghiên cứu về Compound Scaling: Đánh giá chuẩn học thuật tập trung vào việc nghiên cứu ảnh hưởng của việc mở rộng quy mô độ sâu, chiều rộng và độ phân giải mạng cân bằng.
Triển khai di động qua TFLite: Các dự án yêu cầu cụ thể xuất TensorFlow Lite cho thiết bị Android hoặc Linux nhúng.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Giải pháp thay thế hiện đại: Ultralytics YOLO26

Trong khi cả DAMO- YOLO Mặc dù EfficientDet đại diện cho những cột mốc học thuật quan trọng, việc triển khai thực tế thường đòi hỏi một cách tiếp cận cân bằng hơn, giàu tính năng hơn và thân thiện hơn với nhà phát triển. Đây là nơi Ultralytics YOLO26 thiết lập một tiêu chuẩn mới trong ngành.

Ra mắt vào tháng 1 năm 2026, YOLO26 kế thừa những thành tựu của các phiên bản tiền nhiệm, bao gồm Ultralytics YOLO11 và YOLOv8 , mang đến một sự thay đổi mang tính đột phá trong cách chúng ta tiếp cận việc phát hiện đối tượng .

Đơn giản từ đầu đến cuối

YOLO26 sở hữu thiết kế hoàn toàn không có NMS Non-Maximum Suppression) từ đầu đến cuối . Bằng cách loại bỏ Non-Maximum Suppression ( NMS Trong quá trình xử lý hậu kỳ—một điểm nghẽn đã gây khó khăn cho các bộ phát hiện đối tượng trong nhiều năm—YOLO26 cung cấp một quy trình triển khai đơn giản hơn, nhanh hơn đáng kể, đặc biệt là trên phần cứng biên.

Hiệu năng và tính linh hoạt vượt trội

YOLO26 không chỉ cải thiện tốc độ mà còn định nghĩa lại tính ổn định và độ chính xác của quá trình huấn luyện. Nó giới thiệu MuSGD Optimizer , một sự kết hợp giữa... SGD và Muon được lấy cảm hứng từ những cải tiến trong huấn luyện LLM, dẫn đến tốc độ hội tụ nhanh hơn đáng kể và hiệu quả huấn luyện vượt trội. Không giống như các giải pháp thay thế dựa trên transformer nặng nề như RT-DETR , YOLO26 duy trì yêu cầu bộ nhớ cực thấp, đảm bảo nó có thể được huấn luyện trên phần cứng cấp người tiêu dùng.

Hơn nữa, YOLO26 tích hợp ProgLoss + STAL , cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, điều rất quan trọng đối với các trường hợp sử dụng như chụp ảnh trên không bằng máy bay không người lái và robot. Để tối ưu hóa cho các thiết bị tiêu thụ điện năng thấp, YOLO26 đã loại bỏ Distribution Focal Loss (DFL), giúp tăng tốc độ xử lý CPU lên đến 43% so với các thế hệ trước.

Hệ sinh thái và Dễ sử dụng

Một trong những trở ngại lớn nhất đối với các mô hình như EfficientDet là quy trình tích hợp phức tạp. Ngược lại, Nền tảng Ultralytics cung cấp một hệ sinh thái hoàn chỉnh, được duy trì tốt. Với API thống nhất, người dùng có thể dễ dàng chuyển đổi giữa phát hiện đối tượng, phân đoạn đối tượng , ước tính tư thế , phân loại hình ảnh và hộp giới hạn định hướng (OBB) .

Dưới đây là cách đơn giản để huấn luyện và chạy suy luận với YOLO26 bằng cách sử dụng... Ultralytics Python bưu kiện:

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")

Tìm hiểu thêm về YOLO26

Kết luận

Mặc dù việc nghiên cứu DAMO- YOLO so với EfficientDet cung cấp những hiểu biết tuyệt vời về sự đánh đổi giữa Tìm kiếm Kiến trúc Mạng thần kinh và khả năng mở rộng theo cấp số nhân, các nhà phát triển hiện đại cần những công cụ thu hẹp khoảng cách giữa nghiên cứu học thuật và thực tiễn sản xuất.

Đối với các nhà phát triển ưu tiên tính dễ sử dụng, cộng đồng mã nguồn mở năng động và sự cân bằng tối ưu giữa tốc độ và độ chính xác, Ultralytics YOLO26 là sự lựa chọn tối ưu. NMS Kiến trúc không cần cấu trúc trả phí, chi phí đào tạo thấp và khả năng tích hợp liền mạch với hệ sinh thái Ultralytics toàn diện khiến nó trở thành khung phần mềm tối ưu cho dự án thị giác máy tính tiếp theo của bạn.