YOLO26 so với EfficientDet: Kiến trúc, Hiệu suất và Các trường hợp sử dụng
Bức tranh phát hiện đối tượng đã phát triển đáng kể trong thập kỷ qua. Hai kiến trúc đáng chú ý đã định hình lĩnh vực này là Ultralytics YOLO26 và EfficientDet của Google. Trong khi EfficientDet giới thiệu một cách tiếp cận có khả năng mở rộng và hiệu quả để xử lý các đặc trưng đa tỷ lệ vào năm 2019, thì YOLO26 đại diện cho công nghệ tiên tiến nhất của thị giác máy tính thời gian thực vào năm 2026, cung cấp khả năng xử lý đầu cuối và tốc độ vượt trội trên các thiết bị biên.
Hướng dẫn này cung cấp một so sánh kỹ thuật chi tiết để giúp các nhà phát triển, nhà nghiên cứu và kỹ sư lựa chọn mô hình phù hợp cho ứng dụng của họ.
Tổng quan mô hình
Ultralytics YOLO26
Ra mắt vào tháng 1 năm 2026, YOLO26 là phiên bản mới nhất trong dòng YOLO (You Only Look Once) nổi tiếng. Nó giới thiệu một kiến trúc đầu cuối không cần NMS nguyên bản, giúp đơn giản hóa quy trình triển khai bằng cách loại bỏ nhu cầu xử lý hậu kỳ triệt tiêu cực đại không tối đa (NMS). Được thiết kế để đạt hiệu quả cực cao, nó vượt trội trong các kịch bản điện toán biên, mang lại tốc độ tăng đáng kể trên CPU mà không làm giảm độ chính xác.
Tác giả chính: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày phát hành: 2026-01-14
Giấy phép:AGPL-3.0 (Phiên bản doanh nghiệp có sẵn)
Google EfficientDet
EfficientDet được đề xuất bởi nhóm Google Brain (nay là Google DeepMind) vào cuối năm 2019. Nó tập trung vào hiệu quả và khả năng mở rộng, sử dụng phương pháp chia tỷ lệ hợp chất để điều chỉnh đồng bộ độ phân giải, độ sâu và độ rộng của backbone, mạng đặc trưng và mạng dự đoán. Đổi mới cốt lõi của nó là Mạng kim tự tháp đặc trưng hai chiều (BiFPN), cho phép hợp nhất đặc trưng đa tỷ lệ dễ dàng và nhanh chóng.
Tác giả chính: Mingxing Tan, Ruoming Pang và Quoc V. Le
Tổ chức: Google
Ngày phát hành: 2019-11-20
Giấy phép: Apache 2.0
So sánh hiệu suất
Khi so sánh hai kiến trúc này, sự khác biệt nổi bật nhất nằm ở tốc độ suy luận và độ phức tạp của việc triển khai. Trong khi EfficientDet đã thiết lập các tiêu chuẩn về hiệu quả vào năm 2019, YOLO26 tận dụng các tối ưu hóa hiện đại để vượt trội hơn đáng kể, đặc biệt là trong suy luận dựa trên CPU, vốn rất quan trọng cho việc triển khai biên.
Bảng dưới đây nêu bật các chỉ số hiệu suất trên tập dữ liệu COCO. Lưu ý lợi thế tốc độ đáng kể của dòng YOLO26.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Bối cảnh đánh giá hiệu năng
Chỉ số Tốc độ CPU ONNX đặc biệt quan trọng đối với các ứng dụng thực tế trên phần cứng tiêu chuẩn. YOLO26n đạt độ trễ đáng kinh ngạc 38.9ms, giúp nó khả thi cho xử lý video thời gian thực trên các thiết bị không tăng tốc. Ngược lại, các phiên bản EfficientDet cao hơn lại gặp phải độ trễ cao, khiến chúng kém phù hợp hơn cho xử lý luồng trực tiếp.
Phân tích chuyên sâu kiến trúc
Những đổi mới của YOLO26
YOLO26 đại diện cho sự khác biệt so với logic phát hiện dựa trên anchor truyền thống được tìm thấy trong các mô hình trước đây.
- Logic đầu cuối không cần NMS: Các bộ detect truyền thống như EfficientDet yêu cầu Triệt tiêu cực đại không tối đa (NMS) để lọc các hộp giới hạn chồng chéo. Bước này tốn kém về mặt tính toán và khó tối ưu hóa trên các bộ tăng tốc phần cứng. YOLO26 loại bỏ hoàn toàn điều này, dự đoán trực tiếp tập hợp chính xác các đối tượng.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ việc huấn luyện mô hình ngôn ngữ lớn (LLM), YOLO26 sử dụng một bộ tối ưu hóa lai kết hợp SGD và Muon. Điều này mang lại động lực huấn luyện ổn định hơn và hội tụ nhanh hơn trong quá trình huấn luyện mô hình tùy chỉnh.
- Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), kiến trúc mô hình được đơn giản hóa. Việc giảm độ phức tạp này trực tiếp dẫn đến tốc độ suy luận nhanh hơn và xuất sang các định dạng như ONNX và TensorRT dễ dàng hơn.
- ProgLoss + STAL: Việc giới thiệu Cân bằng mất mát lũy tiến (Progressive Loss Balancing) và Gán nhãn nhận biết mục tiêu nhỏ (Small-Target-Aware Label Assignment) giúp tăng cường đáng kể hiệu suất trong phát hiện đối tượng nhỏ, một thách thức lịch sử đối với các bộ detect một giai đoạn.
Kiến trúc EfficientDet
EfficientDet được xây dựng trên backbone EfficientNet và giới thiệu BiFPN (Mạng kim tự tháp đặc trưng hai chiều).
- Chia tỷ lệ hợp chất: EfficientDet điều chỉnh đồng bộ độ phân giải, độ rộng và độ sâu bằng cách sử dụng một hệ số hợp chất (phi). Điều này cho phép người dùng đánh đổi độ chính xác lấy tài nguyên một cách có hệ thống từ D0 đến D7.
- BiFPN: Không giống như FPN tiêu chuẩn, BiFPN cho phép thông tin truyền cả từ trên xuống và từ dưới lên, đồng thời sử dụng các trọng số có thể học được để xác định tầm quan trọng của các đặc trưng đầu vào khác nhau.
- Dựa trên Anchor: EfficientDet dựa vào một tập hợp các hộp anchor được định nghĩa trước, đòi hỏi phải tinh chỉnh cẩn thận tỷ lệ khung hình và tỷ lệ để đạt hiệu suất tối ưu trên tập dữ liệu tùy chỉnh.
Khả năng Sử dụng và Hệ sinh thái
Một trong những khác biệt rõ rệt giữa việc sử dụng YOLO26 và EfficientDet là hệ sinh thái phần mềm xung quanh chúng.
Trải nghiệm Ultralytics
Ultralytics ưu tiên dễ sử dụng và một API thống nhất. Cho dù bạn đang thực hiện phát hiện đối tượng, phân đoạn thực thể, ước tính tư thế hay phát hiện đối tượng định hướng (OBB), cú pháp vẫn nhất quán.
- API python đơn giản: Huấn luyện một mô hình chỉ mất vài dòng code.
- Tính linh hoạt: YOLO26 hỗ trợ nhiều tác vụ ngay lập tức. EfficientDet chủ yếu là một bộ detect đối tượng, mặc dù các đầu phân đoạn có thể được thêm vào bằng các triển khai tùy chỉnh.
- Sẵn sàng triển khai: Hệ sinh thái Ultralytics bao gồm hỗ trợ tích hợp sẵn để xuất sang CoreML, TFLite, OpenVINO và nhiều định dạng khác, giúp hợp lý hóa con đường từ nghiên cứu đến sản xuất.
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
Hệ sinh thái EfficientDet
EfficientDet thường được truy cập thông qua TensorFlow Object Detection API hoặc các triển khai PyTorch khác nhau. Mặc dù mạnh mẽ, các framework này thường yêu cầu nhiều mã boilerplate, các tệp cấu hình phức tạp và đường cong học tập dốc hơn cho người mới bắt đầu. Việc huấn luyện hiệu quả trên dữ liệu tùy chỉnh thường đòi hỏi tinh chỉnh siêu tham số đáng kể so với khả năng sẵn sàng "sử dụng ngay" của các mô hình YOLO.
Đề xuất Trường hợp Sử dụng
Khi nào nên chọn YOLO26
YOLO26 là lựa chọn lý tưởng cho hầu hết các ứng dụng thị giác máy tính hiện đại, cụ thể là:
- Điện toán biên: Nếu bạn đang triển khai trên Raspberry Pi, thiết bị di động (iOS/Android) hoặc NVIDIA Jetson, khả năng suy luận CPU nhanh hơn tới 43% giúp YOLO26 vượt trội.
- Video thời gian thực: Đối với các ứng dụng yêu cầu FPS cao, như lái xe tự hành hoặc giám sát an ninh, độ trễ thấp của YOLO26 là rất quan trọng.
- Các tác vụ phức tạp: Nếu dự án của bạn không chỉ liên quan đến detect mà còn cả ước tính tư thế hoặc segment, việc sử dụng một framework thống nhất duy nhất sẽ giảm chi phí phát triển.
- Tạo mẫu nhanh: Cộng đồng tích cực và tài liệu phong phú cho phép các nhà phát triển lặp lại nhanh chóng.
Khi nào nên cân nhắc EfficientDet
Mặc dù nhìn chung chậm hơn, EfficientDet vẫn còn phù hợp trong các bối cảnh nghiên cứu cụ thể:
- Nghiên cứu học thuật: Nếu bạn đang nghiên cứu cụ thể về mạng kim tự tháp đặc trưng, kiến trúc BiFPN vẫn là một tài liệu tham khảo có giá trị.
- Hệ thống kế thừa: Các pipeline hiện có được tích hợp chặt chẽ với các phiên bản TensorFlow cũ hơn có thể thấy dễ dàng hơn khi duy trì một mô hình EfficientDet hiện có thay vì di chuyển.
Kết luận
Mặc dù EfficientDet đã giới thiệu các khái niệm đột phá về hợp nhất đặc trưng và mở rộng mô hình, YOLO26 đại diện cho thế hệ AI thị giác tiếp theo. Với thiết kế NMS-free end-to-end, tốc độ suy luận vượt trội và yêu cầu bộ nhớ thấp hơn, YOLO26 mang đến một giải pháp thực tế và mạnh mẽ hơn cho các thách thức AI ngày nay.
Đối với các nhà phát triển muốn xây dựng các ứng dụng mạnh mẽ, thời gian thực, quy trình làm việc được tối ưu hóa và sự cân bằng hiệu suất của Ultralytics YOLO26 khiến nó trở thành khuyến nghị rõ ràng.
Đọc thêm
Khám phá các mô hình khác trong tài liệu Ultralytics:
- YOLO11: Mô hình tiên tiến nhất thế hệ trước.
- YOLOv10: Người tiên phong trong huấn luyện NMS-free.
- RT-DETR: Real-time DEtection TRansformer, một lựa chọn end-to-end tuyệt vời khác.