Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 so với EfficientDet#

Việc lựa chọn kiến trúc mạng thần kinh phù hợp là yếu tố quan trọng cho sự thành công của bất kỳ ứng dụng computer vision nào. Hướng dẫn kỹ thuật này khám phá các sự đánh đổi, chỉ số hiệu suất và các đổi mới kiến trúc của hai mô hình nổi bật: Ultralytics YOLO26 tiên tiến và EfficientDet lâu đời của Google.

Cho dù mục tiêu triển khai của bạn là các máy chủ cloud có lưu lượng truy cập cao hay các thiết bị edge AI bị giới hạn về độ trễ, việc hiểu rõ sự khác biệt giữa các kiến trúc này sẽ đảm bảo sự cân bằng tối ưu giữa tốc độ, độ chính xác và hiệu quả.

Link to this sectionTổng quan kiến trúc: YOLO26#

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2026-01-14
GitHub: Ultralytics GitHub
Tài liệu: Tài liệu chính thức YOLO26

Được ra mắt vào đầu năm 2026, YOLO26 đại diện cho bước tiến mới nhất trong dòng YOLO, được thiết kế đặc biệt để mang lại trải nghiệm người dùng vượt trội và mean Average Precision (mAP) hàng đầu. Được xây dựng từ đầu cho phần cứng hiện đại, nó mang lại tính linh hoạt đặc biệt trong các tác vụ object detection, instance segmentation, image classificationpose estimation.

YOLO26 giới thiệu một số tính năng đột phá giúp cải thiện đáng kể cả độ ổn định khi huấn luyện và tốc độ suy luận:

  • Thiết kế End-to-End không cần NMS: Dựa trên các khái niệm tiên phong trong YOLOv10, YOLO26 là kiến trúc end-to-end tự nhiên, loại bỏ hoàn toàn nhu cầu hậu xử lý Non-Maximum Suppression (NMS). Điều này dẫn đến logic triển khai đơn giản hơn và độ trễ biến thiên thấp hơn đáng kể.
  • Suy luận trên CPU nhanh hơn tới 43%: Thông qua các tối ưu hóa kiến trúc chuyên sâu, mô hình đạt được tốc độ suy luận chưa từng có trên các CPUs tiêu chuẩn, khiến nó cực kỳ phù hợp cho môi trường IoT và nhúng.
  • Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ, giúp quy trình xuất mô hình gọn nhẹ hơn và tăng khả năng tương thích với các thiết bị edge công suất thấp sử dụng các công cụ như ONNX.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các quy trình huấn luyện LLM của Moonshot AI's Kimi K2, sự kết hợp giữa SGD và Muon này mang các đổi mới trong huấn luyện mô hình ngôn ngữ lớn trực tiếp vào computer vision, đảm bảo hội tụ nhanh hơn và các chế độ huấn luyện ổn định hơn.
  • ProgLoss + STAL: Các hàm mất mát (loss functions) tiên tiến này mang lại những cải thiện đáng chú ý trong việc nhận diện vật thể nhỏ, một yếu tố quan trọng cho các ứng dụng liên quan đến hình ảnh drone trên không và robot.
Xuất mô hình hợp lý hóa

Nhờ việc loại bỏ DFL và kiến trúc không cần NMS, việc xuất mô hình YOLO26 sang các định dạng thân thiện với edge như NVIDIA TensorRT hoặc Intel OpenVINO hầu như không yêu cầu phát triển thêm plugin tùy chỉnh.

Tìm hiểu thêm về YOLO26

Link to this sectionTổng quan kiến trúc: EfficientDet#

Tác giả: Mingxing Tan, Ruoming Pang và Quoc V. Le
Tổ chức: Google Research
Ngày: 2019-11-20
Arxiv: Bài báo EfficientDet
GitHub: Kho lưu trữ Google AutoML

Được giới thiệu bởi Google, EfficientDet sử dụng mạnh mẽ hệ sinh thái TensorFlow và được thiết kế dựa trên khái niệm compound scaling. Kiến trúc của nó mở rộng mạng backbone, mạng đặc trưng và mạng dự đoán box/class đồng thời dựa trên các ràng buộc về tài nguyên.

Các đổi mới chính của EfficientDet bao gồm:

  • BiFPN (Bi-directional Feature Pyramid Network): Một cơ chế cho phép hợp nhất đặc trưng đa quy mô dễ dàng và nhanh chóng, giúp mạng hiểu rõ hơn các vật thể có kích thước khác nhau.
  • Compound Scaling: Một phương pháp heuristic để mở rộng độ phân giải, độ sâu và chiều rộng một cách đồng nhất, tạo ra một họ các mô hình từ d0 (nhỏ nhất) đến d7 (lớn nhất).

Mặc dù EfficientDet vẫn là một lựa chọn mạnh mẽ cho việc phát hiện bounding box nghiêm ngặt, nhưng nó thường thiếu tính linh hoạt đa tác vụ hiện đại (như các OBB tasks tự nhiên) và hệ sinh thái Python hợp nhất, tinh gọn mà các nhà phát triển hiện đại mong đợi.

Tìm hiểu thêm về EfficientDet

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Để xác định biên Pareto của tốc độ và độ chính xác, chúng tôi đã đánh giá cả hai kiến trúc trên các môi trường tiêu chuẩn sử dụng COCO dataset. Bảng sau đây nêu bật sự khác biệt về kích thước mô hình, độ chính xác và độ trễ được đo trên một instance AWS EC2 P4d.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Như đã thể hiện ở trên, YOLO26 thiết lập sự cân bằng hiệu suất vượt trội. Mô hình YOLO26x đạt độ chính xác cao nhất (57.5 mAP), vượt trội đáng kể so với EfficientDet-d7 nặng nhất. Hơn nữa, các mô hình YOLO26 thể hiện yêu cầu bộ nhớ thấp hơn đáng kể và tốc độ suy luận GPU nhanh hơn nhiều (thấp nhất là 1.7 ms trên TensorRT), nhấn mạnh lợi ích của thiết kế không cần NMS.

Link to this sectionHiệu quả huấn luyện và Lợi thế hệ sinh thái#

Một sự khác biệt lớn giữa hai kiến trúc nằm ở môi trường phát triển của chúng. EfficientDet được nhúng sâu trong hệ sinh thái Google AutoML và TensorFlow, điều này dù mạnh mẽ nhưng có thể gây khó khăn khi bắt đầu và các cấu hình cứng nhắc cho các tập dữ liệu tùy chỉnh như DOTAv1.

Ngược lại, Ultralytics cung cấp một hệ sinh thái được bảo trì cực tốt được xây dựng trên PyTorch. Mức sử dụng bộ nhớ trong quá trình huấn luyện được tối ưu hóa nghiêm ngặt, cho phép các kỹ sư huấn luyện các mô hình mạnh mẽ mà không yêu cầu phân bổ VRAM quá mức như thường thấy trong các mạng dựa trên Transformer.

Tích hợp nền tảng hợp nhất

Thông qua Ultralytics Platform, các nhà phát triển có quyền truy cập vào quy trình MLOps end-to-end. Điều này bao gồm chú thích dữ liệu liền mạch, điều chỉnh siêu tham số tự động và huấn luyện trên cloud chỉ với một cú nhấp chuột, đẩy nhanh đáng kể lộ trình từ tạo mẫu đến sản xuất.

Link to this sectionVí dụ triển khai#

Sự dễ sử dụng mà API Ultralytics cung cấp có nghĩa là bạn có thể huấn luyện và xác thực một mô hình YOLO26 hiện đại chỉ trong vài dòng code.

from ultralytics import YOLO

# Initialize the End-to-End NMS-Free YOLO26 model
model = YOLO("yolo26n.pt")

# Train using the innovative MuSGD optimizer on a custom dataset
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Train on GPU
)

# Export natively to TensorRT for ultra-low latency deployment
model.export(format="engine")

Link to this sectionCác trường hợp sử dụng lý tưởng#

Khi nào nên sử dụng YOLO26:

  • Edge Computing & Mobile: Với tốc độ suy luận CPU nhanh hơn tới 43% và không có chi phí NMS, YOLO26 vượt trội trên các thiết bị có ngân sách tính toán bị hạn chế nghiêm ngặt như Raspberry Pis hoặc điện thoại di động.
  • Đa tác vụ: Khi một pipeline duy nhất yêu cầu bounding box, segmentation masks và theo dõi, tính linh hoạt của YOLO26 là không đối thủ.
  • Drone & Hình ảnh trên không: Sự kết hợp của ProgLoss và STAL giúp tăng cường đáng kể việc phát hiện các vật thể cực nhỏ từ độ cao lớn.

Khi nào nên sử dụng EfficientDet:

  • Legacy TensorFlow Pipelines: Nếu cơ sở hạ tầng của bạn được hardcode để chỉ hỗ trợ TensorFlow SavedModels hoặc yêu cầu các pipeline TensorFlow Serving cụ thể, EfficientDet cung cấp khả năng tương thích tự nhiên.
  • TPU bị giới hạn tài nguyên: EfficientDet đã được tối ưu hóa mạnh mẽ cho các Tensor Processing Units (TPUs) tùy chỉnh của Google.

Link to this sectionKhám phá các giải pháp thay thế khác#

Mặc dù hướng dẫn này tập trung nhiều vào mô hình YOLO26 vs EfficientDet, hệ sinh thái Ultralytics rộng lớn hơn chứa các kiến trúc đáng kinh ngạc khác. Nếu ứng dụng của bạn dựa nhiều vào transformer, RT-DETR cung cấp khả năng phát hiện dựa trên transformer theo thời gian thực. Ngoài ra, nếu bạn đang hỗ trợ các hệ thống cũ, YOLO11 vẫn được hỗ trợ đầy đủ và cực kỳ hiệu quả. Để có cái nhìn tổng quan rộng hơn, hãy truy cập Trung tâm so sánh mô hình Ultralytics.

Cuối cùng, đối với bất kỳ pipeline computer vision hiện đại nào được xây dựng ngày nay, tốc độ tuyệt đối, sự dễ sử dụng và độ chính xác hiện đại của YOLO26 khiến nó trở thành khuyến nghị không thể tranh cãi cho cả các nhà nghiên cứu và nhà phát triển.

Những người đóng góp

Bình luận