Chuyển đến nội dung

YOLO26 so với EfficientDet: So sánh kỹ thuật giữa hai kiến ​​trúc phát hiện đối tượng hiện đại

Việc lựa chọn kiến trúc mạng nơ-ron phù hợp là rất quan trọng đối với sự thành công của bất kỳ ứng dụng thị giác máy tính nào. Hướng dẫn kỹ thuật này khám phá các đánh đổi, số liệu hiệu suất và đổi mới kiến trúc của hai mô hình nổi bật: Ultralytics YOLO26 tiên tiến và EfficientDet đã được Google khẳng định.

Cho dù mục tiêu triển khai của bạn là các máy chủ đám mây có thông lượng cao hay các thiết bị AI biên có độ trễ thấp, việc hiểu rõ sự khác biệt giữa các kiến ​​trúc này sẽ đảm bảo sự cân bằng tối ưu giữa tốc độ, độ chính xác và hiệu quả.

Tổng quan kiến trúc: YOLO26

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2026-01-14
GitHub:GitHub của Ultralytics
Tài liệu:Tài liệu chính thức của YOLO26

Ra mắt vào đầu năm 2026, YOLO26 đại diện cho bước tiến mới nhất trong dòng sản phẩm này. YOLO Thuộc dòng sản phẩm này, được thiết kế đặc biệt để mang lại trải nghiệm người dùng vượt trội và độ chính xác trung bình ( mAP ) hàng đầu. Được thiết kế từ đầu cho phần cứng hiện đại, nó cung cấp tính linh hoạt vượt trội trong phát hiện đối tượng , phân đoạn thể hiện , phân loại hình ảnhước tính tư thế .

YOLO26 giới thiệu một số tính năng đột phá giúp cải thiện đáng kể cả độ ổn định của quá trình huấn luyện và tốc độ suy luận:

  • Thiết kế không NMS đầu cuối: Dựa trên các khái niệm được tiên phong trong YOLOv10, YOLO26 là một mô hình đầu cuối tự nhiên, loại bỏ hoàn toàn nhu cầu xử lý hậu kỳ Non-Maximum Suppression (NMS). Điều này dẫn đến logic triển khai đơn giản hơn và biến thiên độ trễ thấp hơn đáng kể.
  • Tăng tốc suy luận trên CPU lên đến 43%: Thông qua các tối ưu hóa kiến trúc sâu, mô hình đạt tốc độ suy luận chưa từng có trên các CPU tiêu chuẩn, làm cho nó rất phù hợp cho các môi trường IoT và nhúng.
  • Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ, dẫn đến một quy trình xuất sạch hơn và khả năng tương thích nâng cao với các thiết bị biên công suất thấp sử dụng các công cụ như ONNX.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các quy trình huấn luyện LLM của Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này mang những đổi mới trong huấn luyện mô hình ngôn ngữ lớn trực tiếp đến thị giác máy tính, đảm bảo hội tụ nhanh hơn và các chế độ huấn luyện ổn định hơn.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, một yếu tố quan trọng cho các ứng dụng liên quan đến hình ảnh drone trên không và robot học.

Xuất khẩu được đơn giản hóa

Nhờ việc loại bỏ DFL và NMS - Với kiến ​​trúc hoàn toàn tự do, việc xuất các mô hình YOLO26 sang các định dạng thân thiện với thiết bị biên như NVIDIA TensorRT hoặc Intel OpenVINO hầu như không yêu cầu phát triển plugin tùy chỉnh.

Tìm hiểu thêm về YOLO26

Tổng quan kiến trúc: EfficientDet

Tác giả: Mingxing Tan, Ruoming Pang và Quoc V. Le
Tổ chức:Google Research
Ngày: 2019-11-20
Arxiv:Bài báo EfficientDet
GitHub:Kho lưu trữ AutoML của Google

Được giới thiệu bởi Google EfficientDet tận dụng tối đa hệ sinh thái TensorFlow và được thiết kế dựa trên khái niệm mở rộng quy mô kết hợp. Kiến trúc của nó mở rộng mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp đồng thời dựa trên các hạn chế về tài nguyên.

Các cải tiến chính của EfficientDet bao gồm:

  • BiFPN (Mạng kim tự tháp đặc trưng hai chiều): Một cơ chế cho phép hợp nhất đặc trưng đa tỷ lệ dễ dàng và nhanh chóng, giúp mạng lưới hiểu rõ hơn về các vật thể có kích thước khác nhau.
  • Compound Scaling: Một phương pháp heuristic để mở rộng độ phân giải, độ sâu và chiều rộng một cách đồng nhất, tạo ra một họ mô hình từ d0 (nhỏ nhất) đến d7 (lớn nhất).

Mặc dù EfficientDet vẫn là một lựa chọn mạnh mẽ cho việc phát hiện hộp giới hạn chính xác, nhưng nhìn chung nó thiếu tính linh hoạt đa nhiệm hiện đại (như các tác vụ OBB gốc) và hệ sinh thái Python hợp lý, thống nhất mà các nhà phát triển hiện đại mong đợi.

Tìm hiểu thêm về EfficientDet

So sánh hiệu năng và số liệu

Để xác định ranh giới Pareto về tốc độ và độ chính xác, chúng tôi đã đánh giá hiệu năng của cả hai kiến ​​trúc trên các môi trường tiêu chuẩn bằng cách sử dụng tập dữ liệu COCO . Bảng sau đây nêu bật sự khác biệt về kích thước mô hình, độ chính xác và độ trễ được đo trên một phiên bản AWS EC2 P4d .

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Như đã trình bày ở trên, YOLO26 thiết lập một cân bằng hiệu suất vượt trội. Mô hình YOLO26x đạt độ chính xác cao nhất (57.5 mAP), vượt trội đáng kể so với EfficientDet-d7 nặng nhất. Hơn nữa, các mô hình YOLO26 thể hiện yêu cầu bộ nhớ thấp hơn đáng kể và tốc độ suy luận GPU nhanh hơn nhiều (chỉ 1.7 ms trên TensorRT), nhấn mạnh lợi ích của thiết kế không NMS.

Hiệu quả đào tạo và lợi thế hệ sinh thái

Một điểm khác biệt lớn giữa hai kiến trúc nằm ở môi trường phát triển của chúng. EfficientDet được tích hợp sâu vào hệ sinh thái Google AutoML và TensorFlow, mặc dù mạnh mẽ, nhưng có thể gây ra đường cong học tập dốc và cấu hình cứng nhắc cho các tập dữ liệu tùy chỉnh như DOTAv1.

Ngược lại, Ultralytics cung cấp một hệ sinh thái được duy trì cực kỳ tốt, được xây dựng trên PyTorch. Việc sử dụng bộ nhớ trong quá trình huấn luyện được tối ưu hóa nghiêm ngặt, cho phép các kỹ sư huấn luyện các mô hình mạnh mẽ mà không yêu cầu phân bổ VRAM quá mức thường thấy trong các mạng dựa trên transformer.

Tích hợp nền tảng thống nhất

Thông qua Nền tảng Ultralytics , các nhà phát triển có quyền truy cập vào quy trình làm việc MLOps toàn diện. Điều này bao gồm chú thích dữ liệu liền mạch, điều chỉnh siêu tham số tự động và huấn luyện trên đám mây chỉ với một cú nhấp chuột, giúp tăng tốc đáng kể quá trình từ tạo mẫu đến sản xuất.

Ví dụ triển khai

Sự dễ sử dụng được cung cấp bởi Ultralytics API cho phép bạn huấn luyện và kiểm định mô hình YOLO26 hiện đại chỉ với vài dòng mã.

from ultralytics import YOLO

# Initialize the End-to-End NMS-Free YOLO26 model
model = YOLO("yolo26n.pt")

# Train using the innovative MuSGD optimizer on a custom dataset
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Train on GPU
)

# Export natively to TensorRT for ultra-low latency deployment
model.export(format="engine")

Các trường hợp sử dụng lý tưởng

Khi nào nên sử dụng YOLO26:

  • Điện toán biên & Di động: Với khả năng suy luận CPU nhanh hơn tới 43% và không có chi phí NMS, YOLO26 vượt trội trên các thiết bị có ngân sách tính toán bị hạn chế nghiêm ngặt như Raspberry Pi hoặc điện thoại di động.
  • Đa nhiệm: Khi một pipeline duy nhất yêu cầu các hộp giới hạn, mặt nạ segmentation và track, tính linh hoạt của YOLO26 là không thể sánh kịp.
  • Hình ảnh từ Drone & Trên không: Sự kết hợp giữa ProgLoss và STAL giúp tăng cường đáng kể khả năng detect các vật thể cực nhỏ từ độ cao lớn.

Khi nào nên sử dụng EfficientDet:

  • Các pipeline TensorFlow cũ: Nếu cơ sở hạ tầng của bạn được mã hóa cứng để chỉ hỗ trợ TensorFlow SavedModels hoặc yêu cầu các pipeline TensorFlow Serving cụ thể, EfficientDet cung cấp khả năng tương thích gốc.
  • TPU hạn chế tài nguyên: EfficientDet được tối ưu hóa mạnh mẽ cho các Đơn vị xử lý tensor (TPU) tùy chỉnh của Google.

Khám phá các lựa chọn thay thế khác

Mặc dù hướng dẫn này tập trung chủ yếu vào mô hình YOLO26 so với EfficientDet , nhưng phạm vi rộng hơn của nó cũng bao gồm vấn đề này. Ultralytics Hệ sinh thái này còn chứa đựng nhiều kiến ​​trúc tuyệt vời khác. Nếu ứng dụng của bạn phụ thuộc nhiều vào các bộ chuyển đổi (transformer), RT-DETR cung cấp khả năng phát hiện dựa trên bộ chuyển đổi theo thời gian thực. Hoặc nếu bạn đang hỗ trợ các hệ thống cũ, YOLO11 vẫn được hỗ trợ đầy đủ và hoạt động hiệu quả cao. Để có cái nhìn tổng quan hơn, hãy truy cập Trung tâm So sánh Mô hình Ultralytics .

Tóm lại, đối với bất kỳ hệ thống xử lý hình ảnh máy tính hiện đại nào được xây dựng ngày nay, tốc độ vượt trội, tính dễ sử dụng và độ chính xác hàng đầu của YOLO26 khiến nó trở thành lựa chọn không thể bàn cãi dành cho cả các nhà nghiên cứu và nhà phát triển.


Bình luận