Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv8 so với EfficientDet#

Trong lĩnh vực nhận diện đối tượng đang phát triển nhanh chóng, việc lựa chọn kiến trúc mạng thần kinh tối ưu là rất quan trọng để cân bằng giữa độ chính xác, tốc độ suy luận và khả năng triển khai. Bài viết chuyên sâu kỹ thuật này so sánh hai kiến trúc có sức ảnh hưởng lớn: Ultralytics YOLOv8, một tiêu chuẩn linh hoạt trong hệ sinh thái thị giác máy tính hiện đại, và EfficientDet, một mô hình nền tảng từ Google nổi tiếng với chiến lược mở rộng quy mô (compound scaling).

Cho dù mục tiêu triển khai của bạn là máy chủ đám mây hiệu suất cao hay các thiết bị biên hạn chế tài nguyên, việc hiểu rõ các sắc thái kiến trúc của những mô hình này sẽ dẫn dắt dự án của bạn đến thành công.

Link to this sectionTổng quan về Kiến trúc#

Cả hai mô hình đều tiếp cận thách thức trong việc xác định và định vị đối tượng trong ảnh bằng cách sử dụng mạng thần kinh tích chập, nhưng chúng sử dụng các phương pháp riêng biệt để đạt được khả năng trích xuất đặc trưng và hồi quy hộp giới hạn (bounding box).

Link to this sectionUltralytics YOLOv8#

Được Ultralytics ra mắt vào tháng 1 năm 2023, YOLOv8 đại diện cho một bước tiến lớn trong dòng họ YOLO. Được viết bởi Glenn Jocher, Ayush Chaurasia và Jing Qiu, mô hình này được thiết kế từ đầu để hỗ trợ liền mạch nhiều tác vụ thị giác, bao gồm nhận diện đối tượng, phân đoạn cá thể, ước tính tư thế và phân loại ảnh.

Kiến trúc này giới thiệu đầu dò không cần anchor (anchor-free), giúp giảm đáng kể số lượng hộp dự đoán và tăng tốc Non-Maximum Suppression (NMS). Phần backbone của nó sử dụng module C2f mới (Cross-Stage Partial bottleneck với hai phép tích chập) để cải thiện luồng gradient trong quá trình huấn luyện trong khi vẫn duy trì cấu trúc nhẹ. Điều này giúp YOLOv8 cực kỳ hiệu quả khi được biên dịch sang các định dạng như NVIDIA TensorRT hoặc ONNX.

Tìm hiểu thêm về YOLOv8

Link to this sectionEfficientDet#

Được viết bởi Mingxing Tan, Ruoming Pang và Quoc V. Le tại Google và ra mắt vào cuối năm 2019, EfficientDet tập trung vào hiệu suất có khả năng mở rộng. Được mô tả trong bài báo Arxiv chính thức, mô hình này tận dụng mạnh mẽ hệ sinh thái AutoML.

Đặc điểm xác định của EfficientDet là Bi-directional Feature Pyramid Network (BiFPN), cho phép kết hợp đặc trưng đa quy mô một cách dễ dàng và nhanh chóng. Kết hợp với backbone EfficientNet, kiến trúc này sử dụng phương pháp mở rộng quy mô hợp nhất (compound scaling) để đồng bộ hóa độ phân giải, độ sâu và độ rộng cho tất cả các mạng backbone, mạng đặc trưng và mạng dự đoán hộp/lớp cùng một lúc. Mặc dù điều này dẫn đến hiệu quả tham số tuyệt vời, cấu trúc mạng phức tạp thường gặp khó khăn để đạt được tốc độ thời gian thực tối ưu trên các GPU tiêu chuẩn.

Tìm hiểu thêm về EfficientDet

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Khi so sánh các trình nhận diện đối tượng, mean Average Precision (mAP) và độ trễ suy luận là các điểm chuẩn chính. Bảng dưới đây minh họa cách các biến thể YOLOv8 và dòng EfficientDet (d0-d7) so sánh trên các chỉ số tiêu chuẩn trên các tập dữ liệu như COCO.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
Phân tích cân bằng hiệu suất

Trong khi EfficientDet đạt độ chính xác đáng khen ngợi với ít FLOPs lý thuyết hơn, Ultralytics YOLOv8 chiếm ưu thế về tốc độ suy luận trên GPU thực tế. Ví dụ, YOLOv8x đạt mAP cao hơn một chút (53.9) so với EfficientDet-d7 (53.7) nhưng xử lý ảnh nhanh hơn đáng kể trên GPU T4 (14.37ms so với 128.07ms), biến YOLOv8 thành lựa chọn hiển nhiên cho phân tích video thời gian thực.

Link to this sectionPhương pháp huấn luyện và Hệ sinh thái#

Trải nghiệm nhà phát triển là yếu tố then chốt khi chọn kiến trúc học máy. Đây là nơi sự hỗ trợ từ cộng đồng nguồn mở và công cụ hệ sinh thái thực sự tạo nên sự khác biệt cho các mô hình này.

EfficientDet dựa nhiều vào TensorFlow và các pipeline AutoML chuyên dụng. Mặc dù hiệu quả cho việc huấn luyện đám mây phân tán quy mô lớn, việc thiết lập môi trường, điều chỉnh các anchor và phân tích các tệp cấu hình dày đặc trong kho lưu trữ GitHub EfficientDet có thể gây nản lòng cho các đội ngũ kỹ thuật đòi hỏi tốc độ cao.

Ngược lại, Ultralytics YOLOv8 được xây dựng nguyên bản trên PyTorch, mang lại sự dễ sử dụng vượt trội. Các nhà phát triển có thể bắt đầu các vòng lặp huấn luyện phức tạp chỉ với một dòng mã Python hoặc lệnh CLI. Hơn nữa, các yêu cầu bộ nhớ mô hình trong quá trình huấn luyện được tối ưu hóa mạnh mẽ; YOLOv8 cho phép các nhà phát triển với GPU tiêu dùng thông thường huấn luyện các mô hình mạnh mẽ mà không gặp phải lỗi hết bộ nhớ (OOM) thường gây khó khăn cho các kiến trúc nặng về Transformer.

Việc tích hợp liền mạch với Ultralytics Platform giúp đưa điều này đi xa hơn nữa, cung cấp giao diện không cần mã (no-code) để chú thích tập dữ liệu, huấn luyện mô hình và triển khai lên đám mây chỉ bằng một cú nhấp chuột. Các tính năng như điều chỉnh siêu tham số tự động đảm bảo rằng bạn luôn đạt được độ chính xác tốt nhất có thể cho các tập dữ liệu tùy chỉnh của mình.

Link to this sectionVí dụ mã Python: Suy luận YOLOv8#

Chạy một trình nhận diện hiện đại bằng kho lưu trữ GitHub Ultralytics là cực kỳ đơn giản:

from ultralytics import YOLO

# Initialize the YOLOv8 model natively in PyTorch
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 example dataset
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference on an image URL
inference_results = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes
inference_results[0].show()

Link to this sectionThế hệ tiếp theo: Nâng cấp lên Ultralytics YOLO26#

Mặc dù YOLOv8 vẫn là một mô hình sản xuất rất mạnh mẽ, các nhà nghiên cứu và nhà phát triển đang tìm kiếm đỉnh cao của hiệu suất AI nên đánh giá Ultralytics YOLO26, được phát hành vào tháng 1 năm 2026.

YOLO26 định nghĩa lại mô hình nhận diện đối tượng bằng cách giới thiệu Thiết kế End-to-End NMS-Free nguyên bản. Bằng cách loại bỏ nhu cầu Non-Maximum Suppression trong quá trình xử lý hậu kỳ—một nút thắt cổ chai đã tồn tại từ các phiên bản YOLO đầu tiên—độ biến thiên về độ trễ gần như được loại bỏ hoàn toàn. Đây là một bước ngoặt cho việc triển khai trên các thiết bị công suất thấp.

Hơn nữa, YOLO26 tích hợp một số cải tiến huấn luyện đột phá:

  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến, sự kết hợp giữa SGD và Muon này đảm bảo quá trình huấn luyện cực kỳ ổn định và tỷ lệ hội tụ được đẩy nhanh đáng kể.
  • Suy luận CPU nhanh hơn tới 43%: Nhờ việc loại bỏ NMS và backbone được tối ưu hóa mạnh mẽ, YOLO26 đạt tốc độ chưa từng có trên các thiết bị biên chỉ sử dụng CPU mà không cần dựa vào các NPU chuyên dụng.
  • ProgLoss + STAL: Những hàm mất mát (loss function) tiên tiến này mang lại bước nhảy vọt đáng kể về độ chính xác nhận diện đối tượng nhỏ, khiến YOLO26 trở nên không thể thiếu cho hình ảnh trên không và các cảm biến IoT chính xác.
  • Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ hoàn toàn để đơn giản hóa đáng kể quy trình xuất sang các định dạng như OpenVINO và CoreML.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa các kiến trúc này cuối cùng phụ thuộc vào các ràng buộc triển khai và yêu cầu về tính kế thừa của bạn.

  • Chọn Ultralytics YOLOv8 nếu: Bạn đang xây dựng các ứng dụng thị giác máy tính hiện đại, linh hoạt đòi hỏi độ chính xác cao, suy luận GPU thời gian thực và trải nghiệm nhà phát triển không rào cản. Hiệu suất mạnh mẽ của nó trên các tác vụ phân loại, phân đoạn và nhận diện khiến nó trở thành một công cụ đa năng mạnh mẽ cho phân tích bán lẻ, robot và hệ thống an ninh.
  • Chọn EfficientDet nếu: Bạn bị giới hạn trong các quy trình làm việc TensorFlow kế thừa và mối quan tâm chính của bạn là giảm thiểu số lượng tham số và các FLOPs lý thuyết, có lẽ cho mục đích nghiên cứu thay vì triển khai công nghiệp thời gian thực nghiêm ngặt.
  • Chọn Ultralytics YOLO26 nếu: Bạn đang bắt đầu một dự án mới và yêu cầu những gì tốt nhất. Kiến trúc NMS-free end-to-end nguyên bản của nó khiến nó trở thành lựa chọn tối ưu cho cả việc triển khai biên siêu nhanh và xử lý đám mây nặng.

Nếu bạn đang khám phá các framework mạnh mẽ khác trong hệ sinh thái Ultralytics, bạn cũng có thể cân nhắc Ultralytics YOLO11 cho hiệu suất kế thừa cân bằng hoặc RT-DETR cho cách tiếp cận dựa trên Transformer đối với nhận diện thời gian thực.

Những người đóng góp

Bình luận