Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh YOLOX và YOLO11#

Sự phát triển của thị giác máy tính đã được thúc đẩy mạnh mẽ bởi việc theo đuổi các framework phát hiện đối tượng thời gian thực nhằm cân bằng giữa độ chính xác cao và tốc độ inference. Một trong những cột mốc đáng chú ý nhất trong hành trình này là YOLOXUltralytics YOLO11. Mặc dù cả hai model đều có những đóng góp quan trọng cho lĩnh vực này, các kiến trúc cơ bản, triết lý thiết kế và hệ sinh thái dành cho nhà phát triển của chúng lại khác biệt đáng kể.

Bài so sánh kỹ thuật toàn diện này khám phá các kiến trúc, số liệu hiệu suất, phương pháp đào tạo và các kịch bản triển khai lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho dự án trí tuệ nhân tạo tiếp theo của mình.

Link to this sectionTổng quan về YOLOX#

Được giới thiệu bởi các nhà nghiên cứu Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun tại Megvii vào ngày 18 tháng 7 năm 2021, YOLOX đại diện cho một sự thay đổi đáng kể trong dòng YOLO. Nó đã thu hẹp thành công khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp bằng cách giới thiệu một thiết kế không cần neo (anchor-free).

Để biết thêm thông tin kỹ thuật, bạn có thể xem lại bài báo YOLOX Arxiv gốc.

Link to this sectionCác tính năng kiến trúc chính#

YOLOX đã tách rời khỏi phương pháp phát hiện dựa trên neo truyền thống bằng cách áp dụng một head tách rời và cơ chế không cần neo. Thiết kế này đã giảm số lượng tham số thiết kế và cải thiện hiệu suất của model trên nhiều benchmark khác nhau. Ngoài ra, nó cũng giới thiệu các chiến lược gán nhãn tiên tiến như SimOTA để tăng tốc quy trình đào tạo và cải thiện khả năng hội tụ.

Mặc dù YOLOX mang lại độ chính xác tuyệt vời vào thời điểm ra mắt, nó chủ yếu tập trung vào phát hiện đối tượng theo BBox và thiếu hỗ trợ mặc định cho các tác vụ thị giác phức tạp khác.

Tìm hiểu thêm về YOLOX

Thiết kế không cần neo (Anchor-Free)

Bằng cách loại bỏ các anchor box định sẵn, YOLOX đã giảm đáng kể việc điều chỉnh heuristic cần thiết cho các tập dữ liệu khác nhau, khiến nó trở thành một nền tảng cơ sở mạnh mẽ cho nghiên cứu về các phương pháp luận không cần neo.

Link to this sectionTổng quan về Ultralytics YOLO11#

Được ra mắt vào ngày 27 tháng 9 năm 2024 bởi Glenn Jocher và Jing Qiu tại Ultralytics, YOLO11 là một model hiện đại, định nghĩa lại sự linh hoạt và tính dễ sử dụng trong thị giác máy tính. Được xây dựng dựa trên nhiều năm nghiên cứu nền tảng, nó cung cấp một giải pháp đã được tinh chỉnh cao, sẵn sàng cho sản xuất và vượt trội trong vô số tác vụ.

Link to this sectionLợi thế từ Ultralytics#

YOLO11 không chỉ là một trình phát hiện đối tượng; nó là một framework hợp nhất hỗ trợ instance segmentation, image classification, pose estimation và phát hiện oriented bounding box (OBB). Nó sở hữu một kiến trúc hiệu quả cao, ưu tiên sự cân bằng liền mạch giữa tốc độ, số lượng tham số và độ chính xác.

Hơn nữa, YOLO11 được tích hợp hoàn toàn vào Ultralytics Platform, cung cấp một hệ sinh thái được sắp xếp hợp lý cho việc gán nhãn dữ liệu, đào tạo model và triển khai.

Tìm hiểu thêm về YOLO11

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Khi so sánh các model này, sự cân bằng về hiệu suất trở nên rõ ràng. YOLO11 đạt được mAP cao hơn với số lượng tham số và FLOPs ít hơn đáng kể trong hầu hết các hạng mục kích thước so với các model YOLOX tương ứng.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Như đã chứng minh, các model YOLO11 liên tục vượt trội hơn YOLOX về độ chính xác trong khi vẫn duy trì quy mô tham số tinh gọn hơn. Ví dụ, YOLO11m đạt được 51.5 mAP chỉ với 20.1M tham số, trong khi YOLOXx đạt được 51.1 mAP tương đương nhưng yêu cầu tới 99.1M tham số. Hiệu quả bộ nhớ này trong quá trình đào tạo và inference khiến YOLO11 rất phù hợp để triển khai trên các thiết bị AI biên, tránh các yêu cầu bộ nhớ CUDA nặng nề thường thấy ở các model cũ hoặc dựa trên Transformer như RT-DETR.

Huấn luyện hiệu quả

Các model của Ultralytics yêu cầu ít bộ nhớ GPU hơn đáng kể trong quá trình đào tạo so với YOLOX và các kiến trúc dựa trên Transformer, cho phép các nhà nghiên cứu đào tạo các model mạnh mẽ trên phần cứng tiêu dùng tiêu chuẩn.

Link to this sectionHệ sinh thái và tính dễ sử dụng#

Một trong những khác biệt rõ rệt nhất giữa hai framework là trải nghiệm dành cho nhà phát triển.

YOLOX thường yêu cầu sao chép các repository, thiết lập môi trường phức tạp và chạy các tham số CLI dài dòng để đào tạo và xuất model sang các định dạng như ONNX hoặc TensorRT.

Ngược lại, Ultralytics YOLO11 cung cấp API Python và CLI cực kỳ đơn giản. Thư viện Ultralytics tự động xử lý việc data augmentation, hyperparameter tuning và xuất file.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")

Hệ sinh thái được bảo trì tốt này được hỗ trợ bởi tài liệu phong phú và khả năng tích hợp liền mạch với các công cụ như Weights & Biases cho experiment tracking.

Link to this sectionCác trường hợp sử dụng lý tưởng#

Việc lựa chọn giữa các model này thường phụ thuộc vào các đặc thù của môi trường triển khai.

Link to this sectionKhi nào nên sử dụng YOLOX#

  • Hệ thống kế thừa (Legacy Systems): Nếu bạn có một pipeline đã được thiết lập rõ ràng xoay quanh framework MegEngine hoặc các mô hình phát hiện đối tượng từ đầu năm 2021.
  • Cơ sở học thuật (Academic Baselines): Khi thực hiện nghiên cứu yêu cầu benchmark trực tiếp so với các kiến trúc cơ sở không cần neo từ kỷ nguyên 2021.

Link to this sectionKhi nào nên sử dụng YOLO11#

  • Triển khai sản xuất (Production Deployments): Cho các ứng dụng thương mại trong bán lẻ thông minh hoặc hệ thống báo động an ninh, nơi mã nguồn mạnh mẽ, được bảo trì và độ chính xác cao là yếu tố tiên quyết.
  • Pipeline đa tác vụ (Multi-Task Pipelines): Khi một dự án yêu cầu theo dõi đối tượng, ước tính tư thế người và phân đoạn các instance bằng cách sử dụng một framework hợp nhất duy nhất.
  • Thiết bị biên bị hạn chế tài nguyên: Nhờ số lượng tham số thấp và thông lượng cao, YOLO11 là lựa chọn lý tưởng để triển khai trên Raspberry Pi hoặc các node biên di động thông qua CoreMLNCNN.

Link to this sectionHướng tới tương lai: Lợi thế của YOLO26#

Trong khi YOLO11 đại diện cho một bước tiến lớn so với YOLOX, lĩnh vực thị giác máy tính đang tiến bộ nhanh chóng. Đối với các nhà phát triển bắt đầu dự án mới ngay hôm nay, Ultralytics YOLO26 là khuyến nghị chính xác nhất.

Được ra mắt vào tháng 1 năm 2026, YOLO26 tiếp thu sự xuất sắc về kiến trúc của YOLO11 và giới thiệu một số tính năng đột phá:

  • Thiết kế NMS-Free End-to-End: YOLO26 loại bỏ quá trình hậu xử lý Non-Maximum Suppression (NMS), phát trực tiếp inference để có các pipeline triển khai nhanh hơn và đơn giản hơn (một khái niệm lần đầu được khám phá trong YOLOv10).
  • Tốc độ CPU Inference nhanh hơn tới 43%: Thông qua việc loại bỏ Distribution Focal Loss (DFL), YOLO26 hiệu quả hơn đáng kể trên CPU và các thiết bị biên tiêu thụ điện năng thấp.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các cải tiến đào tạo LLM từ Moonshot AI, trình tối ưu hóa MuSGD đảm bảo quá trình đào tạo ổn định cao và hội tụ nhanh chóng.
  • Hàm Loss tiên tiến: Sử dụng ProgLoss + STAL, YOLO26 đạt được những cải tiến đáng chú ý trong việc nhận diện đối tượng nhỏ, điều quan trọng cho hình ảnh từ drone và robotics tự hành.

Đối với đại đa số các tác vụ thị giác máy tính hiện đại, việc nâng cấp pipeline của bạn để tận dụng YOLO26 sẽ mang lại sự cân bằng tuyệt đối giữa tốc độ, độ chính xác và sự đơn giản khi triển khai.

Người đóng góp

Bình luận