Chuyển đến nội dung

YOLOX so với YOLO11 Khám phá chuyên sâu về phát hiện đối tượng hiệu năng cao

Sự phát triển của thị giác máy tính được thúc đẩy mạnh mẽ bởi việc theo đuổi các khung phát hiện đối tượng thời gian thực, cân bằng giữa độ chính xác cao và tốc độ suy luận. Trong số những cột mốc đáng chú ý nhất trong hành trình này là YOLOXUltralytics YOLO11 . Mặc dù cả hai mô hình đều đã đóng góp đáng kể cho lĩnh vực này, nhưng kiến ​​trúc cơ bản, triết lý thiết kế và hệ sinh thái nhà phát triển của chúng lại khác biệt đáng kể.

Bản so sánh kỹ thuật toàn diện này sẽ khám phá kiến ​​trúc, các chỉ số hiệu năng, phương pháp huấn luyện và các kịch bản triển khai lý tưởng của chúng, giúp bạn đưa ra quyết định sáng suốt cho dự án trí tuệ nhân tạo tiếp theo của mình.

Tổng quan về YOLOX

Được giới thiệu bởi các nhà nghiên cứu Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun tại Megvii vào ngày 18 tháng 7 năm 2021, YOLOX đại diện cho một sự thay đổi đáng kể trong... YOLO Loạt sản phẩm này đã thành công trong việc thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp bằng cách giới thiệu thiết kế không cần neo.

Để có thêm thông tin kỹ thuật chi tiết, bạn có thể xem lại bài báo gốc của YOLOX trên Arxiv .

Các tính năng kiến trúc chính

YOLOX đã khác biệt so với phương pháp phát hiện dựa trên anchor truyền thống bằng cách áp dụng cơ chế đầu tách rời và không cần anchor. Thiết kế này đã giảm số lượng tham số thiết kế và cải thiện hiệu suất của mô hình trên nhiều bộ dữ liệu chuẩn. Ngoài ra, nó còn giới thiệu các chiến lược gán nhãn tiên tiến như SimOTA để tăng tốc quá trình huấn luyện và cải thiện khả năng hội tụ.

Mặc dù YOLOX cung cấp độ chính xác tuyệt vời so với thời điểm đó, nhưng nó chủ yếu tập trung vào phát hiện đối tượng trong khung bao và thiếu hỗ trợ gốc cho các tác vụ thị giác phức tạp khác.

Tìm hiểu thêm về YOLOX

Thiết kế không neo

Bằng cách loại bỏ các hộp neo được xác định trước, YOLOX đã giảm đáng kể việc điều chỉnh thuật toán cần thiết cho các tập dữ liệu khác nhau, tạo nên một nền tảng vững chắc cho nghiên cứu về các phương pháp không sử dụng hộp neo.

Tổng quan về Ultralytics YOLO11

Được phát hành vào ngày 27 tháng 9 năm 2024 bởi Glenn Jocher và Jing Qiu tại Ultralytics . YOLO11 Đây là một mô hình tiên tiến định nghĩa lại tính linh hoạt và dễ sử dụng trong lĩnh vực thị giác máy tính. Được xây dựng dựa trên nhiều năm nghiên cứu nền tảng, nó cung cấp một giải pháp hoàn thiện cao, sẵn sàng cho sản xuất, vượt trội trong nhiều tác vụ khác nhau.

Lợi thế của Ultralytics

YOLO11 Đây không chỉ là một công cụ phát hiện đối tượng; nó là một khung phần mềm thống nhất hỗ trợ phân đoạn đối tượng , phân loại hình ảnh , ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) . Nó sở hữu một kiến ​​trúc hiệu quả cao, ưu tiên sự cân bằng hoàn hảo giữa tốc độ, số lượng tham số và độ chính xác.

Hơn nữa, YOLO11 Nó được tích hợp hoàn toàn vào Nền tảng Ultralytics , cung cấp một hệ sinh thái hợp lý cho việc chú thích dữ liệu, huấn luyện mô hình và triển khai.

Tìm hiểu thêm về YOLO11

So sánh hiệu năng và số liệu

Khi so sánh các mô hình này, sự cân bằng về hiệu năng trở nên rõ ràng. YOLO11 đạt được độ chính xác trung bình cao hơn ( mAP ) với số lượng tham số và FLOPs ít hơn đáng kể ở hầu hết các loại kích thước so với các sản phẩm tương đương của YOLOX.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Như đã chứng minh, YOLO11 Các mô hình này luôn cho hiệu suất vượt trội hơn YOLOX về độ chính xác trong khi vẫn duy trì số lượng tham số ít hơn. Ví dụ, YOLO11m đạt được 51,5 mAP chỉ với 20,1 triệu tham số , trong khi YOLOXx đạt được con số tương tự là 51,1 triệu. mAP nhưng lại yêu cầu tới 99,1 triệu tham số . Hiệu quả bộ nhớ này trong quá trình huấn luyện và suy luận tạo nên YOLO11 Rất phù hợp để triển khai trên các thiết bị AI biên, tránh được chi phí lớn. CUDA Yêu cầu bộ nhớ điển hình của các mẫu cũ hơn hoặc dựa trên biến áp như RT-DETR .

Huấn luyện Hiệu quả

Ultralytics các mô hình yêu cầu ít hơn đáng kể GPU So với YOLOX và các kiến ​​trúc dựa trên Transformer, bộ nhớ trong quá trình huấn luyện được tiết kiệm hơn, cho phép các nhà nghiên cứu huấn luyện các mô hình mạnh mẽ trên phần cứng tiêu dùng thông thường.

Hệ sinh thái và Dễ sử dụng

Một trong những điểm khác biệt nổi bật nhất giữa hai framework này là trải nghiệm của nhà phát triển.

YOLOX thường yêu cầu sao chép kho lưu trữ, thiết lập môi trường phức tạp và chạy các lệnh dòng lệnh chi tiết để huấn luyện và xuất mô hình sang các định dạng như ONNX hoặc TensorRT .

Ngược lại hoàn toàn, Ultralytics YOLO11 cung cấp một giao diện vô cùng đơn giản. Python API và CLI . Cái Ultralytics Thư viện này tự động xử lý việc tăng cường dữ liệu , điều chỉnh siêu tham số và xuất dữ liệu.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")

Hệ sinh thái được duy trì tốt này được hỗ trợ bởi tài liệu đầy đủ và khả năng tích hợp liền mạch với các công cụ như Weights & Biases để theo dõi thí nghiệm .

Các trường hợp sử dụng lý tưởng

Việc lựa chọn giữa các mô hình này thường phụ thuộc vào các đặc thù của môi trường triển khai.

Khi nào nên sử dụng YOLOX?

  • Hệ thống cũ: Nếu bạn có một quy trình đã được thiết lập, được xây dựng rõ ràng dựa trên khung MegEngine hoặc các mô hình phát hiện đối tượng đầu năm 2021.
  • Tiêu chuẩn học thuật: Khi tiến hành nghiên cứu cần so sánh trực tiếp với các kiến ​​trúc không cần neo cơ bản từ thời kỳ năm 2021.

Khi nào nên sử dụng YOLO11

  • Ứng dụng trong môi trường sản xuất: Dành cho các ứng dụng thương mại trong lĩnh vực bán lẻ thông minh hoặc hệ thống báo động an ninh , nơi mà mã nguồn mạnh mẽ, được bảo trì thường xuyên và độ chính xác cao là điều không thể thiếu.
  • Quy trình xử lý đa nhiệm: Khi một dự án yêu cầu theo dõi đối tượng, ước tính tư thế người và phân đoạn các đối tượng bằng một khung làm việc thống nhất duy nhất.
  • Các thiết bị biên có tài nguyên hạn chế: Do số lượng tham số thấp và thông lượng cao, YOLO11 Giải pháp này lý tưởng để triển khai trên Raspberry Pi hoặc các thiết bị biên di động thông qua CoreMLNCNN .

Hướng tới tương lai: Lợi thế của YOLO26

Trong khi YOLO11 Ultralytics YOLO26 thể hiện một bước tiến vượt bậc so với YOLOX, lĩnh vực thị giác máy tính đang phát triển nhanh chóng. Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, Ultralytics YOLO26 là sự lựa chọn tối ưu.

Ra mắt vào tháng 1 năm 2026, YOLO26 kế thừa sự xuất sắc về kiến ​​trúc của YOLO11 và giới thiệu một số tính năng đột phá:

  • Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hiện tượng triệt tiêu cực đại không cần thiết (Non-Maximum Suppression) NMS ) xử lý hậu kỳ, suy luận truyền phát trực tiếp để có quy trình triển khai nhanh hơn, đơn giản hơn (một khái niệm lần đầu tiên được khám phá trong YOLOv10 ).
  • Suy luận CPU nhanh hơn tới 43%: Nhờ loại bỏ tổn hao tiêu điểm phân tán (DFL), YOLO26 hoạt động hiệu quả hơn đáng kể trên CPU và các thiết bị biên công suất thấp.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM của Moonshot AI, bộ tối ưu hóa MuSGD đảm bảo các quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh chóng.
  • Các hàm mất mát nâng cao: Bằng cách sử dụng ProgLoss + STAL, YOLO26 đạt được những cải tiến đáng kể trong nhận dạng vật thể nhỏ, điều này rất quan trọng đối với hình ảnh từ máy bay không người lái và robot tự hành.

Đối với phần lớn các tác vụ thị giác máy tính hiện đại, việc nâng cấp hệ thống xử lý dữ liệu của bạn để tận dụng YOLO26 sẽ mang lại sự cân bằng tối ưu nhất giữa tốc độ, độ chính xác và tính đơn giản trong triển khai.


Bình luận