YOLOX so với YOLO26: Sự tiến hóa từ phát hiện đối tượng không cần neo đến phát hiện đối tượng từ đầu đến cuối
Lĩnh vực thị giác máy tính đã chứng kiến sự chuyển đổi nhanh chóng trong nửa thập kỷ qua, từ các kiến trúc dựa trên điểm neo phức tạp sang các thiết kế không dựa trên điểm neo được đơn giản hóa, và cuối cùng đạt đến các hệ thống đầu cuối hoàn chỉnh. Bài so sánh này đi sâu vào những khác biệt kỹ thuật giữa YOLOX , một mô hình không dựa trên điểm neo quan trọng được phát hành năm 2021, và YOLO26 , bộ dò đầu cuối hiện đại nhất (SOTA) được ra mắt bởi... Ultralytics vào năm 2026.
Trong khi YOLOX đã thiết lập một tiêu chuẩn cao về nghiên cứu và hiệu năng vào thời điểm đó, YOLO26 giới thiệu những tối ưu hóa đột phá như suy luận không cần NMS và trình tối ưu hóa MuSGD , khiến nó trở thành lựa chọn vượt trội cho các môi trường sản xuất hiện đại yêu cầu độ trễ thấp và độ chính xác cao.
YOLOX: Người tiên phong không neo
Được các nhà nghiên cứu tại Megvii phát hành vào tháng 7 năm 2021, YOLOX đánh dấu một bước ngoặt đáng kể so với logic dựa trên neo vốn thống trị các hệ thống trước đó. YOLO các lần lặp (như YOLOv4 và YOLOv5 Bằng cách loại bỏ các hộp neo, các tác giả nhằm mục đích đơn giản hóa quy trình thiết kế và giảm bớt gánh nặng điều chỉnh siêu tham số liên quan đến việc phân cụm neo.
Các Tính năng Kỹ thuật Chính:
- Cơ chế không cần neo: Loại bỏ sự cần thiết phải xác định trước các hộp neo, coi việc phát hiện đối tượng như một bài toán hồi quy điểm.
- Phân tách đầu mạng: Tách biệt nhiệm vụ phân loại và định vị thành các nhánh khác nhau của đầu mạng, giúp cải thiện tốc độ hội tụ và độ chính xác.
- SimOTA: Một chiến lược gán nhãn nâng cao có tên là Gán vận chuyển tối ưu đơn giản hóa, tự động gán các mẫu tích cực cho các dữ liệu thực tế.
Mặc dù mang tính đột phá, YOLOX vẫn dựa vào phương pháp loại bỏ cực đại không tương thích (Non-Maximum Suppression - NMS ) truyền thống để xử lý hậu kỳ. Bước này loại bỏ các hộp giới hạn trùng lặp nhưng lại gây ra sự biến đổi về độ trễ và chi phí tính toán, điều này có thể trở thành nút thắt cổ chai trong các ứng dụng yêu cầu thời gian thực nghiêm ngặt.
Thông tin chi tiết về mẫu sản phẩm:
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Ngày: 2021-07-18
- Liên kết: YOLOX Arxiv | YOLOX GitHub
YOLO26: Tiêu chuẩn đầu cuối
Được Ultralytics ra mắt vào tháng 1 năm 2026, YOLO26 đại diện cho đỉnh cao về hiệu quả trong lĩnh vực thị giác máy tính. Nó từ bỏ phương pháp truyền thống. NMS Toàn bộ quy trình xử lý hậu kỳ được thiết kế hoàn toàn độc lập với hệ thống quản lý NMS . Kiến trúc này cho phép mô hình xuất trực tiếp tập hợp các đối tượng được phát hiện cuối cùng, giảm đáng kể độ trễ và đơn giản hóa logic triển khai.
Các Tính năng Kỹ thuật Chính:
- Kiến trúc NMS -Free: Loại bỏ chi phí tính toán của việc sắp xếp và lọc hàng nghìn hộp ứng cử viên, dẫn đến thời gian suy luận ổn định và có thể dự đoán được.
- Trình tối ưu hóa MuSGD: Một trình tối ưu hóa lai kết hợp SGD Với Muon (lấy cảm hứng từ những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn như Kimi K2 của Moonshot AI). Điều này đảm bảo động lực huấn luyện ổn định hơn và hội tụ nhanh hơn.
- Loại bỏ DFL: Việc loại bỏ hiện tượng suy hao tiêu điểm phân bố (DFL) giúp đơn giản hóa mô hình đầu đọc, làm cho nó tương thích hơn với các thiết bị biên và công cụ lượng tử hóa.
- ProgLoss + STAL: Các hàm mất mát nâng cao (Programmatic Loss và Scale-Theoretic Alignment Loss) giúp cải thiện đáng kể khả năng nhận dạng vật thể nhỏ — một khả năng quan trọng đối với ảnh chụp từ máy bay không người lái và kiểm tra công nghiệp.
Thông tin chi tiết về mẫu sản phẩm:
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2026-01-14
- Liên kết: Tài liệu YOLO26 | GitHub Ultralytics
Tại sao End-to-End quan trọng
Các mô hình cũ như YOLOX tạo ra hàng ngàn hộp dư thừa cần được lọc bằng phương pháp loại bỏ các giá trị không tối đa (Non-Maximum Suppression). NMS Quá trình này là ). CPU - Việc xử lý tốn nhiều tài nguyên và khó tối ưu hóa trên các bộ tăng tốc phần cứng như TPU hoặc NPU. Thiết kế đầu cuối của YOLO26 loại bỏ bước này, cho phép mạng nơ-ron đưa ra kết quả cuối cùng trực tiếp. Điều này giúp tăng tốc độ suy luận trên CPU lên đến 43% so với các thế hệ trước.
So sánh hiệu suất
Bảng sau đây nêu bật sự khác biệt về hiệu năng giữa hai kiến trúc. YOLO26 thể hiện độ chính xác vượt trội ( mAP và hiệu quả, đặc biệt là ở các phiên bản Nano và Small được sử dụng cho các ứng dụng AI biên .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Lưu ý: Tốc độ của YOLOX thường chậm hơn trên phần cứng hiện đại do... NMS chi phí phát sinh, trong khi số liệu của YOLO26 bao gồm toàn bộ thời gian xử lý hậu kỳ.
Tìm hiểu sâu về kiến trúc
Xương sống và Đầu
YOLOX sử dụng kiến trúc xương sống CSPDarknet đã được sửa đổi, tập trung vào việc tách rời đầu phát hiện. Mặc dù hiệu quả, việc tách rời này làm tăng đáng kể số lượng tham số so với các thiết kế đầu phát hiện dùng chung của các mô hình trước đó.
Ngược lại, YOLO26 sử dụng một kiến trúc xương sống được tối ưu hóa cao, được thiết kế dựa trên các khái niệm Tìm kiếm Kiến trúc Thần kinh (NAS). Cấu trúc đầu của nó được tinh giản bằng cách loại bỏ DFL, điều này không chỉ làm giảm kích thước mô hình mà còn hoàn toàn phù hợp với các bộ tăng tốc phần cứng gặp khó khăn với các lớp đầu ra phức tạp. Điều này giúp việc xuất sang TensorRT hoặc ONNX diễn ra liền mạch.
Hàm mất mát và Huấn luyện
YOLOX đã giới thiệu SimOTA để giải quyết vấn đề gán nhãn một cách động. Tuy nhiên, nó vẫn dựa trên các hàm mất mát tiêu chuẩn. YOLO26 đã cải tiến điều này bằng cách tích hợp ProgLoss (Programmatic Loss) và STAL (Scale-Theoretic Alignment Loss). Các hàm mất mát này tự động điều chỉnh hình phạt cho các lỗi hộp giới hạn dựa trên kích thước đối tượng và giai đoạn huấn luyện, khắc phục điểm yếu cố hữu của các hàm mất mát tiêu chuẩn. YOLO các mô hình trong việc phát hiện các vật thể nhỏ như người đi bộ ở xa hoặc các lỗi sản xuất.
Hơn nữa, trình tối ưu hóa MuSGD trong YOLO26 mang các kỹ thuật ổn định từ thế giới LLM vào lĩnh vực thị giác. Bằng cách chuẩn hóa các bản cập nhật trên các lớp hiệu quả hơn so với các phương pháp tiêu chuẩn. SGD YOLO26 đạt được độ chính xác cao hơn với số lượng epoch huấn luyện ít hơn.
Các trường hợp sử dụng lý tưởng
Khi nào nên sử dụng YOLOX?
YOLOX vẫn là một nguồn tham khảo có giá trị trong giới học thuật.
- Các tiêu chuẩn nghiên cứu: Cấu trúc rõ ràng, không có điểm neo của nó làm cho nó trở thành một tiêu chuẩn tuyệt vời cho các nhà nghiên cứu nghiên cứu các chiến lược gán nhãn.
- Các dự án cũ: Các hệ thống đã tích hợp sâu rộng với MegEngine hoặc các phiên bản YOLOX cụ thể có thể gặp khó khăn trong việc chuyển đổi ngay lập tức.
Khi nào nên sử dụng YOLO26
YOLO26 là sự lựa chọn được khuyến nghị cho hầu hết các ứng dụng thương mại và công nghiệp mới.
- Điện toán biên: Với khả năng suy luận CPU nhanh hơn tới 43% , YOLO26 lý tưởng cho Raspberry Pi, Jetson Nano và các thiết bị di động không có GPU.
- Robot và Hệ thống Tự hành: Thiết kế không sử dụng NMS giúp loại bỏ hiện tượng tăng đột biến độ trễ do môi trường phức tạp (ví dụ: robot di chuyển trong nhà kho đông đúc), đảm bảo thời gian phản hồi ổn định.
- Kiểm tra độ chính xác cao: Sự kết hợp giữa ProgLoss và STAL giúp YOLO26 vượt trội trong các nhiệm vụ kiểm soát chất lượng liên quan đến các khuyết tật nhỏ nhất.
- Ứng dụng đa nhiệm: Không giống như YOLOX, chủ yếu là một thiết bị dò tìm, Ultralytics Hệ sinh thái hỗ trợ YOLO26 cho Phân đoạn đối tượng , Ước tính tư thế và Hộp giới hạn định hướng (OBB) .
Lợi thế của Ultralytics
Việc lựa chọn YOLO26 cũng đồng nghĩa với việc bạn có quyền truy cập vào hệ sinh thái Ultralytics toàn diện. Mặc dù YOLOX cung cấp một kho lưu trữ độc lập, Ultralytics Cung cấp một khuôn khổ thống nhất giúp đơn giản hóa toàn bộ vòng đời của trí tuệ nhân tạo.
- Dễ sử dụng: Tính nhất quán Python API cho phép bạn chuyển đổi giữa các tác vụ ( detect , segment , tư thế) và mô hình (YOLO26, YOLO11 , RT-DETR ) bằng cách thay đổi một dòng mã duy nhất.
- Hiệu quả đào tạo: Ultralytics Các mô hình được tối ưu hóa về hiệu quả bộ nhớ trong quá trình huấn luyện. Bạn có thể huấn luyện các lô dữ liệu lớn hơn trên GPU dành cho người tiêu dùng so với các kiến trúc cũ hơn hoặc các mô hình Transformer nặng.
- Nền tảng Ultralytics : Nền tảng Ultralytics cung cấp giao diện dựa trên web để quản lý tập dữ liệu, tự động chú thích và huấn luyện mô hình chỉ với một cú nhấp chuột, giúp đơn giản hóa quá trình cộng tác giữa các nhóm.
- Hệ sinh thái được duy trì tốt: Với các bản cập nhật thường xuyên, tài liệu đầy đủ và sự hỗ trợ tích cực từ cộng đồng, các nhà phát triển sẽ không bao giờ phải tự mình gỡ lỗi.
Ví dụ mã
Việc chạy YOLO26 rất đơn giản bằng cách sử dụng... ultralytics gói. Ví dụ sau đây minh họa cách tải một mô hình đã được huấn luyện trước và chạy suy luận trên một hình ảnh.
from ultralytics import YOLO
# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")
# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)
# Display the results
for result in results:
result.show() # Show image in a window
# Print boxes to console
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")
Kết luận
Cả YOLOX và YOLO26 đều đại diện cho những cột mốc quan trọng trong lịch sử phát hiện đối tượng. YOLOX đã thách thức thành công mô hình dựa trên anchor vào năm 2021, chứng minh rằng các mô hình không dùng anchor vẫn có thể đạt hiệu suất hàng đầu. Tuy nhiên, YOLO26 định nghĩa lại tiêu chuẩn cho năm 2026 bằng cách giải quyết vấn đề "chặng cuối" của suy luận: NMS Nút thắt cổ chai.
Với kiến trúc đầu cuối toàn diện , bộ tối ưu hóa MuSGD và các hàm mất mát chuyên dụng, YOLO26 mang đến sự cân bằng giữa tốc độ, độ chính xác và tính dễ sử dụng mà không giải pháp nào sánh kịp. Đối với các nhà phát triển đang tìm kiếm giải pháp thị giác máy tính mạnh mẽ—cho dù trên các máy chủ đám mây mạnh mẽ hay các thiết bị biên có tài nguyên hạn chế— YOLO26 là sự lựa chọn tối ưu.
Đối với những ai quan tâm đến việc khám phá các kiến trúc hiện đại khác, hãy xem xét YOLO11 để phát hiện mục đích chung hoặc RT-DETR cho các ứng dụng dựa trên bộ biến đổi.