YOLOX so với YOLO26: Sự tiến hóa từ phát hiện đối tượng không cần neo đến phát hiện đối tượng từ đầu đến cuối
Lĩnh vực thị giác máy tính đã chứng kiến những chuyển đổi đáng kinh ngạc trong thập kỷ qua. Hai cột mốc quan trọng trong hành trình này là sự ra mắt của YOLOX, phần mềm đã phổ biến kiến trúc không cần neo (anchor-free architectures), và sự ra mắt gần đây của Ultralytics YOLO26 , phần mềm đã định nghĩa lại hoàn toàn hiệu năng thời gian thực với khả năng xử lý từ đầu đến cuối một cách tự nhiên. NMS - Thiết kế miễn phí. Bản so sánh toàn diện này khám phá kiến trúc, số liệu hiệu năng và các kịch bản triển khai lý tưởng của chúng để giúp các nhà phát triển đưa ra quyết định sáng suốt cho dự án AI tiếp theo của họ.
Tổng quan về mô hình
Việc hiểu rõ nguồn gốc và mục tiêu thiết kế chính của từng mẫu xe sẽ cung cấp bối cảnh cần thiết cho những thành tựu kỹ thuật tương ứng của chúng.
YOLOX
Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Ngày: 2021-07-18
Arxiv: 2107.08430
GitHub: Megvii-BaseDetection/YOLOX
Tài liệu: YOLOX ReadTheDocs
Được giới thiệu vào giữa năm 2021, YOLOX đại diện cho một sự thay đổi lớn bằng cách áp dụng thiết kế không cần neo kết hợp với đầu tách rời và chiến lược gán nhãn tiên tiến được gọi là SimOTA. Bằng cách loại bỏ các cơ chế hộp neo truyền thống thống trị các kiến trúc trước đây, YOLOX đã thành công trong việc thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, cung cấp một khung làm việc thanh lịch nhưng hiệu quả cao cho việc phát hiện đối tượng .
YOLO26
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2026-01-14
GitHub: ultralytics/ultralytics
Nền tảng: Nền tảng Ultralytics
Ra mắt vào đầu năm 2026, YOLO26 là thành quả của nhiều năm cải tiến liên tục, tập trung mạnh vào triển khai tại biên và đơn giản hóa quy trình huấn luyện. Nó giới thiệu thiết kế không sử dụng NMS từ đầu đến cuối , loại bỏ hoàn toàn bước xử lý hậu kỳ Non-Maximum Suppression truyền thống. Bước đột phá này giúp đơn giản hóa đáng kể việc triển khai mô hình trên nhiều phần cứng khác nhau. Hơn nữa, bằng cách loại bỏ mô-đun Distribution Focal Loss (DFL), YOLO26 đạt được độ trễ thấp hơn đáng kể, củng cố vị thế là lựa chọn hàng đầu cho các ứng dụng thị giác máy tính hiện đại.
Đổi mới Kiến trúc
Kiến trúc của hai mô hình này làm nổi bật sự tiến bộ nhanh chóng của các phương pháp học sâu, đặc biệt là về hàm mất mát và xử lý hậu kỳ.
Phương pháp YOLOX
YOLOX đã tách biệt các tác vụ phân loại và hồi quy trong phần dự đoán của nó, điều này giúp tăng tốc đáng kể quá trình hội tụ trong quá trình huấn luyện. Bản chất không sử dụng anchor của nó đã giảm số lượng tham số thiết kế, giảm thiểu nhu cầu tinh chỉnh anchor phức tạp trước khi huấn luyện. Kết hợp với thuật toán gán nhãn SimOTA, YOLOX đã đạt được kết quả vượt trội so với thời điểm đó, đặc biệt là trên các bộ dữ liệu chuẩn như COCO .
Lợi thế của YOLO26
YOLO26 đưa hiệu quả kiến trúc lên một tầm cao mới. Việc loại bỏ NMS Điều này không chỉ giúp giảm độ trễ suy luận mà còn đảm bảo thời gian thực thi nhất quán và có tính xác định — một yếu tố quan trọng đối với xe tự hành và robot.
Các cải tiến quan trọng của YOLO26 bao gồm:
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM), sự kết hợp giữa SGD và Muon này đảm bảo các lần huấn luyện cực kỳ ổn định và khả năng hội tụ nhanh hơn.
- Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ DFL và tinh gọn kiến trúc mạng, YOLO26 được tối ưu hóa mạnh mẽ cho các thiết bị biên bị hạn chế tài nguyên, từ các cảm biến IoT đơn giản đến các bo mạch Raspberry Pi.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, điều này rất quan trọng để phân tích hình ảnh trên không và thực hiện kiểm soát chất lượng chính xác trong tự động hóa sản xuất.
Tối ưu hóa ưu tiên cạnh
Nếu dự án của bạn nhắm đến các hệ thống nhúng hoặc ứng dụng di động không có GPU chuyên dụng, YOLO26 sẽ là giải pháp được tối ưu hóa. CPU Hiệu năng mang lại lợi thế rất lớn, đòi hỏi chi phí tính toán ít hơn đáng kể so với các mô hình thế hệ trước.
Hiệu năng và điểm chuẩn
Khi đánh giá các mô hình cho môi trường sản xuất, việc phân tích sự cân bằng giữa độ chính xác, tốc độ và độ phức tạp tính toán là vô cùng quan trọng. Dưới đây là bảng so sánh chi tiết các mô hình tiêu chuẩn được đánh giá ở kích thước ảnh 640 pixel (và 416 pixel đối với các biến thể nano/siêu nhỏ).
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Như bảng minh họa, dòng YOLO26 mang lại sự cân bằng hiệu suất vượt trội. Ví dụ, YOLO26x đạt mAP ấn tượng 57.5 trong khi sử dụng gần một nửa số tham số của YOLOXx mô hình, trực tiếp chuyển thành nhanh hơn GPU Thời gian suy luận (11,8 ms so với 16,1 ms) và tính linh hoạt triển khai vượt trội hơn hẳn.
Kinh nghiệm đào tạo và hệ sinh thái
Một trong những điểm khác biệt sâu sắc nhất giữa các kiến trúc này nằm ở khả năng sử dụng và hệ sinh thái hỗ trợ của chúng.
Mặc dù YOLOX vẫn là kho lưu trữ nền tảng cho các nhà nghiên cứu về dòng chảy gradient và cơ học không neo, nhưng việc thiết lập của nó có thể phức tạp, thường yêu cầu cấu hình thủ công các phụ thuộc và toán tử. Ngược lại, hệ sinh thái Ultralytics định nghĩa tiêu chuẩn ngành về tính dễ sử dụng.
Bằng cách sử dụng API Python thống nhất, các nhà phát triển có thể khởi tạo, huấn luyện và triển khai các mô hình YOLO26 với sự đơn giản chưa từng có. Hệ thống tự động xử lý việc tải xuống tập dữ liệu, tinh chỉnh siêu tham số và xuất liền mạch sang các định dạng như ONNX, TensorRT và OpenVINO.
from ultralytics import YOLO
# Initialize the cutting-edge, end-to-end YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with built-in MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance on the validation set
metrics = model.val()
# Export the optimized model for edge deployment
model.export(format="onnx")
Hơn nữa, Ultralytics YOLO Các mô hình này có yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các giải pháp thay thế dựa trên Transformer nặng nề, cho phép các kỹ sư huấn luyện các lô dữ liệu lớn hơn ngay cả trên phần cứng cấp người tiêu dùng.
Các ứng dụng thực tế
Việc lựa chọn giữa YOLOX và YOLO26 cuối cùng phụ thuộc vào các ràng buộc triển khai và yêu cầu đa nhiệm của bạn.
Những điểm mạnh của YOLOX
YOLOX vẫn là một ứng cử viên khả thi cho các tiêu chuẩn học thuật cụ thể và các hệ thống kế thừa được tích hợp sâu rộng với khung MegEngine. Ý nghĩa lịch sử của nó khiến nó trở thành một cơ sở phổ biến để nghiên cứu các bộ dò không cần neo và các chiến lược gán tùy chỉnh.
Điểm mạnh của YOLO26
YOLO26 được thiết kế chủ yếu cho các ứng dụng công nghiệp hiện đại. Nhờ hỗ trợ natively phân đoạn đối tượng , ước lượng tư thế và hộp giới hạn định hướng (OBB) , nó linh hoạt hơn nhiều so với các công cụ phát hiện tiêu chuẩn.
- Bán lẻ và tồn kho thông minh: Sử dụng thiết kế không NMS đảm bảo rằng các hệ thống thanh toán tự động xử lý nguồn cấp dữ liệu video với độ trễ cực thấp, nhận diện sản phẩm mà không gặp nút thắt của các vòng lặp hậu xử lý.
- Phân tích từ Drone và Trên không: Hàm mất mát góc chuyên biệt cho OBB và việc tích hợp ProgLoss + STAL giúp YOLO26 không có đối thủ trong việc detect các vật thể xoay và các chi tiết nhỏ trong ảnh vệ tinh rộng lớn.
- Hệ thống bảo mật biên: Với suy luận CPU nhanh hơn 43%, YOLO26 cho phép các công ty triển khai phân tích bảo mật mạnh mẽ trực tiếp lên phần cứng cục bộ giá rẻ mà không yêu cầu điện toán đám mây đắt tiền.
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa YOLOX và YOLO26 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Khi nào nên chọn YOLOX
YOLOX là một lựa chọn tuyệt vời cho:
- Nghiên cứu detect không Anchor: Nghiên cứu học thuật sử dụng kiến trúc không anchor, gọn gàng của YOLOX làm cơ sở để thử nghiệm các đầu detect mới hoặc hàm mất mát.
- Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ, nơi dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
- Nghiên cứu gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ huấn luyện.
Khi nào nên chọn YOLO26
YOLO26 được khuyến nghị sử dụng cho:
- Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
- Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.
Khám phá những điều khác Ultralytics Mô hình
Nếu bạn đang tìm hiểu về sự phát triển của thị giác máy tính, thì còn có những mô hình khác có khả năng cao trong lĩnh vực này. Ultralytics Gia đình đáng để điều tra:
- YOLO11: Tiền thân trực tiếp của YOLO26, cung cấp hiệu suất mạnh mẽ và hỗ trợ cộng đồng rộng rãi cho các môi trường sản xuất ổn định.
- YOLOv8: Một kiến trúc đã được kiểm chứng thực tế rộng rãi, đặt ra tiêu chuẩn về tính dễ sử dụng và linh hoạt trên hàng nghìn triển khai trong thế giới thực.
Tóm lại, trong khi YOLOX đã giới thiệu những khái niệm quan trọng vào lĩnh vực phát hiện đối tượng, thì YOLO26 mới mang đến một bước tiến vượt bậc về tốc độ, độ chính xác và sự đơn giản trong triển khai, trở thành lựa chọn tối ưu cho các nhà phát triển và doanh nghiệp có tầm nhìn xa.