YOLO26 so với YOLOX: Sự tiến hóa của công nghệ phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính đã phát triển nhanh chóng trong năm năm qua, chuyển từ các kiến trúc phức tạp, dựa trên neo sang các mô hình hiệu năng cao, được tinh giản. Bài so sánh này xem xét hai mô hình quan trọng trong quá trình này: YOLOX , một bộ dò đột phá không dựa trên neo được phát hành năm 2021, và YOLO26 , mô hình thị giác tiên tiến nhất được phát hành bởi... Ultralytics Vào tháng 1 năm 2026. Trong khi YOLOX đã mở đường cho nhiều quyết định kiến trúc hiện đại, YOLO26 đại diện cho đỉnh cao của những tiến bộ này, mang lại tốc độ, độ chính xác và sự dễ dàng triển khai vượt trội.

Tổng quan mô hình

Ultralytics YOLO26

Ra mắt vào tháng 1 năm 2026, YOLO26 được thiết kế cho thế hệ tiếp theo của Trí tuệ nhân tạo biên (Edge AI). Nó giới thiệu một giải pháp đầu cuối ( NMS Kiến trúc (không phụ thuộc vào ngữ cảnh) giúp loại bỏ các bước xử lý hậu kỳ thường gây tắc nghẽn trong quá trình triển khai. Bằng cách loại bỏ Distribution Focal Loss (DFL) và giới thiệu trình tối ưu hóa MuSGD—lấy cảm hứng từ việc huấn luyện mô hình ngôn ngữ quy mô lớn—YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, trở thành lựa chọn hàng đầu cho các ứng dụng IoT và robot.

Glenn Jocher và Cảnh Khâu
Ultralytics
Ngày 14 tháng 1 năm 2026
GitHub | Tài liệu

Tìm hiểu thêm về YOLO26

YOLOX

YOLOX , được Megvii phát hành năm 2021, là một trong những bộ dò "không neo" hiệu suất cao đầu tiên chuyển sang đầu dò tách rời và gán nhãn SimOTA. Vào thời điểm đó, nó đã thành công trong việc thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, mang đến thiết kế gọn gàng hơn so với các thế hệ trước (như YOLOv4 và...). YOLOv5 ) bằng cách tháo các hộp neo và NMS các yêu cầu để đào tạo sự ổn định, mặc dù nó vẫn cần NMS để suy luận.

Zheng Ge, Songtao Liu, và cộng sự.
Megvii
Ngày 18 tháng 7 năm 2021
ArXiv | GitHub

So sánh hiệu suất kỹ thuật

Bảng sau đây nêu bật sự khác biệt về hiệu năng giữa hai mô hình. YOLO26 cho thấy sự cải thiện đáng kể về cả độ chính xác ( mAP ) và hiệu quả, đặc biệt là trong CPU môi trường mà kiến trúc của nó được tối ưu hóa cho việc thực thi độ trễ thấp.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Bối cảnh Hiệu suất

Mặc dù YOLOXnano có số tham số và FLOPs thấp hơn, nhưng nó hoạt động ở độ phân giải (416px) và độ chính xác (25.8) thấp hơn đáng kể. mAP ) so với YOLO26n (40,9 mAP (ở độ phân giải 640px). Khi được chuẩn hóa để đạt độ chính xác hiệu quả, YOLO26 cung cấp độ trễ suy luận vượt trội hơn nhiều.

Đổi mới Kiến trúc

End-to-End so với Hậu xử lý

Điểm khác biệt quan trọng nhất nằm ở quy trình triển khai. YOLOX không sử dụng anchor nhưng vẫn dựa vào Non-Maximum Suppression ( NMS ) để lọc các hộp giới hạn trùng lặp. NMS Nó tốn nhiều tài nguyên tính toán và khó tối ưu hóa trên phần cứng biên (như FPGA hoặc NPU) vì nó liên quan đến việc sắp xếp và các phép toán tuần tự.

YOLO26 áp dụng thiết kế end-to-end nguyên bản, một khái niệm được tiên phong trong YOLOv10 . Thiết kế này xuất ra kết quả phát hiện cuối cùng trực tiếp từ mạng mà không cần trung gian. NMS Điều này dẫn đến:

Độ trễ thấp hơn: Không phát sinh chi phí xử lý hậu kỳ.
Độ trễ xác định: Thời gian suy luận là không đổi bất kể mật độ đối tượng.
Triển khai đơn giản: Việc xuất sang ONNX hoặc TensorRT rất dễ dàng vì có thể tùy chỉnh. NMS Các plugin là không cần thiết.

Tính ổn định trong huấn luyện: MuSGD so với... SGD

YOLOX sử dụng thuật toán Stochastic Gradient Descent tiêu chuẩn ( SGD ) với các đầu tách rời, được cải tiến cho năm 2021. Tuy nhiên, YOLO26 giới thiệu Trình tối ưu hóa MuSGD , một sự kết hợp của SGD và bộ tối ưu hóa Muon (lấy cảm hứng từ Kimi K2 của Moonshot AI). Sự đổi mới này mang lại các đặc tính ổn định từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM) vào thị giác máy tính, cho phép hội tụ nhanh hơn và trích xuất đặc trưng mạnh mẽ hơn trong quá trình huấn luyện .

Hàm mất mát

YOLOX tuyển dụng IoU YOLO26 cải tiến điều này bằng cách kết hợp ProgLoss + STAL (Soft Target Assignment Loss), một chiến lược xử lý dữ liệu dựa trên sự mất mát và tách rời các đầu dò. Sự kết hợp này đặc biệt giải quyết thách thức phát hiện vật thể nhỏ , một điểm yếu truyền thống của các bộ dò một giai đoạn. ProgLoss tự động điều chỉnh trọng số mất mát trong quá trình huấn luyện, cho phép mô hình tập trung vào các ví dụ khó hơn (thường là các vật thể nhỏ hoặc bị che khuất) khi quá trình huấn luyện diễn ra.

Hệ sinh thái và Dễ sử dụng

Một trong những điểm khác biệt quan trọng giữa hai khuôn khổ này là hệ sinh thái xung quanh chúng.

Lợi thế của Ultralytics

Sử dụng YOLO26 cho phép truy cập vào Nền tảng Ultralytics , một bộ công cụ toàn diện để quản lý dữ liệu, chú thích và huấn luyện mô hình.

API thống nhất: Cho dù bạn đang thực hiện phát hiện đối tượng , phân đoạn thể hiện , ước tính tư thế hay phát hiện hộp giới hạn định hướng (OBB) , API vẫn nhất quán.
Từ con số không đến anh hùng: Bạn có thể chuyển từ cài đặt sang huấn luyện trên tập dữ liệu tùy chỉnh chỉ với chưa đến 5 dòng mã. python mã số.
Tính linh hoạt khi xuất khẩu: Xuất mô hình sang CoreML một cách liền mạch. OpenVINO , TFLite và nhiều thao tác khác chỉ với một lệnh duy nhất.

from ultralytics import YOLO

# Load the model
model = YOLO("yolo26n.pt")

# Train on custom data
model.train(data="coco8.yaml", epochs=100)

# Export for deployment
model.export(format="onnx")

Độ phức tạp của YOLOX

YOLOX chủ yếu là một kho lưu trữ nghiên cứu. Mặc dù mạnh mẽ, nó yêu cầu cấu hình thủ công nhiều hơn cho các tập dữ liệu và quy trình huấn luyện. Nó thiếu hỗ trợ gốc cho các tác vụ ngoài phát hiện tiêu chuẩn (như tư thế hoặc phân đoạn) trong cùng một kho lưu trữ, và việc xuất sang các định dạng edge thường yêu cầu các tập lệnh bên ngoài hoặc các công cụ của bên thứ ba (như...). onnx-simplifier).

Các ứng dụng thực tế

Bán lẻ thông minh và Quản lý kho

Đối với môi trường bán lẻ yêu cầu quản lý hàng tồn kho , YOLO26 là lựa chọn vượt trội. Việc loại bỏ DFL (Distribution Focal Loss) và kiến trúc đầu cuối cho phép nó hoạt động hiệu quả trên các CPU ARM công suất thấp được tìm thấy trong các camera kệ thông minh. Độ chính xác được cải thiện của YOLO26 (48,6%) mAP ) trên YOLOX-s (40,5 mAP ) đảm bảo độ chính xác của kho hàng tốt hơn với ít trường hợp âm tính giả hơn.

Máy bay không người lái cần xử lý hình ảnh độ phân giải cao với độ trễ tối thiểu. YOLO26 vượt trội ở điểm này nhờ công nghệ ProgLoss , giúp tăng cường khả năng phát hiện các vật thể nhỏ như xe cộ ở xa hoặc đường dây điện từ hình ảnh trên không. NMS Việc xuất dữ liệu không bị gián đoạn đảm bảo rằng vòng điều khiển của máy bay không người lái nhận được dữ liệu với tốc độ ổn định, điều này rất quan trọng đối với các hệ thống tránh va chạm. Ngược lại, sự phụ thuộc của YOLOX vào... NMS có thể gây ra hiện tượng tăng đột biến độ trễ trong môi trường phức tạp (ví dụ: bay qua rừng hoặc đám đông), tiềm ẩn nguy cơ gây nguy hiểm cho sự ổn định của chuyến bay.

Robot công nghiệp

Trong sản xuất, cánh tay robot thường sử dụng thị giác để thực hiện các tác vụ gắp và đặt vật thể. Hệ sinh thái YOLO26 hỗ trợ OBB (Oriented Bounding Boxes) , cung cấp góc của vật thể — điều rất quan trọng để nắm bắt các vật thể không thẳng hàng theo trục. YOLOX yêu cầu sửa đổi đáng kể để hỗ trợ OBB, trong khi YOLO26 hỗ trợ ngay từ đầu.

Kết luận

Trong khi YOLOX là một cột mốc quan trọng giúp phổ biến phương pháp phát hiện đối tượng không cần neo, YOLO26 đại diện cho tương lai của thị giác máy tính hiệu quả. Với thiết kế toàn diện, tỷ lệ độ chính xác trên độ trễ vượt trội và sự hỗ trợ mạnh mẽ từ hệ sinh thái Ultralytics , YOLO26 là lựa chọn được khuyến nghị cho cả nghiên cứu học thuật và triển khai thương mại vào năm 2026.

Đối với các nhà phát triển yêu cầu các sự đánh đổi kiến trúc khác nhau, YOLO11 cung cấp một giải pháp thay thế đã được chứng minh, và các mô hình dựa trên transformer như RT-DETR cung cấp độ chính xác cao. GPU - môi trường giàu chất dinh dưỡng.