YOLOX so với... YOLOv10 Sự tiến hóa từ phát hiện không cần neo đến phát hiện từ đầu đến cuối

Lĩnh vực phát hiện đối tượng đã thay đổi đáng kể từ năm 2021 đến năm 2024. YOLOX , được Megvii phát hành, đánh dấu một bước ngoặt lớn, chuyển hướng khỏi các phương pháp dựa trên anchor, giới thiệu một thiết kế đơn giản không cần anchor, trở thành phương pháp được ưa chuộng cho các nghiên cứu cơ bản. Ba năm sau, các nhà nghiên cứu từ Đại học Thanh Hoa đã công bố YOLOv10 , đẩy mô hình này tiến xa hơn bằng cách loại bỏ nhu cầu sử dụng Non-Maximum Suppression (Suppression không tối đa). NMS ) hoàn toàn thông qua một kiến trúc từ đầu đến cuối.

Bài so sánh này sẽ khám phá những bước tiến vượt bậc về mặt kỹ thuật từ các đầu đọc/ghi tách rời của YOLOX đến... YOLOv10 Chiến lược phân công kép của 's giúp các nhà phát triển lựa chọn công cụ phù hợp cho quy trình xử lý hình ảnh máy tính của họ.

So sánh tổng quan

Mặc dù cả hai mô hình đều hướng đến hiệu suất thời gian thực, nhưng chúng giải quyết vấn đề phát hiện theo những cách khác nhau. YOLOX tập trung vào việc đơn giản hóa quá trình huấn luyện bằng cách gán nhãn động, trong khi đó YOLOv10 Mục tiêu là giảm độ trễ suy luận bằng cách loại bỏ các nút thắt cổ chai trong quá trình xử lý hậu kỳ.

YOLOX: Người tiên phong không neo

YOLOX được Zheng Ge và nhóm tại Megvii giới thiệu vào tháng 7 năm 2021. Nó đã thay thế... YOLO Chuyển đổi sang cơ cấu không cần neo, giúp giảm số lượng thông số thiết kế (như kích thước hộp neo) mà các kỹ sư cần điều chỉnh.

Điểm đột phá chính: Hệ thống điều khiển tách rời và SimOTA (Phương pháp phân bổ vận chuyển tối ưu đơn giản hóa).
Kiến trúc: Hệ thống xương sống CSPDarknet được sửa đổi, tập trung vào việc cân bằng tốc độ và độ chính xác.
Trạng thái cũ: Được sử dụng rộng rãi như một cơ sở tham khảo đáng tin cậy trong các bài báo học thuật, ví dụ như báo cáo YOLOX trên Arxiv .

Tìm hiểu thêm về YOLOX

YOLOv10: Detect thời gian thực từ đầu đến cuối

YOLOv10 , được các nhà nghiên cứu tại Đại học Thanh Hoa phát hành vào tháng 5 năm 2024, giải quyết chi phí độ trễ của NMS Bằng cách áp dụng chiến lược phân công kép nhất quán trong quá trình huấn luyện, nó học cách dự đoán một ô cho mỗi đối tượng, cho phép triển khai thực sự từ đầu đến cuối.

Điểm đột phá chính: NMS - Huấn luyện miễn phí thông qua gán nhãn kép (một-nhiều cho giám sát, một-một cho suy luận).
Hiệu quả: Giới thiệu thiết kế mô hình toàn diện hướng đến hiệu quả và độ chính xác, bao gồm thiết kế khối dựa trên thứ hạng.
Tích hợp: Được hỗ trợ trong Ultralytics Hệ sinh thái giúp đào tạo và triển khai dễ dàng hơn.

Tìm hiểu thêm về YOLOv10

Phân tích hiệu suất

Khoảng cách về hiệu năng giữa các thế hệ này là đáng kể, đặc biệt là về hiệu quả (FLOPs) và tốc độ suy luận trên phần cứng hiện đại. YOLOv10 Tận dụng các khối kiến trúc mới hơn để đạt được Độ chính xác trung bình ( mAP ) cao hơn với ít tham số hơn.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

Những điểm khác biệt quan trọng

Độ trễ: YOLOv10 loại bỏ NMS bước. Trên các thiết bị biên, NMS có thể chiếm một phần đáng kể trong tổng thời gian suy luận, khiến cho YOLOv10 Nhanh hơn một cách nhất quán trong các quy trình thực tế.
Độ chính xác: YOLOv10x đạt được mAP 54,4% , cao hơn đáng kể so với YOLOX-x ở mức 51,1% , mặc dù YOLOX-x có số tham số gần gấp đôi (99,1 triệu so với 56,9 triệu).
Hiệu suất tính toán: Số phép tính FLOPs thể hiện ở... YOLOv10 Thông thường, các mô hình này có độ phức tạp thấp hơn đối với độ chính xác tương đương, giúp giảm tải cho bộ nhớ GPU và mức tiêu thụ năng lượng.

Tìm hiểu sâu về kiến trúc

YOLOX: Đầu tách rời và SimOTA

YOLOX đã có những bước tiến khác biệt so với các hệ điều hành trước đây. YOLO số lần lặp được thực hiện bằng cách sử dụng đầu dò tách rời . Trong các bộ dò truyền thống, nhiệm vụ phân loại và định vị chia sẻ các đặc trưng tích chập. YOLOX đã tách chúng thành hai nhánh, giúp cải thiện tốc độ hội tụ và độ chính xác.

Hơn nữa, YOLOX đã giới thiệu SimOTA , một chiến lược gán nhãn động. Thay vì các quy tắc cố định để khớp các hộp dữ liệu thực tế với các điểm neo, SimOTA xử lý quá trình khớp như một bài toán Vận chuyển Tối ưu, gán nhãn dựa trên tính toán chi phí toàn cục. Cách tiếp cận này giúp YOLOX hoạt động mạnh mẽ trên các tập dữ liệu khác nhau mà không cần tinh chỉnh siêu tham số quá nhiều.

YOLOv10 : Nhiệm vụ kép nhất quán

YOLOv10 Đóng góp chính của là giải quyết sự khác biệt giữa quá trình huấn luyện và suy luận được tìm thấy trong NMS - Các mô hình miễn phí.

Huấn luyện từ một đến nhiều: Trong quá trình huấn luyện, mô hình gán nhiều mẫu tích cực cho một đối tượng duy nhất để cung cấp các tín hiệu giám sát phong phú.
Suy luận một-đối-một: Thông qua một thước đo khớp nhất quán, mô hình học cách chọn hộp tốt nhất duy nhất trong quá trình suy luận, loại bỏ sự cần thiết phải sử dụng các phương pháp khác. NMS .

Ngoài ra, YOLOv10 Nó sử dụng các mô-đun Large-Kernel Convolutions và Partial Self-Attention (PSA) để nắm bắt ngữ cảnh toàn cục một cách hiệu quả mà không cần đến chi phí tính toán lớn của các mô-đun transformer đầy đủ.

Tại sao NMS-Free lại quan trọng

Không ức chế tối đa ( NMS (Đây là thuật toán xử lý hậu kỳ giúp lọc các hộp giới hạn chồng chéo. Mặc dù hiệu quả, thuật toán này hoạt động tuần tự và khó tăng tốc trên các phần cứng như FPGA hoặc NPU. Việc loại bỏ nó giúp quy trình triển khai trở nên hoàn toàn xác định và nhanh hơn.)

Các trường hợp sử dụng lý tưởng

Khi nào nên chọn YOLOX

Academic Baselines: Nếu bạn đang viết một bài nghiên cứu và cần một công cụ dò tìm tiêu chuẩn, sạch sẽ, không có từ khóa neo để so sánh.
Hệ thống cũ: Các môi trường đã được kiểm chứng trên nền tảng mã nguồn Megvii hoặc khung OpenMMLab, nơi việc nâng cấp toàn bộ công cụ suy luận là không khả thi.

Khi nào nên chọn YOLOv10

Các ứng dụng có độ trễ thấp: Các kịch bản như hệ thống phanh tự động hoặc phân loại công nghiệp tốc độ cao, nơi mỗi mili giây xử lý sau đều rất quan trọng.
Thiết bị biên có tài nguyên hạn chế: Các thiết bị có tài nguyên hạn chế CPU quyền lực sẽ được hưởng lợi rất nhiều từ việc loại bỏ NMS bước tính toán.

Lợi thế của Ultralytics

Trong khi YOLOX và YOLOv10 Với những kiến trúc mạnh mẽ, hệ sinh thái Ultralytics đóng vai trò cầu nối giữa mã mô hình thô và các ứng dụng sẵn sàng cho sản xuất.

Tích hợp liền mạch

Ultralytics tích hợp YOLOv10 Trực tiếp, cho phép bạn chuyển đổi giữa các mô hình chỉ với một dòng mã. Điều này loại bỏ nhu cầu phải học các API hoặc định dạng dữ liệu khác nhau (như chuyển đổi nhãn sang...) COCO JSON dành cho YOLOX).

from ultralytics import YOLO

# Load YOLOv10n or the newer YOLO26n
model = YOLO("yolov10n.pt")

# Train on your data with one command
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Tính linh hoạt và Hệ sinh thái

Không giống như kho lưu trữ YOLOX độc lập, Ultralytics Nền tảng này hỗ trợ nhiều tác vụ khác nhau ngoài việc phát hiện đối tượng, bao gồm phân đoạn đối tượng , ước tính tư thế và OBB . Tất cả những tác vụ này có thể được quản lý thông qua Nền tảng Ultralytics , cung cấp khả năng quản lý tập dữ liệu dựa trên web, huấn luyện chỉ bằng một cú nhấp chuột và triển khai sang các định dạng như... CoreML , ONNX , Và TensorRT .

Hiệu quả huấn luyện

Ultralytics Các mô hình được tối ưu hóa về hiệu quả bộ nhớ. Trong khi một số mô hình dựa trên bộ biến đổi (như RT-DETR ) yêu cầu bộ nhớ đáng kể. CUDA ký ức, Ultralytics YOLO Các mô hình được thiết kế để huấn luyện trên GPU dành cho người tiêu dùng, giúp dân chủ hóa việc tiếp cận với trí tuệ nhân tạo tiên tiến nhất.

Tương lai: YOLO26

Đối với các nhà phát triển đang tìm kiếm hiệu năng và tính dễ sử dụng tốt nhất tuyệt đối, chúng tôi khuyên bạn nên xem xét thêm... YOLOv10 đến với YOLO26 vừa được phát hành.

Ra mắt vào tháng 1 năm 2026, YOLO26 được xây dựng dựa trên nền tảng của... NMS - bước đột phá miễn phí của YOLOv10 nhưng tinh chỉnh nó để đảm bảo tính ổn định và tốc độ sản xuất.

Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM của Moonshot AI, bộ tối ưu hóa này đảm bảo sự hội tụ nhanh hơn và các lần huấn luyện ổn định.
Loại bỏ DFL: Bằng cách loại bỏ hiện tượng mất tiêu điểm phân tán (Distribution Focal Loss - DFL), YOLO26 đơn giản hóa đồ thị mô hình, giúp việc xuất sang các thiết bị biên mượt mà hơn và ít gặp phải các vấn đề không tương thích với nhà mạng.
Tốc độ: Được tối ưu hóa đặc biệt cho CPU Khả năng suy luận này mang lại tốc độ nhanh hơn tới 43% so với các thế hệ trước, lý tưởng cho phần cứng IoT tiêu chuẩn.

Tìm hiểu thêm về YOLO26

Kết luận

YOLOX vẫn là một cột mốc quan trọng trong lịch sử phát hiện đối tượng, chứng minh rằng các phương pháp không cần neo có thể đạt được độ chính xác hàng đầu. YOLOv10 đại diện cho bước tiến hợp lý tiếp theo, loại bỏ nút thắt cổ chai cuối cùng. NMS Để cho phép xử lý toàn diện từ đầu đến cuối.

Tuy nhiên, để có một giải pháp mạnh mẽ và lâu dài, hệ sinh thái Ultralytics — dẫn đầu bởi YOLO26 — cung cấp gói giải pháp hoàn chỉnh nhất. Với tài liệu hướng dẫn vượt trội, sự hỗ trợ tích cực từ cộng đồng và một nền tảng xử lý mọi thứ từ chú thích dữ liệu đến xuất mô hình , Ultralytics Đảm bảo các dự án thị giác máy tính của bạn thành công từ giai đoạn nguyên mẫu đến sản xuất.