Chuyển đến nội dung

YOLO26 so với YOLOX: Nâng cao khả năng detect đối tượng thời gian thực

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phù hợp cho ứng dụng của bạn là rất quan trọng. Hướng dẫn này cung cấp một so sánh kỹ thuật chuyên sâu giữa Ultralytics YOLO26, mô hình tiên tiến nhất hiện nay dành cho các ứng dụng biên và thời gian thực, và YOLOX, một bộ detect không anchor hiệu suất cao được Megvii phát hành vào năm 2021. Chúng tôi phân tích kiến trúc, các chỉ số hiệu suất và khả năng triển khai của chúng để giúp bạn đưa ra các quyết định sáng suốt cho các dự án của mình.

Tổng quan về các Mô hình

Trước khi đi sâu vào các chi tiết kỹ thuật, điều cần thiết là phải hiểu nguồn gốc và triết lý cốt lõi thúc đẩy sự phát triển của mỗi mô hình.

Ultralytics YOLO26

Được Glenn Jocher và Jing Qiu tại Ultralytics phát hành vào tháng 1 năm 2026, YOLO26 đại diện cho một bước tiến đáng kể về hiệu quả và khả năng sử dụng. Được thiết kế đặc biệt cho các thiết bị biên và công suất thấp, nó giới thiệu một kiến trúc đầu cuối không NMS nguyên bản. Thiết kế này loại bỏ nhu cầu hậu xử lý Non-Maximum Suppression (NMS), một nút thắt cổ chai phổ biến trong các quy trình triển khai.

Các đổi mới chính bao gồm bộ tối ưu hóa MuSGD—lấy cảm hứng từ Kimi K2 của Moonshot AI—điều chỉnh các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM) cho các tác vụ thị giác, và việc loại bỏ Hàm mất mát tiêu điểm phân phối (DFL) để hợp lý hóa các quy trình xuất. Với tốc độ suy luận trên CPU nhanh hơn tới 43% so với các phiên bản tiền nhiệm, YOLO26 vượt trội trong các kịch bản yêu cầu tốc độ cao mà không cần tăng tốc GPU.

Tìm hiểu thêm về YOLO26

YOLOX

YOLOX, được các nhà nghiên cứu tại Megvii phát triển vào năm 2021, là một bản phát hành then chốt đã phổ biến mô hình detect không anchor trong dòng YOLO. Bằng cách tách rời đầu dự đoán và sử dụng SimOTA để gán nhãn, YOLOX đã đạt được độ chính xác cạnh tranh và giành chiến thắng trong Thử thách Streaming Perception tại Hội thảo CVPR 2021. Nó vẫn là một mô hình được kính trọng trong cộng đồng nghiên cứu nhờ thiết kế gọn gàng và hiệu quả trong các môi trường GPU hiệu suất cao.

Tìm hiểu thêm về YOLOX

So sánh hiệu suất

Khi đánh giá các bộ detect đối tượng, sự đánh đổi giữa tốc độ (độ trễ) và độ chính xác (mAP) là tối quan trọng. YOLO26 thể hiện những lợi thế đáng kể ở cả hai chỉ số, đặc biệt trên phần cứng dựa trên CPU.

Phân tích chỉ số

Bảng sau đây nêu bật hiệu suất của các quy mô mô hình khác nhau trên tập dữ liệu COCO.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Giải thích hiệu suất

YOLO26 luôn vượt trội hơn YOLOX trên tất cả các quy mô về độ chính xác (mAP). Ví dụ, YOLO26s đạt 48.6 mAP so với YOLOX-s ở mức 40.5 mAP, một cải thiện đáng kể cho các mô hình có kích thước tương tự. Ngoài ra, thiết kế đầu cuối nguyên bản của YOLO26 đảm bảo rằng các tốc độ được liệt kê phản ánh tổng thời gian suy luận, trong khi các điểm chuẩn truyền thống thường loại trừ thời gian NMS.

Những điểm khác biệt chính về kiến trúc

1. Đầu cuối so với Hậu xử lý

Một trong những khác biệt rõ rệt nhất là quy trình suy luận.

  • YOLO26: Nguyên bản đầu cuối. Bằng cách áp dụng các kỹ thuật huấn luyện tiên tiến, nó dự đoán chính xác số lượng đối tượng mà không yêu cầu Non-Maximum Suppression (NMS). Đây là một bước đột phá cho việc triển khai, vì NMS thường khó tăng tốc trên NPU và bộ xử lý biên.
  • YOLOX: Dựa vào NMS. Mặc dù nó giới thiệu một cơ chế không anchor để đơn giản hóa đầu dự đoán, đầu ra thô vẫn chứa các hộp chồng chéo cần được lọc, thêm độ trễ và độ phức tạp trong quá trình xuất mô hình sang các định dạng như TensorRT hoặc CoreML.

2. Hàm mất mát và Tối ưu hóa

YOLO26 giới thiệu ProgLoss (Cân bằng mất mát lũy tiến) và STAL (Gán nhãn nhận biết mục tiêu nhỏ). Những đổi mới này đặc biệt nhắm mục tiêu vào detect đối tượng nhỏ, một điểm yếu phổ biến ở các bộ detect trước đây. Hơn nữa, YOLO26 sử dụng bộ tối ưu hóa MuSGD, một sự kết hợp giữa SGD và Muon, giúp ổn định quá trình huấn luyện nhanh hơn đáng kể so với các bộ tối ưu hóa tiêu chuẩn được sử dụng trong YOLOX.

3. Tối ưu hóa trên thiết bị biên

YOLO26 loại bỏ rõ ràng mô-đun Distribution Focal Loss (DFL). Mặc dù DFL (được sử dụng trong các mô hình như YOLOv8) cải thiện độ chính xác của hộp, nó dựa vào các phép toán có thể chậm trên phần cứng cụ thể. Bằng cách loại bỏ nó, YOLO26 đạt được tốc độ suy luận trên CPU nhanh hơn tới 43%, khiến nó trở thành lựa chọn ưu việt cho Raspberry Pi, CPU di động và các môi trường bị hạn chế tài nguyên khác.

Dễ sử dụng và hệ sinh thái

Đối với các nhà phát triển, các tính năng "mềm" của một mô hình—tài liệu, chất lượng API và hỗ trợ—quan trọng như các chỉ số thô.

Lợi thế của Ultralytics

YOLO26 được tích hợp vào hệ sinh thái Ultralytics mạnh mẽ. Điều này đảm bảo:

Hệ sinh thái YOLOX

YOLOX cung cấp một triển khai PyTorch vững chắc và hỗ trợ các định dạng như ONNX và TensorRT. Tuy nhiên, nó thường yêu cầu nhiều mã boilerplate hơn cho việc huấn luyện và suy luận so với ultralytics gói. Hệ sinh thái của nó ít tập trung hơn, thường yêu cầu người dùng tự xử lý các phép tăng cường dữ liệu và script triển khai vốn có sẵn theo tiêu chuẩn với các mô hình Ultralytics.

So sánh mã

Sự khác biệt về khả năng sử dụng được minh họa rõ nhất qua mã nguồn.

Huấn luyện YOLO26 với Ultralytics:

from ultralytics import YOLO

# Load model and train on COCO8 dataset
model = YOLO("yolo26n.pt")
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Huấn luyện YOLOX (Triển khai tiêu chuẩn):Yêu cầu sao chép kho lưu trữ (repo), cài đặt các yêu cầu cụ thể, chuẩn bị tập dữ liệu trong một cấu trúc thư mục cụ thể và chạy các chuỗi lệnh CLI phức tạp.

# Example YOLOX training command (conceptual)
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o -c yolox_s.pth

Các trường hợp sử dụng lý tưởng

Khi nào nên chọn YOLO26

  • Triển khai biên: Nếu bạn đang triển khai trên thiết bị di động, cảm biến IoT hoặc CPU nơi khả năng tăng tốc của TensorRT hoặc NPU bị hạn chế.
  • Các tác vụ phức tạp: Khi dự án của bạn yêu cầu phân đoạn, ước tính tư thế hoặc detect các đối tượng xoay (OBB) cùng với detect tiêu chuẩn.
  • Phát triển nhanh chóng: Khi bạn cần lặp lại nhanh chóng bằng cách sử dụng một API ổn định, được tài liệu hóa tốt với hỗ trợ tích hợp cho quản lý tập dữ liệu.
  • detect đối tượng nhỏ: Các ứng dụng như ảnh hàng không hoặc kiểm soát chất lượng nơi việc dự đoán các mục tiêu nhỏ là rất quan trọng.

Khi nào nên cân nhắc YOLOX

  • Nghiên cứu cũ: Nếu bạn đang tái tạo các kết quả học thuật từ năm 2021-2022 mà cụ thể là so sánh với bài báo YOLOX gốc.
  • Tùy chỉnh cụ thể: Nếu bạn có một pipeline hiện có được tùy chỉnh nhiều xoay quanh kiến trúc YOLOX cụ thể và chi phí di chuyển là quá cao.

Kết luận

Mặc dù YOLOX vẫn là một cột mốc quan trọng trong lịch sử detect đối tượng không neo, YOLO26 cung cấp một giải pháp toàn diện hơn cho các ứng dụng AI hiện đại. Với kiến trúc end-to-end nguyên bản, tỷ lệ độ chính xác trên tốc độ vượt trội và sự hỗ trợ từ hệ sinh thái Ultralytics, YOLO26 là lựa chọn được khuyến nghị cho cả các dự án mới và nâng cấp các triển khai hiện có.

Sự kết hợp giữa tính ổn định huấn luyện MuSGD, hiệu quả không DFL và tính linh hoạt của tác vụ đảm bảo rằng YOLO26 không chỉ detect đối tượng nhanh hơn mà còn đơn giản hóa toàn bộ vòng đời học máy từ huấn luyện đến triển khai.

Đọc thêm

Đối với những ai quan tâm đến việc khám phá các mô hình khác trong họ YOLO, hãy xem xét:

  • YOLO11: Tiền thân của YOLO26, mang lại hiệu suất vượt trội và khả năng tương thích rộng.
  • YOLOv10: Phiên bản đầu tiên giới thiệu huấn luyện không NMS, mở đường cho những tiến bộ của YOLO26.
  • YOLO World: Đối với các tác vụ detect từ vựng mở nơi bạn cần detect các đối tượng không có trong tập huấn luyện.

Bình luận