YOLO26 và YOLOX: Kỷ nguyên mới của phát hiện vật thể không dùng anchor

Sự tiến hóa của thị giác máy tính đã được đánh dấu bằng những bước nhảy vọt đáng kể về kiến trúc. Năm 2021, YOLOX đã giới thiệu một mô hình không dùng anchor (anchor-free) đầy ảnh hưởng, giúp thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp. Đến năm 2026, bối cảnh này đã được định nghĩa lại bởi Ultralytics YOLO, đặc biệt là với sự ra mắt của YOLO26. Bài so sánh toàn diện này khám phá cách YOLO26 kế thừa các đổi mới lịch sử để mang lại hiệu suất, tính linh hoạt và trải nghiệm sử dụng vượt trội.

Tổng quan về các model

Việc hiểu rõ nguồn gốc và triết lý cốt lõi của các model này là điều cần thiết để đưa ra các quyết định triển khai sáng suốt.

Chi tiết về YOLO26

Tìm hiểu thêm về YOLO26

YOLO26 đại diện cho đỉnh cao của kỹ thuật AI hiện đại, cung cấp một thiết kế end-to-end tự nhiên, loại bỏ các nút thắt hậu xử lý phức tạp. Model này được tối ưu hóa mạnh mẽ cho cả triển khai trên cloud và edge, với hệ sinh thái hỗ trợ nhiều tác vụ một cách liền mạch.

Chi tiết về YOLOX

Tìm hiểu thêm về YOLOX

YOLOX là một bước tiến lớn, giới thiệu kiến trúc decoupled head và không dùng anchor (anchor-free) cùng với chiến lược gán nhãn SimOTA. Tại thời điểm ra mắt, model này mang lại sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, trở thành lựa chọn phổ biến cho nhiều hệ thống legacy.

Đổi mới kiến trúc

Sự khác biệt giữa YOLO26 và YOLOX nêu bật 5 năm đổi mới không ngừng trong thiết kế deep learning.

Trong khi YOLOX tiên phong với hướng tiếp cận không dùng anchor, nó vẫn phụ thuộc nhiều vào NMS (Non-Maximum Suppression) truyền thống để lọc các bounding box dư thừa. YOLO26 giới thiệu một Thiết kế end-to-end không cần NMS. Bước đột phá này, lần đầu tiên được tiên phong trong YOLOv10, loại bỏ hoàn toàn quá trình hậu xử lý NMS, giúp các pipeline triển khai nhanh hơn, đơn giản hơn với độ trễ thấp và ổn định hơn đáng kể.

Hơn nữa, YOLO26 còn có tính năng Loại bỏ DFL. Bằng cách loại bỏ Distribution Focal Loss, quy trình xuất model được đơn giản hóa đáng kể, đảm bảo tính tương thích tuyệt vời với các thiết bị edge và phần cứng công suất thấp. Khi kết hợp với các tối ưu hóa kiến trúc, YOLO26 đạt được tốc độ inference trên CPU nhanh hơn tới 43% so với các phiên bản tiền nhiệm, biến nó trở thành một cỗ máy mạnh mẽ cho các môi trường thiếu GPU chuyên dụng.

Sự ổn định trong quá trình huấn luyện là một yếu tố khác biệt quan trọng khác. YOLO26 sử dụng bộ tối ưu hóa MuSGD mới, một sự kết hợp giữa SGD và Muon, lấy cảm hứng từ các cải tiến trong huấn luyện LLM từ Moonshot AI. Bộ tối ưu hóa này mang lại sự ổn định khi huấn luyện các mô hình ngôn ngữ lớn vào thị giác máy tính, tạo điều kiện hội tụ nhanh hơn.

Các hàm Loss nâng cao

YOLO26 sử dụng ProgLoss + STAL, các hàm loss chuyên biệt mang lại cải tiến đáng chú ý trong việc nhận diện vật thể nhỏ. Điều này rất quan trọng đối với các tác vụ phức tạp như xử lý hình ảnh trên không và phân tích các môi trường dày đặc vật thể.

Hiệu suất và Benchmark

Khi so sánh trực tiếp các model này trên dataset COCO, sự vượt trội của YOLO26 về cả độ chính xác và hiệu suất trở nên rõ ràng. Các model của Ultralytics nhất quán cung cấp yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện và tốc độ inference nhanh hơn.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Lưu ý: Model YOLO26x đạt mAP ấn tượng 57.5 trong khi yêu cầu số lượng tham số ít hơn đáng kể (55.7M) so với model YOLOXx (99.1M), làm nổi bật hiệu suất tham số đáng kinh ngạc của kiến trúc Ultralytics.

Hệ sinh thái và tính dễ sử dụng

Một trong những lợi thế quan trọng nhất của việc chọn YOLO26 là hệ sinh thái được duy trì tốt bởi Ultralytics. Trong khi YOLOX yêu cầu phải điều hướng qua các codebase nghiên cứu phức tạp và cài đặt môi trường thủ công, Ultralytics cung cấp trải nghiệm nhà phát triển "từ con số 0 đến chuyên nghiệp" được tối ưu hóa.

Sử dụng Python API thống nhất, các nhà phát triển có thể dễ dàng chuyển đổi giữa các tác vụ như phát hiện vật thể, phân đoạn cá thể, phân loại hình ảnhước tính tư thế. Ngược lại, YOLOX chỉ giới hạn ở việc phát hiện bounding box.

Ví dụ về huấn luyện

Huấn luyện model trên dataset tùy chỉnh với Ultralytics cực kỳ hiệu quả. Pipeline huấn luyện giảm thiểu việc sử dụng bộ nhớ CUDA, cho phép sử dụng kích thước batch lớn hơn ngay cả trên phần cứng tiêu dùng, trái ngược hoàn toàn với các kiến trúc cũ hoặc các model transformer nặng nề.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Ultralytics Platform tăng cường quy trình này hơn nữa, cung cấp huấn luyện trên cloud, chú thích dataset tự động và các tùy chọn triển khai một cú nhấp chuột. Đây là công cụ không thể thiếu cho các đội ngũ muốn chuyển đổi nhanh chóng từ tạo mẫu sang sản xuất.

Các trường hợp sử dụng lý tưởng và ứng dụng thực tế

Việc lựa chọn model phù hợp quyết định sự thành công của quá trình triển khai thực tế của bạn.

Edge AI và IoT

Đối với các ứng dụng yêu cầu xử lý cục bộ trên phần cứng hạn chế, chẳng hạn như hệ thống báo động an ninh thông minh hoặc các cảm biến môi trường từ xa, YOLO26 là lựa chọn tuyệt đối. Kiến trúc không cần NMS và khả năng thực thi trên CPU nhanh hơn 43% của nó có nghĩa là nó chạy mượt mà trên các thiết bị như Raspberry Pi mà không cần các giải pháp thay thế quantization phức tạp.

Robot tự hành

Robot yêu cầu độ chính xác cao và độ trễ thấp. Khả năng ước tính tư thế của YOLO26, được củng cố bởi Residual Log-Likelihood Estimation (RLE), cho phép robot hiểu động học của con người theo thời gian thực. Việc YOLOX thiếu khả năng phát hiện keypoint tự nhiên khiến nó không phù hợp cho các tác vụ tương tác người-robot nâng cao như vậy.

Kiểm tra trên cao và bằng thiết bị bay

Khi kiểm tra hạ tầng bằng drone, việc phát hiện các khiếm khuyết nhỏ là tối quan trọng. Các hàm ProgLoss và STAL trong YOLO26 cải thiện đáng kể khả năng recall trên các vật thể nhỏ. Ngoài ra, YOLO26 hỗ trợ tự nhiên Oriented Bounding Boxes (OBB), đi kèm với hàm angle loss chuyên biệt để giải quyết các vấn đề về ranh giới, làm cho nó trở nên hoàn hảo cho hình ảnh vệ tinh và hình ảnh trên không, nơi các vật thể bị xoay tùy ý.

Triển khai Legacy

YOLOX có thể vẫn hữu ích trong các môi trường legacy nơi các pipeline triển khai C++ hiện tại được xây dựng rõ ràng dựa trên các đầu ra decoupled head cụ thể của nó vào năm 2021. Tuy nhiên, đối với bất kỳ dự án mới nào, việc chuyển sang hệ sinh thái Ultralytics được khuyến khích mạnh mẽ để tận dụng các cải tiến hiệu suất hiện đại và sự hỗ trợ cộng đồng liên tục.

Khám phá các model khác

Trong khi YOLO26 đại diện cho trạng thái hiện đại nhất, hệ sinh thái Ultralytics cung cấp nhiều model phù hợp với các nhu cầu cụ thể. Đối với các nhà phát triển quan tâm đến kiến trúc dựa trên transformer, RT-DETR cung cấp một hướng tiếp cận thay thế cho phát hiện end-to-end. Ngoài ra, YOLO11 vẫn là một tùy chọn mạnh mẽ, được thử nghiệm kỹ lưỡng cho các môi trường sản xuất yêu cầu benchmarking lịch sử chuyên sâu.

Tóm lại, quá trình chuyển đổi từ YOLOX sang YOLO26 minh họa sự tiến bộ nhanh chóng của lĩnh vực này. Bằng cách kết hợp API trực quan, bộ tính năng đa năng và hiệu suất vô song, YOLO26 là lựa chọn hàng đầu cho các nhà nghiên cứu và nhà phát triển trên toàn thế giới.

Bình luận