Chuyển đến nội dung

YOLOX so với YOLO26: Sự tiến hóa từ phát hiện đối tượng không cần neo đến phát hiện đối tượng từ đầu đến cuối

Lĩnh vực thị giác máy tính đã chứng kiến ​​những chuyển đổi đáng kinh ngạc trong thập kỷ qua. Hai cột mốc quan trọng trong hành trình này là sự ra mắt của YOLOX, phần mềm đã phổ biến kiến ​​trúc không cần neo (anchor-free architectures), và sự ra mắt gần đây của Ultralytics YOLO26 , phần mềm đã định nghĩa lại hoàn toàn hiệu năng thời gian thực với khả năng xử lý từ đầu đến cuối một cách tự nhiên. NMS - Thiết kế miễn phí. Bản so sánh toàn diện này khám phá kiến ​​trúc, số liệu hiệu năng và các kịch bản triển khai lý tưởng của chúng để giúp các nhà phát triển đưa ra quyết định sáng suốt cho dự án AI tiếp theo của họ.

Tổng quan về mô hình

Việc hiểu rõ nguồn gốc và mục tiêu thiết kế chính của từng mẫu xe sẽ cung cấp bối cảnh cần thiết cho những thành tựu kỹ thuật tương ứng của chúng.

YOLOX

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Ngày: 18/07/2021
Arxiv: 2107.08430
GitHub: Megvii-BaseDetection/YOLOX
Tài liệu: YOLOX ReadTheDocs

Được giới thiệu vào giữa năm 2021, YOLOX đại diện cho một sự thay đổi lớn bằng cách áp dụng thiết kế không cần neo kết hợp với đầu tách rời và chiến lược gán nhãn tiên tiến được gọi là SimOTA. Bằng cách loại bỏ các cơ chế hộp neo truyền thống thống trị các kiến ​​trúc trước đây, YOLOX đã thành công trong việc thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, cung cấp một khung làm việc thanh lịch nhưng hiệu quả cao cho việc phát hiện đối tượng .

Tìm hiểu thêm về YOLOX

YOLO26

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 14/01/2026
GitHub: ultralytics / ultralytics
Nền tảng: Nền tảng Ultralytics

Ra mắt vào đầu năm 2026, YOLO26 là thành quả của nhiều năm cải tiến liên tục, tập trung mạnh vào triển khai tại biên và đơn giản hóa quy trình huấn luyện. Nó giới thiệu thiết kế không sử dụng NMS từ đầu đến cuối , loại bỏ hoàn toàn bước xử lý hậu kỳ Non-Maximum Suppression truyền thống. Bước đột phá này giúp đơn giản hóa đáng kể việc triển khai mô hình trên nhiều phần cứng khác nhau. Hơn nữa, bằng cách loại bỏ mô-đun Distribution Focal Loss (DFL), YOLO26 đạt được độ trễ thấp hơn đáng kể, củng cố vị thế là lựa chọn hàng đầu cho các ứng dụng thị giác máy tính hiện đại.

Tìm hiểu thêm về YOLO26

Đổi mới Kiến trúc

Kiến trúc của hai mô hình này làm nổi bật sự tiến bộ nhanh chóng của các phương pháp học sâu, đặc biệt là về hàm mất mát và xử lý hậu kỳ.

Phương pháp YOLOX

YOLOX đã tách biệt các tác vụ phân loại và hồi quy trong phần dự đoán của nó, điều này giúp tăng tốc đáng kể quá trình hội tụ trong quá trình huấn luyện. Bản chất không sử dụng anchor của nó đã giảm số lượng tham số thiết kế, giảm thiểu nhu cầu tinh chỉnh anchor phức tạp trước khi huấn luyện. Kết hợp với thuật toán gán nhãn SimOTA, YOLOX đã đạt được kết quả vượt trội so với thời điểm đó, đặc biệt là trên các bộ dữ liệu chuẩn như COCO .

Lợi thế của YOLO26

YOLO26 đưa hiệu quả kiến ​​trúc lên một tầm cao mới. Việc loại bỏ NMS Điều này không chỉ giúp giảm độ trễ suy luận mà còn đảm bảo thời gian thực thi nhất quán và có tính xác định — một yếu tố quan trọng đối với xe tự hành và robot.

Các cải tiến quan trọng của YOLO26 bao gồm:

  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM), đây là sự kết hợp của... SGD và Muon đảm bảo các lần chạy huấn luyện cực kỳ ổn định và tốc độ hội tụ nhanh hơn.
  • Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ DFL và tinh giản kiến ​​trúc mạng, YOLO26 được tối ưu hóa mạnh mẽ cho các thiết bị biên có tài nguyên hạn chế, từ các cảm biến IoT đơn giản đến bo mạch Raspberry Pi .
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, điều rất quan trọng để phân tích ảnh chụp từ trên không và thực hiện kiểm soát chất lượng chính xác trong tự động hóa sản xuất .

Tối ưu hóa ưu tiên cạnh

Nếu dự án của bạn nhắm đến các hệ thống nhúng hoặc ứng dụng di động không có GPU chuyên dụng, YOLO26 sẽ là giải pháp được tối ưu hóa. CPU Hiệu năng mang lại lợi thế rất lớn, đòi hỏi chi phí tính toán ít hơn đáng kể so với các mô hình thế hệ trước.

Hiệu năng và điểm chuẩn

Khi đánh giá các mô hình cho môi trường sản xuất, việc phân tích sự cân bằng giữa độ chính xác, tốc độ và độ phức tạp tính toán là vô cùng quan trọng. Dưới đây là bảng so sánh chi tiết các mô hình tiêu chuẩn được đánh giá ở kích thước ảnh 640 pixel (và 416 pixel đối với các biến thể nano/siêu nhỏ).

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Như bảng minh họa, dòng sản phẩm YOLO26 mang lại sự cân bằng hiệu năng vượt trội. Ví dụ, YOLO26x đạt được con số ấn tượng 57,5 mAP trong khi sử dụng gần một nửa số tham số của YOLOXx mô hình, trực tiếp chuyển thành nhanh hơn GPU Thời gian suy luận (11,8 ms so với 16,1 ms) và tính linh hoạt triển khai vượt trội hơn hẳn.

Kinh nghiệm đào tạo và hệ sinh thái

Một trong những điểm khác biệt sâu sắc nhất giữa các kiến ​​trúc này nằm ở khả năng sử dụng và hệ sinh thái hỗ trợ của chúng.

Mặc dù YOLOX vẫn là kho lưu trữ nền tảng cho các nhà nghiên cứu về dòng chảy gradient và cơ học không neo, nhưng việc thiết lập của nó có thể phức tạp, thường yêu cầu cấu hình thủ công các phụ thuộc và toán tử. Ngược lại, hệ sinh thái Ultralytics định nghĩa tiêu chuẩn ngành về tính dễ sử dụng.

Bằng cách sử dụng phương pháp thống nhất. Python Với API, các nhà phát triển có thể khởi tạo, huấn luyện và triển khai các mô hình YOLO26 một cách dễ dàng chưa từng có. Hệ thống tự động xử lý việc tải xuống tập dữ liệu, tinh chỉnh siêu tham số và xuất liền mạch sang các định dạng như ONNX , TensorRT và các định dạng khác. OpenVINO .

from ultralytics import YOLO

# Initialize the cutting-edge, end-to-end YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with built-in MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance on the validation set
metrics = model.val()

# Export the optimized model for edge deployment
model.export(format="onnx")

Hơn nữa, Ultralytics YOLO Các mô hình này có yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các giải pháp thay thế dựa trên Transformer nặng nề, cho phép các kỹ sư huấn luyện các lô dữ liệu lớn hơn ngay cả trên phần cứng cấp người tiêu dùng.

Các ứng dụng thực tế

Việc lựa chọn giữa YOLOX và YOLO26 cuối cùng phụ thuộc vào các ràng buộc triển khai và yêu cầu đa nhiệm của bạn.

Những điểm mạnh của YOLOX

YOLOX vẫn là một ứng cử viên khả thi cho các tiêu chuẩn học thuật cụ thể và các hệ thống kế thừa được tích hợp sâu rộng với khung MegEngine. Ý nghĩa lịch sử của nó khiến nó trở thành một cơ sở phổ biến để nghiên cứu các bộ dò không cần neo và các chiến lược gán tùy chỉnh.

Điểm mạnh của YOLO26

YOLO26 được thiết kế chủ yếu cho các ứng dụng công nghiệp hiện đại. Nhờ hỗ trợ natively phân đoạn đối tượng , ước lượng tư thếhộp giới hạn định hướng (OBB) , nó linh hoạt hơn nhiều so với các công cụ phát hiện tiêu chuẩn.

  • Bán lẻ và quản lý hàng tồn kho thông minh: Tận dụng NMS - Thiết kế không cần cấu hình đảm bảo rằng các hệ thống thanh toán tự động xử lý nguồn cấp dữ liệu video với độ trễ cực thấp, nhận diện sản phẩm mà không bị tắc nghẽn bởi các vòng lặp xử lý hậu kỳ.
  • Phân tích dữ liệu từ máy bay không người lái và trên không: Khả năng xử lý góc lệch chuyên biệt cho OBB và sự tích hợp ProgLoss + STAL giúp YOLO26 trở nên vô song trong việc phát hiện các vật thể xoay và các chi tiết nhỏ trong các hình ảnh vệ tinh rộng lớn.
  • Hệ thống bảo mật Edge: Với tốc độ nhanh hơn 43% CPU Tóm lại, YOLO26 cho phép các công ty triển khai phân tích bảo mật mạnh mẽ trực tiếp lên phần cứng cục bộ giá rẻ mà không cần đến điện toán đám mây đắt tiền.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOX và YOLO26 phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOX

YOLOX là một lựa chọn tuyệt vời cho:

  • Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến ​​trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
  • Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
  • Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.

Khi nào nên chọn YOLO26

YOLO26 được khuyến nghị sử dụng cho:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Khám phá những điều khác Ultralytics Mô hình

Nếu bạn đang tìm hiểu về sự phát triển của thị giác máy tính, thì còn có những mô hình khác có khả năng cao trong lĩnh vực này. Ultralytics Gia đình đáng để điều tra:

  • YOLO11 : Phiên bản tiền nhiệm trực tiếp của YOLO26, cung cấp hiệu năng mạnh mẽ và sự hỗ trợ rộng rãi từ cộng đồng cho các môi trường sản xuất ổn định.
  • YOLOv8 : Một kiến ​​trúc đã được thử nghiệm thực tế kỹ lưỡng, thiết lập tiêu chuẩn về tính dễ sử dụng và tính linh hoạt trong hàng ngàn lần triển khai thực tế.

Tóm lại, trong khi YOLOX đã giới thiệu những khái niệm quan trọng vào lĩnh vực phát hiện đối tượng, thì YOLO26 mới mang đến một bước tiến vượt bậc về tốc độ, độ chính xác và sự đơn giản trong triển khai, trở thành lựa chọn tối ưu cho các nhà phát triển và doanh nghiệp có tầm nhìn xa.


Bình luận