Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX so với RTDETRv2#

Việc lựa chọn kiến trúc tối ưu cho các ứng dụng thị giác máy tính đòi hỏi sự cân bằng cẩn thận giữa độ chính xác, tốc độ suy luận và tính khả thi khi triển khai. Trong phân tích kỹ thuật toàn diện này, chúng tôi khám phá những khác biệt cơ bản giữa YOLOX, một kiến trúc CNN không cần anchor cực kỳ thành công và RTDETRv2, một transformer phát hiện thời gian thực tiên tiến.

Mặc dù cả hai model đều có những đóng góp đáng kể cho lĩnh vực phát hiện đối tượng, các nhà phát triển xây dựng ứng dụng sẵn sàng cho sản xuất thường nhận thấy rằng các lựa chọn thay thế hiện đại như Ultralytics YOLO26 mang lại hiệu quả huấn luyện vượt trội, yêu cầu bộ nhớ thấp hơn và hệ sinh thái triển khai mạnh mẽ hơn.

Link to this sectionYOLOX: Thu hẹp khoảng cách giữa nghiên cứu và công nghiệp#

YOLOX nổi lên như một bản chuyển thể không cần anchor rất phổ biến của dòng YOLO, giới thiệu một thiết kế đơn giản hóa mang lại những cải tiến hiệu suất ấn tượng vào thời điểm ra mắt.

  • Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
  • Tổ chức: Megvii
  • Ngày công bố: 18 tháng 7 năm 2021
  • Liên kết: Arxiv, GitHub, Docs

Link to this sectionCải tiến kiến trúc#

YOLOX đã chuyển đổi dòng YOLO sang mô hình không cần anchor, tích hợp head tách rời và chiến lược gán nhãn SimOTA tiên tiến. Bằng cách loại bỏ anchor box, kiến trúc này đã giảm đáng kể số lượng tham số thiết kế và cải thiện khả năng tổng quát hóa trên các tập dữ liệu chuẩn. Các phiên bản nhẹ của nó, YOLOX-Nano và YOLOX-Tiny, đã trở thành những lựa chọn phổ biến để triển khai các ứng dụng AI thị giác trên thiết bị biên.

Những cân nhắc về di sản

Mặc dù YOLOX mang lại những tiến bộ đáng chú ý, sự phụ thuộc của nó vào các pipeline tăng cường dữ liệu nặng nề và các quy trình xử lý hậu kỳ cũ (như NMS truyền thống) có thể dẫn đến độ trễ cao hơn so với các model end-to-end tự nhiên.

Tìm hiểu thêm về YOLOX

Link to this sectionRTDETRv2: Thúc đẩy các Vision Transformer thời gian thực#

Dựa trên nền tảng của người tiền nhiệm, RTDETRv2 tận dụng sức mạnh của Vision Transformers (ViTs) để đạt được độ chính xác cạnh tranh cao mà không phải hy sinh tốc độ suy luận thời gian thực.

  • Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
  • Tổ chức: Baidu
  • Ngày: 24-07-2024
  • Liên kết: Arxiv, GitHub

Link to this sectionCải tiến kiến trúc#

RTDETRv2 tái định hình cơ bản pipeline phát hiện bằng cách sử dụng kiến trúc dựa trên transformer giúp bỏ qua NMS một cách tự nhiên. Điều này đạt được thông qua encoder lai và lựa chọn truy vấn nhận biết IoU, giúp cải thiện việc khởi tạo các truy vấn đối tượng. Model xử lý hiệu quả các đặc trưng đa quy mô, cho phép nó nắm bắt các chi tiết phức tạp trong những môi trường phức tạp, chẳng hạn như phát hiện video giao thông vào ban đêm.

Tuy nhiên, các transformer vốn dĩ đòi hỏi nhiều tài nguyên. Việc huấn luyện RTDETRv2 thường đòi hỏi bộ nhớ GPU và các chu kỳ tính toán đáng kể hơn so với các lựa chọn thay thế dựa trên CNN, điều này có thể là một trở ngại cho các nhóm hoạt động với những hạn chế ngân sách nghiêm ngặt hoặc những người yêu cầu tinh chỉnh model thường xuyên.

Tìm hiểu thêm về RTDETR

Link to this sectionBảng so sánh hiệu suất#

Để đánh giá khách quan các kiến trúc này, chúng tôi kiểm tra hiệu suất của chúng trên tập dữ liệu COCO. Bảng dưới đây minh họa sự đánh đổi giữa độ chính xác (mAP), số lượng tham số và độ phức tạp tính toán.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Trong khi RTDETRv2 đạt được độ chính xác ấn tượng, YOLOX vẫn duy trì lợi thế trong các cấu hình tham số nhẹ, đặc biệt là với các biến thể Nano và Tiny của nó.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOX và RT-DETR phụ thuộc vào các yêu cầu cụ thể của dự án, các hạn chế khi triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOX#

YOLOX là lựa chọn mạnh mẽ cho:

  • Nghiên cứu Phát hiện Anchor-Free: Nghiên cứu học thuật sử dụng kiến trúc anchor-free sạch, gọn của YOLOX làm baseline để thử nghiệm với các head phát hiện hoặc hàm mất mát mới.
  • Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ nơi mà footprint cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
  • Nghiên cứu Gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ trong đào tạo.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR được khuyên dùng cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế từ Ultralytics: YOLO26#

Mặc dù cả YOLOX và RTDETRv2 đều mang lại những thế mạnh riêng biệt, Ultralytics YOLO26 mới được phát hành đã định nghĩa lại tiêu chuẩn tiên tiến cho AI thị giác, giải quyết các sự đánh đổi lịch sử giữa tốc độ, độ chính xác và tính dễ dàng khi triển khai.

Link to this section1. Kiến trúc End-to-End không cần NMS#

Lấy cảm hứng từ các model transformer trong khi vẫn giữ được hiệu suất của CNN, YOLO26 có thiết kế end-to-end không cần NMS. Bằng cách loại bỏ Non-Maximum Suppression như một bước xử lý hậu kỳ, YOLO26 đơn giản hóa đáng kể các pipeline triển khai, đảm bảo độ trễ suy luận nhất quán trên nhiều thiết bị biên mà không cần chi phí điều chỉnh ngưỡng phức tạp.

Link to this section2. Suy luận CPU nhanh hơn tới 43%#

Không giống như các kiến trúc transformer như RTDETRv2 vốn phụ thuộc nhiều vào các GPU cao cấp, YOLO26 được tối ưu hóa đặc biệt cho các môi trường điện toán biên. Thông qua việc loại bỏ Distribution Focal Loss (DFL), YOLO26 hợp lý hóa việc xuất model và đạt được tốc độ suy luận CPU nhanh hơn tới 43%, biến nó thành lựa chọn lý tưởng để tích hợp vào các phần cứng như Raspberry Pi hoặc các thiết bị di động tiêu chuẩn.

Link to this section3. Hiệu quả huấn luyện với MuSGD#

Việc huấn luyện các model transformer thường dẫn đến mức tiêu thụ bộ nhớ CUDA quá mức và thời gian huấn luyện kéo dài. YOLO26 giới thiệu MuSGD Optimizer mới—một sự kết hợp giữa Stochastic Gradient Descent và trình tối ưu hóa Muon lấy cảm hứng từ LLM. Cải tiến này mang lại quá trình huấn luyện ổn định vượt trội và hội tụ nhanh hơn, giảm đáng kể các yêu cầu phần cứng so với RTDETRv2.

Link to this section4. Hệ sinh thái và tính linh hoạt vô song#

Hệ sinh thái Ultralytics mang lại trải nghiệm nhà phát triển trực quan, hợp lý. Với tài liệu mở rộng, hỗ trợ cộng đồng tích cực và Nền tảng Ultralytics hỗ trợ đám mây, việc quản lý toàn bộ vòng đời AI chưa bao giờ dễ dàng hơn thế. Hơn nữa, YOLO26 rất linh hoạt. Trong khi RTDETRv2 tập trung vào phát hiện đối tượng, YOLO26 hỗ trợ liền mạch các tác vụ phân đoạn đối tượng, ước tính tư thế, phân loại hình ảnhhộp bao định hướng (OBB) một cách tự nhiên. Được tăng cường bởi các hàm mất mát ProgLoss + STAL mới, YOLO26 cũng xuất sắc trong việc nhận diện đối tượng nhỏ, một tính năng quan trọng cho hình ảnh trên khôngphát hiện lỗi công nghiệp.

Các model được hỗ trợ khác

Framework Ultralytics cũng hỗ trợ thế hệ trước là YOLO11YOLOv8, cho phép người dùng dễ dàng đánh giá và chuyển đổi các pipeline cũ.

Link to this sectionTích hợp liền mạch với Ultralytics#

Việc triển khai các model không nên đòi hỏi phải vật lộn với các codebase phức tạp, rời rạc. API Python của Ultralytics cho phép bạn tải, huấn luyện và xuất các model tiên tiến chỉ trong vài dòng code.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Bằng cách tận dụng Ultralytics, bạn tránh được các cấu hình môi trường phức tạp thường liên quan đến các kho lưu trữ nghiên cứu, từ đó rút ngắn thời gian đưa sản phẩm ra thị trường.

Link to this sectionKết luận#

YOLOX và RTDETRv2 đại diện cho những cột mốc quan trọng trong sự tiến bộ của việc phát hiện đối tượng thời gian thực. YOLOX đã chứng minh tính khả thi của các CNN không cần anchor hiệu quả cao, trong khi RTDETRv2 đã điều chỉnh thành công các transformer cho các hạn chế thời gian thực.

Tuy nhiên, đối với các ứng dụng hiện đại, từ phân tích bán lẻ thông minh đến robot nhúng, Ultralytics YOLO26 cung cấp giải pháp tối ưu. Bằng cách kết hợp suy luận không cần NMS với tốc độ CPU chưa từng có, dấu chân bộ nhớ giảm và sự hỗ trợ mạnh mẽ của Nền tảng Ultralytics, YOLO26 trang bị cho các nhà phát triển khả năng xây dựng thế hệ tiếp theo của các hệ thống thị giác máy tính hiệu năng cao và đáng tin cậy.

Những người đóng góp

Bình luận