Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv6-3.0 so với RTDETRv2#

Việc lựa chọn kiến trúc tối ưu cho các ứng dụng computer vision đòi hỏi sự cân bằng giữa tốc độ, độ chính xác và các hạn chế khi triển khai. Trong bài phân tích kỹ thuật toàn diện này, chúng tôi so sánh YOLOv6-3.0, một mạng thần kinh tích chập (CNN) cấp công nghiệp được thiết kế cho các môi trường GPU có lưu lượng xử lý cao, với RTDETRv2, một mô hình dựa trên Transformer hiện đại mang các cơ chế attention vào việc phát hiện đối tượng thời gian thực.

Mặc dù cả hai mô hình đều là những cột mốc quan trọng trong nghiên cứu trí tuệ nhân tạo, các nhà phát triển đang tìm kiếm quy trình làm việc linh hoạt và hiệu quả nhất thường chuyển sang sử dụng Ultralytics Platform mạnh mẽ.


Link to this sectionYOLOv6-3.0: Thông lượng công nghiệp#

Được phát triển bởi Bộ phận AI Tầm nhìn tại Meituan, YOLOv6-3.0 tập trung mạnh mẽ vào việc tối đa hóa tốc độ xử lý thô trên các bộ tăng tốc phần cứng như GPU NVIDIA, khẳng định vị thế của nó trong các ứng dụng công nghiệp kế thừa.

Link to this sectionĐiểm nổi bật về kiến trúc#

YOLOv6-3.0 sử dụng backbone EfficientRep thân thiện với phần cứng, được thiết kế riêng cho suy luận (inference) GPU tốc độ cao. Kiến trúc này tích hợp mô-đun Bi-directional Concatenation (BiC) ở phần cổ (neck) để làm phong phú thêm việc hợp nhất đặc trưng qua các độ phân giải không gian khác nhau. Trong quá trình huấn luyện, nó tận dụng chiến lược Anchor-Aided Training (AAT) để khai thác sức mạnh của việc huấn luyện dựa trên anchor mà vẫn duy trì quy trình suy luận không cần anchor.

Link to this sectionĐiểm mạnh và điểm yếu#

Điểm mạnh:

  • Thông lượng vượt trội trên phần cứng cấp máy chủ như GPU T4 và A100.
  • Cung cấp các hướng dẫn định lượng chuyên biệt cho việc triển khai INT8 sử dụng RepOpt.
  • Tỷ lệ tham số trên tốc độ thuận lợi cho phân tích video quy mô lớn.

Điểm yếu:

  • Chủ yếu là trình phát hiện khung bao (bounding box); thiếu khả năng linh hoạt đa nhiệm (ví dụ: Pose, OBB) sẵn có được tìm thấy trong các mô hình như Ultralytics YOLO11.
  • Phụ thuộc nhiều hơn vào kỹ thuật Non-Maximum Suppression (NMS) phức tạp trong quá trình hậu xử lý, làm tăng độ trễ không ổn định.
  • Hệ sinh thái ít hoạt động hơn so với các framework phổ biến, khiến việc cập nhật và hỗ trợ cộng đồng trở nên khó dự đoán hơn.

Tìm hiểu thêm về YOLOv6


Link to this sectionRTDETRv2: Transformer thời gian thực#

Được dẫn dắt bởi các nhà nghiên cứu tại Baidu, RTDETRv2 được xây dựng dựa trên RT-DETR gốc bằng cách tinh chỉnh framework detection transformer với phương pháp "bag-of-freebies", đạt được độ chính xác hiện đại mà không làm giảm khả năng hoạt động thời gian thực.

  • Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
  • Tổ chức: Baidu
  • Ngày: 24-07-2024
  • ArXiv: 2407.17140
  • GitHub: lyuwenyu/RT-DETR

Link to this sectionĐiểm nổi bật về kiến trúc#

Không giống như các CNN truyền thống, RTDETRv2 là end-to-end tự nhiên. Bằng cách tận dụng các lớp attention của transformer, kiến trúc này loại bỏ hoàn toàn nhu cầu hậu xử lý NMS. Điều này cho phép một quy trình suy luận được tinh giản. RTDETRv2 giới thiệu khả năng hợp nhất đặc trưng đa quy mô được tối ưu hóa cao và bộ mã hóa hybrid hiệu quả, cho phép nó xử lý các tập dữ liệu COCO tiêu chuẩn với độ chính xác đáng kinh ngạc.

Link to this sectionĐiểm mạnh và điểm yếu#

Điểm mạnh:

  • Các cơ chế attention dựa trên Transformer mang lại mean Average Precision (mAP) vượt trội, đặc biệt là trên các cảnh phức tạp hoặc dày đặc.
  • Thiết kế không cần NMS giúp tiêu chuẩn hóa độ trễ suy luận và đơn giản hóa việc tích hợp vào môi trường sản xuất.
  • Tuyệt vời cho các kịch bản đòi hỏi độ chính xác tối đa tuyệt đối khi các hạn chế về phần cứng là tối thiểu.

Điểm yếu:

  • Các lớp Transformer đòi hỏi bộ nhớ CUDA đáng kể trong quá trình huấn luyện, gây khó khăn cho các nhà nghiên cứu không có quyền truy cập vào GPU cao cấp.
  • Tốc độ suy luận CPU chậm hơn đáng kể so với các CNN biên chuyên dụng, hạn chế việc sử dụng trên các thiết bị di động hoặc IoT.
  • Việc thiết lập và tinh chỉnh có thể phức tạp đối với các đội ngũ đã quen với machine learning operations (MLOps) truyền thống.

Tìm hiểu thêm về RTDETR


Link to this sectionSo sánh hiệu năng chi tiết#

Bảng dưới đây đánh giá hiệu năng của YOLOv6-3.0 và RTDETRv2 dựa trên các chỉ số hiệu suất chính. Lưu ý sự tương phản rõ rệt giữa hiệu quả tham số của YOLOv6 và độ chính xác thô của RTDETRv2.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Mẹo triển khai

Nếu bạn đang triển khai trên phần cứng chỉ sử dụng CPU như Raspberry Pi, các mô hình dựa trên CNN thường vượt trội hơn nhiều so với kiến trúc Transformer về số khung hình trên giây (FPS). Để có hiệu suất biên tối ưu, hãy cân nhắc sử dụng OpenVINO để tăng tốc độ suy luận.


Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv6 và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv6#

YOLOv6 là sự lựa chọn mạnh mẽ cho:

  • Triển khai chú trọng phần cứng công nghiệp: Các kịch bản mà thiết kế chú trọng phần cứng của mô hình và khả năng tái tham số hóa hiệu quả mang lại hiệu năng tối ưu trên phần cứng mục tiêu cụ thể.
  • Phát hiện single-stage nhanh: Các ứng dụng ưu tiên tốc độ inference thô trên GPU để xử lý video thời gian thực trong các môi trường được kiểm soát.
  • Tích hợp hệ sinh thái Meituan: Các đội ngũ đã và đang làm việc trong hệ sinh thái công nghệ và hạ tầng triển khai của Meituan.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR được khuyên dùng cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế của Ultralytics: Sự ra đời của YOLO26#

Trong khi YOLOv6-3.0 và RTDETRv2 vượt trội trong các phân khúc cụ thể của chúng, bối cảnh học máy hiện đại đòi hỏi các mô hình kết hợp được tốc độ, độ chính xác và trải nghiệm nhà phát triển. Hệ sinh thái Ultralytics giải quyết hoàn hảo những nhu cầu này, đặc biệt là với sự ra mắt của YOLO26.

Ra mắt vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho tiêu chuẩn xác định cho thị giác máy tính, vượt xa các mô hình cũ như YOLOv8 và các nhánh cộng đồng như YOLO12.

Link to this sectionTại sao YOLO26 vượt trội hơn đối thủ#

  1. Thiết kế End-to-End không cần NMS: Lần đầu được tiên phong trong YOLOv10, YOLO26 loại bỏ hoàn toàn việc hậu xử lý NMS một cách tự nhiên. Điều này mang lại sự đơn giản khi triển khai như RTDETRv2 trong khi vẫn duy trì tốc độ cực nhanh của một CNN được tối ưu hóa cao.
  2. Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong mô hình ngôn ngữ lớn (chẳng hạn như Kimi K2 của Moonshot AI), YOLO26 sử dụng kết hợp giữa SGD và Muon. Điều này đảm bảo động lực học huấn luyện cực kỳ ổn định và hội tụ nhanh chóng, giảm thời gian và tài nguyên tính toán cần thiết cho các tập dữ liệu tùy chỉnh.
  3. Hiệu suất biên vô song: Bằng cách thực hiện xóa bỏ hoàn toàn DFL (Distribution Focal Loss), YOLO26 đơn giản hóa các kiến trúc xuất (export). Sự tối ưu hóa này mang lại tốc độ suy luận CPU nhanh hơn tới 43% so với các mô hình cũ, biến nó thành nhà vô địch không thể tranh cãi cho các thiết bị AI biên và IoT.
  4. Cải thiện phát hiện đối tượng nhỏ: Việc giới thiệu các hàm mất mát ProgLoss và STAL mang lại một bước tiến lớn trong việc phát hiện các đối tượng nhỏ—một yêu cầu quan trọng cho phân tích máy bay không người lái và hình ảnh trên không mà YOLOv6 trước đây gặp khó khăn.
  5. Tính linh hoạt đa nhiệm: Không giống như YOLOv6, vốn chỉ tập trung vào việc phát hiện, YOLO26 hỗ trợ các quy trình làm việc đa phương thức bao gồm Instance Segmentation, Pose Estimation, Image Classification, và Oriented Bounding Box (OBB)—tất cả từ một API thống nhất duy nhất.

Tìm hiểu thêm về YOLO26

Link to this sectionHiệu quả huấn luyện và sự dễ sử dụng#

Ultralytics Python API được thiết kế để tối đa hóa năng suất của nhà phát triển. Bạn có thể chuyển từ huấn luyện sang triển khai chỉ trong vài dòng code, bỏ qua hoàn toàn việc thiết lập môi trường phức tạp thường thấy trong các kho lưu trữ nghiên cứu độc lập.

Dưới đây là một ví dụ hoàn chỉnh, có thể chạy được về cách huấn luyện và xác thực một mô hình YOLO26 tiên tiến bằng cách sử dụng gói Ultralytics:

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on a custom dataset (e.g., COCO8) for 50 epochs
# The API automatically handles dataset caching and environment config
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's accuracy on the validation split
val_metrics = model.val()
print(f"Validation mAP50-95: {val_metrics.box.map:.4f}")

# Export the trained model to ONNX for production deployment
model.export(format="onnx")

Link to this sectionKết luận#

Cả YOLOv6-3.0 và RTDETRv2 đều là những đóng góp ấn tượng cho cộng đồng AI. YOLOv6-3.0 vẫn là một công cụ mạnh mẽ cho tự động hóa công nghiệp dựa trên GPU, và RTDETRv2 chứng minh rằng các kiến trúc Transformer có thể đạt được độ trễ thời gian thực trong khi tối đa hóa độ chính xác.

Tuy nhiên, đối với các đội ngũ yêu cầu một framework tin cậy, sẵn sàng cho sản xuất với sự hỗ trợ tích cực từ cộng đồng, các mô hình Ultralytics YOLO luôn là lựa chọn tốt hơn. Sự tích hợp liền mạch với các nền tảng như Hugging FaceTensorRT, kết hợp với mức tiêu thụ bộ nhớ cực thấp trong quá trình huấn luyện, giúp dân chủ hóa khả năng tiếp cận AI cao cấp. Bằng cách nâng cấp lên YOLO26, các nhà phát triển có thể tận dụng trình tối ưu hóa MuSGD đột phá và kiến trúc không cần NMS để xây dựng các quy trình thị giác máy tính nhanh hơn, thông minh hơn và có khả năng mở rộng tốt hơn.

Những người đóng góp

Bình luận