Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh YOLOv5 với RTDETRv2#

Bối cảnh của computer vision đã mở rộng đáng kể trong vài năm qua, mang đến cho các nhà phát triển hàng loạt kiến trúc đa dạng để giải quyết các tác vụ thị giác phức tạp. Trong số đó, các mô hình phổ biến nhất là Convolutional Neural Networks (CNN) và Detection Transformers (DETR).

Hướng dẫn này cung cấp so sánh kỹ thuật chuyên sâu giữa hai mô hình chủ chốt trong các danh mục này: Ultralytics YOLOv5, một mô hình dựa trên CNN hiệu quả cao và được áp dụng rộng rãi, cùng RTDETRv2, một trình phát hiện vật thể thời gian thực dựa trên transformer hiện đại.

Link to this sectionUltralytics YOLOv5: Tiêu chuẩn ngành về hiệu suất#

Kể từ khi ra mắt, Ultralytics YOLOv5 đã trở thành nền tảng của cộng đồng AI, hỗ trợ hàng ngàn ứng dụng thương mại và dự án nghiên cứu trên toàn cầu. Được xây dựng hoàn toàn trên khung PyTorch, nó ưu tiên trải nghiệm nhà phát triển trực quan mà không ảnh hưởng đến hiệu suất thời gian thực.

Đặc điểm chính:

Link to this sectionKiến trúc và thế mạnh#

YOLOv5 sử dụng kiến trúc CNN tinh gọn, được thiết kế để tối đa hóa hiệu quả feature extraction trong khi vẫn duy trì mức tiêu thụ bộ nhớ cực thấp. Nó sử dụng backbone CSPDarknet và neck PANet, tạo ra sự kết hợp mạnh mẽ cho việc hợp nhất đặc trưng đa quy mô.

Một trong những ưu điểm chính của YOLOv5 là Cân bằng hiệu suất. Nó đạt được sự đánh đổi tuyệt vời giữa tốc độ và độ chính xác, biến nó thành lựa chọn lý tưởng cho việc model deployment trên phần cứng hạn chế tài nguyên như các thiết bị NVIDIA Jetson và điện thoại thông minh.

Hơn nữa, YOLOv5 tự hào về khả năng Đa năng vô song. Không giống như các mô hình chỉ giới hạn ở việc dự đoán bounding box, YOLOv5 hỗ trợ nguyên bản image classificationinstance segmentation, cung cấp một khung làm việc thống nhất cho các tác vụ thị giác đa dạng. training efficiency của nó cũng rất đáng chú ý, đòi hỏi ít bộ nhớ CUDA hơn đáng kể trong quá trình huấn luyện so với các kiến trúc dựa trên transformer.

Link to this sectionNhược điểm#

Do dựa trên khung CNN cũ hơn, YOLOv5 về cơ bản phụ thuộc vào Non-Maximum Suppression (NMS) trong quá trình hậu xử lý để loại bỏ các bounding box trùng lặp. Mặc dù đã được tối ưu hóa cao trong hệ sinh thái Ultralytics, NMS đôi khi có thể gây ra hiện tượng nghẽn độ trễ trên các NPU biên chuyên dụng.

Tìm hiểu thêm về YOLOv5

Link to this sectionRTDETRv2: Transformer thời gian thực từ Baidu#

RTDETRv2 (Real-Time Detection Transformer v2) đại diện cho bước nhảy vọt đáng kể trong việc áp dụng kiến trúc transformer vào phát hiện vật thể thời gian thực, giải quyết các thiếu sót về hiệu suất tính toán từng gây khó khăn cho các mô hình DETR tiêu chuẩn trước đây.

Đặc điểm chính:

Link to this sectionKiến trúc và thế mạnh#

RTDETRv2 được xây dựng dựa trên phiên bản tiền nhiệm bằng cách sử dụng bộ encoder lai và thiết kế decoder linh hoạt để xử lý hình ảnh. Cơ chế self-attention của transformer cung cấp cho mô hình sự hiểu biết toàn diện về ngữ cảnh hình ảnh, cho phép nó hoạt động đặc biệt hiệu quả trong các cảnh phức tạp với tình trạng vật thể bị che khuất nghiêm trọng.

Tính năng xác định của RTDETRv2 là thiết kế end-to-end, không dùng NMS. Bằng cách dự đoán các object query trực tiếp mà không cần anchor boxes hoặc hậu xử lý NMS, nó làm đơn giản hóa đường ống inference. Kiến trúc này đạt được mAP (mean Average Precision) ấn tượng trên các tập dữ liệu tiêu chuẩn như COCO.

Link to this sectionNhược điểm#

Mặc dù có khả năng thời gian thực, RTDETRv2 có yêu cầu bộ nhớ cao hơn đáng kể so với các mô hình YOLO. Cơ chế attention trong các transformer mở rộng theo cấp số nhân với độ dài chuỗi, điều này có thể dẫn đến lỗi hết bộ nhớ trong quá trình huấn luyện độ phân giải cao trừ khi sử dụng các cụm GPU khổng lồ. Ngoài ra, nó thiếu sự đa năng sẵn có của hệ sinh thái Ultralytics, chủ yếu chỉ tập trung vào object detection 2D mà không hỗ trợ nguyên bản cho phân đoạn hoặc ước tính pose.

Tìm hiểu thêm về RTDETR

Link to this sectionBảng so sánh hiệu suất#

Để đánh giá khách quan các kiến trúc này, chúng tôi đã tổng hợp các chỉ số hiệu suất của chúng. Các giá trị được in đậm đại diện cho các chỉ số hiệu quả nhất hoặc có hiệu suất cao nhất trên các thang đo đã kiểm nghiệm.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Bối cảnh hiệu suất

Trong khi RTDETRv2-x đạt được mAP tuyệt đối cao nhất, nó yêu cầu số tham số gấp gần 30 lần so với YOLOv5n. Đối với các ứng dụng tốc độ cao chạy trên phần cứng hạn chế, các mô hình Ultralytics liên tục mang lại hiệu quả tính toán tốt nhất.

Link to this sectionLợi thế từ hệ sinh thái Ultralytics#

Khi chuyển một mô hình từ môi trường nghiên cứu (notebook) sang môi trường sản xuất, phần mềm bao quanh mô hình cũng quan trọng như kiến trúc mạng thần kinh. Hệ sinh thái được bảo trì tốt do Ultralytics cung cấp giúp tăng tốc đáng kể vòng đời phát triển.

Link to this sectionSự dễ sử dụng vô song#

Các mô hình Ultralytics ưu tiên trải nghiệm người dùng vô cùng tinh gọn. Cho dù bạn muốn huấn luyện một mô hình tùy chỉnh, thực hiện xác thực hay xuất sang các định dạng dành riêng cho phần cứng như TensorRT hoặc ONNX, Ultralytics Python API giúp thực hiện điều đó chỉ với vài dòng mã.

Dưới đây là một ví dụ mã thực tế chứng minh sự đơn giản trong việc huấn luyện và chạy inference với một mô hình Ultralytics:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

API đơn giản, thống nhất này hỗ trợ nguyên bản các tích hợp experiment tracking với các công cụ như Weights & BiasesComet, cho phép các nhà phát triển ghi lại các chỉ số một cách liền mạch mà không cần viết mã boilerplate phức tạp.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv5 và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv5#

YOLOv5 là lựa chọn mạnh mẽ cho:

  • Hệ thống sản xuất đã được kiểm chứng: Các hệ thống triển khai hiện có, nơi mà lịch sử lâu dài về tính ổn định, tài liệu đầy đủ và sự hỗ trợ cộng đồng khổng lồ của YOLOv5 được đánh giá cao.
  • Huấn luyện hạn chế tài nguyên: Các môi trường có tài nguyên GPU hạn chế, nơi đường ống huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 mang lại nhiều lợi thế.
  • Hỗ trợ định dạng xuất mở rộng: Các dự án yêu cầu triển khai trên nhiều định dạng bao gồm ONNX, TensorRT, CoreMLTFLite.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR được khuyên dùng cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionHướng tới tương lai: YOLO11 và YOLO26#

Nếu bạn đang bắt đầu một dự án thị giác mới ngày hôm nay, bạn nên khám phá các thế hệ mô hình mới nhất của Ultralytics.

Mặc dù YOLOv5 vẫn vô cùng đáng tin cậy, YOLO11 cung cấp độ chính xác được cải thiện và một bộ tác vụ mở rộng bao gồm phát hiện Oriented Bounding Box (OBB).

Quan trọng hơn, YOLO26 tiên tiến kết hợp những điểm mạnh nhất của cả hai thế giới. Nó triển khai Thiết kế End-to-End không dùng NMS (lần đầu tiên xuất hiện trong YOLOv10), loại bỏ chi phí hậu xử lý trong khi vẫn duy trì hiệu suất của một CNN. YOLO26 cũng giới thiệu Bộ tối ưu hóa MuSGD, lấy cảm hứng từ các cải tiến huấn luyện LLM, để hội tụ nhanh hơn. Với việc Loại bỏ DFL (Distribution Focal Loss bị loại bỏ để xuất đơn giản hơn và cải thiện khả năng tương thích với các thiết bị biên/công suất thấp), YOLO26 mang lại Inference CPU nhanh hơn tới 43%, khiến nó trở thành lựa chọn tuyệt đối tốt nhất cho AI biên. Ngoài ra, ProgLoss + STAL cung cấp các hàm mất mát (loss function) được cải tiến với những bước tiến đáng kể trong việc nhận diện vật thể nhỏ, rất quan trọng cho IoT, robot và hình ảnh trên không.

Link to this sectionKết luận#

Việc lựa chọn giữa YOLOv5 và RTDETRv2 phụ thuộc rất nhiều vào các hạn chế triển khai của bạn. RTDETRv2 đẩy mạnh giới hạn của mAP bằng cách sử dụng các cơ chế attention mạnh mẽ của transformer nhưng đi kèm với chi phí cao về bộ nhớ và chi phí tính toán.

Ngược lại, Ultralytics YOLOv5 cung cấp một giải pháp đã được chứng minh, được tối ưu hóa cao và đa năng, chạy mượt mà ở mọi nơi—từ máy chủ đám mây đến vi điều khiển. Đối với các đội ngũ tìm kiếm độ chính xác cao nhất có thể cùng với các công cụ triển khai liền mạch, việc nâng cấp trong hệ sinh thái Ultralytics lên YOLO26 cung cấp giải pháp hiện đại nhất cho các ứng dụng vision AI ngày nay.

Những người đóng góp

Bình luận