Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 so với YOLOv9#

Lĩnh vực thị giác máy tính đã chứng kiến sự khác biệt thú vị trong triết lý kiến trúc, chủ yếu là giữa Mạng thần kinh tích chập (CNN) và các mô hình dựa trên Transformer. Khi so sánh RTDETRv2 và YOLOv9, các nhà phát triển thực chất đang đánh giá sự cân bằng giữa cơ chế chú ý toàn cục (global attention) và thông tin gradient có thể lập trình (programmable gradient information). Cả hai mô hình đều đại diện cho đỉnh cao của các mô hình tương ứng, đẩy lùi ranh giới của công nghệ phát hiện đối tượng thời gian thực.

Link to this sectionGiới thiệu về các Model#

Link to this sectionRTDETRv2: Real-Time Detection Transformer#

Được phát triển bởi các nhà nghiên cứu tại Baidu, RTDETRv2 được xây dựng dựa trên RT-DETR gốc bằng cách giới thiệu "Bag-of-Freebies" để tăng cường cho Real-Time Detection Transformer cơ sở. Nó giải quyết nút thắt cổ chai truyền thống của các transformer—tốc độ suy luận (inference speed)—giúp chúng trở nên khả thi cho các ứng dụng thời gian thực.

  • Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
  • Tổ chức: Baidu
  • Ngày: 24-07-2024
  • Liên kết: Arxiv, GitHub

Một đặc điểm xác định của RTDETRv2 là thiết kế end-to-end NMS-free nguyên bản. Bằng cách loại bỏ hoàn toàn Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, mô hình giúp ổn định độ trễ suy luận và đơn giản hóa quy trình triển khai. Cơ chế chú ý toàn cục cho phép mô hình vượt trội trong việc hiểu các cảnh phức tạp và đám đông dày đặc, vì nó đánh giá toàn bộ ngữ cảnh hình ảnh cùng một lúc.

Tìm hiểu thêm về RTDETRv2

Link to this sectionYOLOv9: Thông tin Gradient có thể lập trình#

YOLOv9, một kiến trúc dựa trên CNN hiệu quả cao, giải quyết vấn đề nút thắt thông tin vốn có trong các mạng thần kinh sâu. Nó giới thiệu Programmable Gradient Information (PGI) và Generalized Efficient Layer Aggregation Network (GELAN).

YOLOv9 dựa trên nền tảng convolutional neural network đã được kiểm chứng nhưng tối đa hóa hiệu quả tham số. Bằng cách giữ lại thông tin quan trọng trong quá trình feed-forward, nó đảm bảo việc cập nhật trọng số đáng tin cậy, tạo ra một mô hình cực kỳ nhẹ nhưng có độ chính xác cao. Tuy nhiên, không giống như RTDETRv2, YOLOv9 vẫn dựa vào quy trình hậu xử lý NMS tiêu chuẩn.

Tìm hiểu thêm về YOLOv9

Link to this sectionHiệu suất và hiệu quả tài nguyên#

Khi đánh giá các mô hình này cho sản xuất, việc cân bằng giữa mean Average Precision (mAP) và chi phí tính toán là rất quan trọng. Bảng dưới đây minh họa hiệu suất của chúng trên MS COCO dataset.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Link to this sectionYêu cầu bộ nhớ và hiệu quả huấn luyện#

Các transformer như RTDETRv2 nổi tiếng là tốn bộ nhớ trong quá trình huấn luyện, thường yêu cầu bộ nhớ CUDA đáng kể và lịch trình huấn luyện dài hơn để hội tụ hoàn toàn. Ngược lại, các kiến trúc CNN như YOLOv9 và các Ultralytics YOLO models khác cung cấp mức sử dụng bộ nhớ thấp hơn đáng kể, cho phép các nhà phát triển huấn luyện với kích thước batch lớn hơn trên phần cứng tiêu dùng.

Huấn luyện hiệu quả

Để tối đa hóa việc sử dụng phần cứng, hãy cân nhắc sử dụng Ultralytics Platform để hợp lý hóa quá trình huấn luyện trên đám mây. Nó tự động xử lý việc thiết lập môi trường và kích thước batch tối ưu.

Link to this sectionLợi thế của Ultralytics: Hệ sinh thái và tính dễ sử dụng#

Mặc dù việc nghiên cứu các kho lưu trữ độc lập như trang GitHub chính thức của RTDETRv2 hoặc YOLOv9 có thể mang tính giáo dục cao, các môi trường sản xuất đòi hỏi sự ổn định, dễ sử dụng và một hệ sinh thái được duy trì tốt. Tích hợp các mô hình này thông qua Ultralytics Python API mang lại trải nghiệm nhà phát triển liền mạch.

Link to this sectionAPI hợp nhất và tính linh hoạt#

Framework Ultralytics trừu tượng hóa các phức tạp của việc tải dữ liệu, tăng cường dữ liệu (augmentations) và huấn luyện phân tán. Hơn nữa, trong khi RTDETRv2 gốc chỉ tập trung vào phát hiện, hệ sinh thái Ultralytics cho phép người dùng dễ dàng chuyển đổi giữa Object Detection, Instance SegmentationPose Estimation.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

Với tài liệu mạnh mẽ, experiment tracking tự động và khả năng export capabilities liền mạch sang các định dạng như ONNX, TensorRT và OpenVINO, Ultralytics giảm đáng kể thời gian từ nguyên mẫu đến sản xuất.

Link to this sectionCác trường hợp sử dụng lý tưởng#

Link to this sectionNơi RTDETRv2 vượt trội#

Nhờ cơ chế chú ý toàn cục, RTDETRv2 là một cường quốc cho xử lý phía máy chủ (server-side processing) và các môi trường mà ngữ cảnh toàn cục là tối quan trọng. Nó vượt trội trong:

  • Chẩn đoán hình ảnh y tế: Xác định các bất thường tinh vi nơi ngữ cảnh xung quanh là rất quan trọng.
  • Giám sát trên không: Phát hiện các đối tượng nhỏ trong cảnh quay drone độ phân giải cao mà không bị thiên kiến không gian của các phép tích chập CNN truyền thống.
  • Phân tích đám đông dày đặc: Theo dõi các cá nhân nơi tình trạng che khuất nghiêm trọng thường gây nhầm lẫn cho các mô hình dựa trên neo (anchor-based).

Link to this sectionNơi YOLOv9 vượt trội#

YOLOv9 là nhà vô địch về triển khai tại biên (edge deployments) hạn chế tài nguyên. Hiệu quả tính toán của nó làm cho nó trở nên lý tưởng cho:

  • Robot: Điều hướng thời gian thực và tránh chướng ngại vật nơi yêu cầu độ trễ tối thiểu.
  • IoT thành phố thông minh: Triển khai trên các thiết bị biên như NVIDIA Jetson để giám sát giao thông.
  • Kiểm tra công nghiệp: Kiểm soát chất lượng dây chuyền lắp ráp tốc độ cao đòi hỏi tốc độ khung hình trên giây (FPS) cao.

Link to this sectionTương lai: Sự xuất hiện của Ultralytics YOLO26#

Trong khi YOLOv9 và RTDETRv2 đại diện cho những bước tiến lớn, bối cảnh đã phát triển nhanh chóng. Đối với các triển khai hiện đại, Ultralytics YOLO26 mới được phát hành đại diện cho sự kết hợp cuối cùng của cả hai triết lý kiến trúc.

Bằng cách lấy những khía cạnh tốt nhất của transformer và CNN, YOLO26 thiết lập một tiêu chuẩn mới:

  • Thiết kế End-to-End NMS-Free: Giống như RTDETRv2, YOLO26 là end-to-end nguyên bản, loại bỏ hoàn toàn hậu xử lý NMS để có quy trình triển khai nhanh hơn, đơn giản hơn và có khả năng dự đoán cao.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (LLM) (như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định huấn luyện chưa từng có và hội tụ nhanh cho thị giác máy tính.
  • Suy luận CPU nhanh hơn tới 43%: Không giống như các transformer nặng nề, YOLO26 được tối ưu hóa mạnh mẽ cho điện toán biên và các thiết bị không có GPU.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss làm đơn giản hóa đáng kể đồ thị mô hình, đảm bảo xuất hoàn hảo sang các thiết bị biên công suất thấp và các Đơn vị xử lý thần kinh (NPU) nhúng.
  • ProgLoss + STAL: Các hàm mất mát cải tiến này giúp tăng cường đáng kể khả năng nhận dạng đối tượng nhỏ, một tính năng quan trọng cho các tập dữ liệu IoT và trên không.

Đối với các nhóm đang tìm cách bắt đầu một dự án thị giác máy tính mới, chúng tôi thực sự khuyên bạn nên đánh giá YOLO26. Nó cung cấp sự tinh tế không cần NMS của một transformer với tốc độ cực nhanh và hiệu quả huấn luyện của một kiến trúc YOLO được tối ưu hóa cao.

Tìm hiểu thêm về YOLO26

Link to this sectionTóm tắt#

Việc chọn giữa RTDETRv2 và YOLOv9 phần lớn phụ thuộc vào phần cứng triển khai và nhu cầu độ chính xác cụ thể của bạn. RTDETRv2 cung cấp độ chính xác và khả năng nhận thức ngữ cảnh hàng đầu cho các ứng dụng dựa trên máy chủ, trong khi YOLOv9 cung cấp hiệu quả vượt trội cho các thiết bị biên.

Tuy nhiên, bằng cách tận dụng hệ sinh thái Ultralytics trưởng thành, các nhà phát triển có thể thử nghiệm với cả hai một cách dễ dàng. Hơn nữa, với sự ra đời của các mô hình mới hơn như YOLO11YOLO26 end-to-end nguyên bản, việc tìm kiếm sự cân bằng hoàn hảo giữa suy luận tốc độ cao, hỗ trợ tác vụ linh hoạt và tiêu thụ bộ nhớ thấp chưa bao giờ dễ dàng hơn thế.

Người đóng góp

Bình luận