Link to this sectionRTDETRv2 so với YOLO11#

Bối cảnh thị giác máy tính đang không ngừng phát triển, với các kiến trúc mới liên tục mở rộng giới hạn khả năng xử lý trên các thiết bị biên và máy chủ đám mây. Hai trong số những đối thủ nổi bật nhất trong lĩnh vực phát hiện vật thể thời gian thực hiện nay là RTDETRv2 và YOLO11. Mặc dù cả hai model đều mang lại hiệu năng vượt trội, chúng đại diện cho các triết lý kiến trúc khác biệt cơ bản: phương pháp tiếp cận dựa trên Transformer so với Mạng nơ-ron tích chập (CNN) được tối ưu hóa cao.

Trong bài so sánh kỹ thuật toàn diện này, chúng ta sẽ khám phá kiến trúc, các chỉ số hiệu năng, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng cho cả hai model, giúp bạn đưa ra quyết định sáng suốt cho ứng dụng trí tuệ nhân tạo tiếp theo của mình.

Link to this sectionRTDETRv2: Đối thủ dựa trên Transformer#

Được giới thiệu như một sự cải tiến của Real-Time Detection Transformer nguyên bản, RTDETRv2 tận dụng các cơ chế chú ý (attention mechanisms) để xử lý dữ liệu hình ảnh. Bằng cách coi các vùng ảnh là các chuỗi, nó đạt được sự hiểu biết toàn diện về bối cảnh hình ảnh, điều này cực kỳ hữu ích cho việc phát hiện các vật thể chồng lấn nhiều trong các cảnh phức tạp.

Chi tiết Model:

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv: 2407.17140
GitHub: Kho lưu trữ RT-DETR
Tài liệu: Tài liệu RTDETRv2

Link to this sectionĐiểm mạnh và Điểm yếu về Kiến trúc#

Đổi mới chính của RTDETRv2 là kiến trúc end-to-end không cần NMS. Bằng cách loại bỏ Non-Maximum Suppression (NMS), nó làm đơn giản hóa quy trình hậu xử lý. Hơn nữa, khả năng trích xuất đặc trưng đa quy mô của nó đã được cải thiện so với model RT-DETR gốc, cho phép nó xác định tốt hơn các vật thể có kích thước khác nhau.

Tuy nhiên, vì dựa trên Transformer, RTDETRv2 thường chịu yêu cầu bộ nhớ cao hơn đáng kể trong quá trình huấn luyện. Các Transformer thường hội tụ chậm hơn và yêu cầu bộ nhớ CUDA đáng kể so với CNN truyền thống, khiến chúng ít tiếp cận hơn đối với các nhà nghiên cứu sử dụng phần cứng cấp độ tiêu dùng hoặc triển khai trong các môi trường edge AI hạn chế.

Tìm hiểu thêm về RTDETR

Link to this sectionUltralytics YOLO11: Đỉnh cao của hiệu quả CNN#

Dựa trên nhiều năm nghiên cứu nền tảng, Ultralytics đã phát hành YOLO11 như một bước tiến lớn trong dòng dõi YOLO. Nó tinh chỉnh kiến trúc CNN để đạt được tốc độ và độ chính xác chưa từng có, duy trì sự linh hoạt và hệ sinh thái thân thiện với nhà phát triển mà cộng đồng mong đợi.

Chi tiết Model:

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 27 tháng 9, 2024
GitHub: Kho lưu trữ Ultralytics

Link to this sectionLợi thế từ Ultralytics#

YOLO11 tỏa sáng ở Cân bằng hiệu năng. Nó đạt được sự đánh đổi phi thường giữa tốc độ và độ chính xác, giúp nó đặc biệt linh hoạt cho nhiều kịch bản triển khai thực tế đa dạng, từ các cụm cloud computing lớn đến các thiết bị di động nhẹ.

Hơn nữa, các model Ultralytics YOLO nổi tiếng với mức sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện và suy luận. Không giống như các model Transformer có thể dễ dàng làm cạn kiệt VRAM, YOLO11 cho phép kích thước batch lớn hơn trên các GPU tiêu chuẩn. Hơn nữa, YOLO11 không chỉ giới hạn ở việc phát hiện vật thể; nó còn tự hào về Sự linh hoạt đáng kinh ngạc, với sự hỗ trợ gốc cho Instance Segmentation, Image Classification, Pose Estimation, và Oriented Bounding Boxes (OBB).

Tìm hiểu thêm về YOLO11

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Khi so sánh các con số thô, rõ ràng là trong khi RTDETRv2 đạt được độ chính xác ấn tượng, YOLO11 cung cấp nhiều lựa chọn kích thước model chi tiết hơn với tốc độ suy luận vượt trội, đặc biệt là trên TensorRT.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Như đã thấy trong bảng, model YOLO11x đạt mAP^val vượt trội là 54.7% trong khi sử dụng ít FLOPs hơn (194.9B so với 259B) và mang lại suy luận nhanh hơn trên TensorRT (11.3ms so với 15.03ms) so với biến thể RTDETRv2-x. Các biến thể nano và small của YOLO11 cung cấp các tùy chọn gọn nhẹ vô song cho các thiết bị hạn chế như Raspberry Pi.

Link to this sectionHệ sinh thái, Tính dễ sử dụng và Huấn luyện#

Đặc điểm nổi bật của các model Ultralytics là trải nghiệm người dùng được tinh giản. Gói Python ultralytics cung cấp một API thống nhất, trực quan giúp xử lý khối lượng công việc nặng nề của data augmentation, huấn luyện phân tán và xuất model. Trong khi kho lưu trữ nghiên cứu của RTDETRv2 đòi hỏi nhiều boilerplate và cấu hình, Ultralytics cung cấp một quy trình "từ con số 0 đến chuyên nghiệp".

Thú vị là, hệ sinh thái Ultralytics mạnh mẽ đến mức nó hỗ trợ tự nhiên việc chạy các model RT-DETR cùng với các model YOLO! Điều này cho phép bạn tận dụng Hệ sinh thái được duy trì tốt của Ultralytics—bao gồm các tích hợp với Weights & Biases và Comet ML—để theo dõi các thử nghiệm một cách dễ dàng.

from ultralytics import RTDETR, YOLO

# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")

# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")

Tối ưu hóa Quy trình công việc của bạn

Hiệu quả huấn luyện là tối quan trọng trong machine learning. Các model Ultralytics sử dụng các trọng số được huấn luyện sẵn hội tụ nhanh chóng. Để quản lý các tập dữ liệu, các đợt huấn luyện và các điểm cuối triển khai mà không cần viết mã, hãy khám phá Ultralytics Platform để có trải nghiệm MLOps tích hợp.

Link to this sectionỨng dụng trong thực tế#

Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào các hạn chế triển khai cụ thể của dự án của bạn.

Nơi RTDETRv2 vượt trội: Kiến trúc backbone Transformer của RTDETRv2 rất hiệu quả trong các kịch bản với các vật thể dày đặc, bị che khuất nặng nề nơi cần bối cảnh toàn cục. Nó thường được đánh giá trong nghiên cứu học thuật và các ứng dụng mà ngân sách tính toán ít quan trọng hơn so với việc lập bản đồ mối quan hệ dựa trên chú ý thô.

Nơi YOLO11 thống trị: YOLO11 là nhà vô địch không thể tranh cãi trong triển khai thực tế. Dấu chân bộ nhớ tối thiểu và tốc độ suy luận nhanh như chớp khiến nó trở nên lý tưởng cho:

Sản xuất thông minh: Chạy phát hiện lỗi thời gian thực trên các dây chuyền sản xuất bằng PC công nghiệp.
Nông nghiệp: Triển khai trên máy bay không người lái để theo dõi sức khỏe cây trồng thời gian thực và robot thu hoạch tự động.
Phân tích bán lẻ: Xử lý nhiều luồng camera đồng thời để quản lý hàng đợi và theo dõi tồn kho mà không cần các trang trại máy chủ khổng lồ.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa RT-DETR và YOLO11 phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR là lựa chọn mạnh mẽ cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn YOLO11#

YOLO11 được khuyến nghị cho:

Triển khai Edge trong sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và sự bảo trì tích cực là tối quan trọng.
Các ứng dụng thị giác đa tác vụ: Các dự án yêu cầu phát hiện, phân đoạn, ước tính tư thế, và OBB trong một khung duy nhất.
Tạo mẫu và triển khai nhanh: Các nhóm cần di chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng Ultralytics Python API được tinh giản.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionHướng tới tương lai: Sự xuất hiện của YOLO26#

Nếu bạn đang bắt đầu một dự án mới, bạn cũng nên xem xét thế hệ AI thị giác tiếp theo: Ultralytics YOLO26. Được phát hành vào tháng 1 năm 2026, YOLO26 kết hợp những gì tốt nhất của cả hai thế giới. Nó giới thiệu Thiết kế End-to-End không NMS (tiên phong lần đầu trong YOLOv10), loại bỏ hoàn toàn độ trễ hậu xử lý giống như RTDETRv2, nhưng với tốc độ không đối thủ của một CNN.

YOLO26 sở hữu MuSGD Optimizer—lấy cảm hứng từ các đổi mới huấn luyện LLM—cho sự hội tụ cực kỳ ổn định và nhanh chóng, và mang lại khả năng Suy luận CPU nhanh hơn tới 43% bằng cách loại bỏ Distribution Focal Loss (DFL). Với các hàm mất mát ProgLoss + STAL chuyên biệt giúp cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, YOLO26 là khuyến nghị tối ưu cho bất kỳ quy trình thị giác máy tính hiện đại nào.

Dù bạn chọn YOLO11 vì sự linh hoạt đã được kiểm chứng, RTDETRv2 vì cơ chế chú ý của nó, hay YOLO26 tiên tiến để có hiệu suất edge tối thượng, tài liệu Ultralytics cung cấp tất cả các tài nguyên cần thiết để thành công trong hành trình thị giác máy tính của bạn.

Người đóng góp

GLglenn-jocher¹³ PDpderrenger¹

Đã tạo 27 thg 1, 2025Đã cập nhật 3 tuần trước