RTDETRv2 so với PP-YOLOE+: Phân tích chuyên sâu về công nghệ nhận dạng đối tượng hiện đại

Lĩnh vực phát hiện đối tượng đã chứng kiến sự phát triển nhanh chóng, phân nhánh thành hai mô hình kiến trúc chủ đạo: Mạng nơ-ron tích chập (CNN) và Transformer. Bài so sánh này phân tích hai cột mốc quan trọng trong quá trình này: RTDETRv2 (Real-Time Detection Transformer v2), mang sức mạnh của Transformer vào các ứng dụng thời gian thực, và PP-YOLOE+ , một bộ phát hiện dựa trên CNN được tối ưu hóa cao từ... PaddlePaddle hệ sinh thái.

Mặc dù cả hai mô hình đều hướng đến độ chính xác và tốc độ tối ưu, chúng phục vụ các nhu cầu kỹ thuật khác nhau. Hướng dẫn này sẽ phân tích kiến trúc, các chỉ số hiệu suất và thực tế triển khai của chúng để giúp bạn lựa chọn công cụ tối ưu cho quy trình xử lý ảnh máy tính của mình.

So sánh Các chỉ số Hiệu suất

Bảng sau đây so sánh hiệu suất của các tỷ lệ mô hình khác nhau. Lưu ý rằng RTDETRv2 thường cho độ chính xác vượt trội hơn ( mAP ) ở quy mô tương đương, tận dụng kiến trúc transformer của nó để xử lý tốt hơn các đặc điểm hình ảnh phức tạp, mặc dù thường tốn nhiều chi phí tính toán hơn so với việc tối ưu hóa gọn nhẹ của CNN.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

RTDETRv2: Sự tiến hóa của Transformer

RTDETRv2 đánh dấu một bước tiến đáng kể trong việc ứng dụng Vision Transformers (ViT) vào các tình huống thời gian thực. Nó được xây dựng dựa trên thành công của phiên bản trước đó. RT-DETR Phiên bản này giới thiệu một "Gói quà tặng miễn phí" giúp tăng cường tính ổn định của quá trình huấn luyện và độ chính xác cuối cùng mà không làm tăng độ trễ suy luận.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức:Baidu
Ngày: 17 tháng 4 năm 2023 (Bản gốc), tháng 7 năm 2024 (bản cập nhật v2)
Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
GitHub:Kho lưu trữ RT-DETR

Các tính năng kiến trúc chính

RTDETRv2 sử dụng bộ mã hóa lai xử lý hiệu quả các đặc trưng đa tỷ lệ. Không giống như các mạng CNN thuần túy, nó sử dụng cơ chế chú ý để nắm bắt ngữ cảnh toàn cục, giúp nó đặc biệt mạnh mẽ trước hiện tượng che khuất và các cảnh đông đúc. Một đặc điểm nổi bật là khả năng thực hiện phát hiện từ đầu đến cuối , thường loại bỏ nhu cầu sử dụng thuật toán loại bỏ cực đại không cần thiết (Non-Maximum Suppression - NMS ) , mặc dù các triển khai thực tế vẫn có thể sử dụng các chiến lược lựa chọn truy vấn hiệu quả.

Ưu điểm của Transformer

Transformer vượt trội trong việc mô hình hóa các mối quan hệ phụ thuộc tầm xa trong một hình ảnh. Nếu ứng dụng của bạn liên quan đến việc phát hiện các đối tượng nằm rải rác ở xa nhau hoặc bị che khuất nhiều, cơ chế chú ý của RTDETRv2 thường hoạt động tốt hơn các trường tiếp nhận CNN truyền thống.

Tìm hiểu thêm về RT-DETR

PP-YOLOE+: Tiêu chuẩn CNN được tinh chỉnh

PP-YOLOE+ là sự phát triển của PP-YOLOE, được thiết kế trong hệ sinh thái PaddlePaddle . Nó tập trung vào việc hoàn thiện phiên bản cổ điển. YOLO kiến trúc với các cơ chế không cần neo tiên tiến và gán nhãn động, cụ thể là chiến lược Học tập Căn chỉnh Nhiệm vụ (TAL).

Tác giả: Các tác giả của PaddlePaddle
Tổ chức:Baidu
Ngày: 2 tháng 4 năm 2022
Arxiv:PP-YOLOE: Một phiên bản YOLO được phát triển
GitHub:Kho lưu trữ PaddleDetection

Các tính năng kiến trúc chính

Mô hình này sử dụng kiến trúc xương sống CSPRepResStage , kết hợp lợi ích của luồng gradient của CSPNet với khả năng tái tham số hóa của RepVGG. Điều này cho phép mô hình có cấu trúc phức tạp trong quá trình huấn luyện nhưng lại có cấu trúc đơn giản và nhanh hơn trong quá trình suy luận . Phần đầu không có anchor giúp giảm không gian tìm kiếm siêu tham số, giúp dễ dàng thích ứng với các tập dữ liệu mới hơn so với các mô hình tiền nhiệm dựa trên anchor như YOLOv4 .

So sánh Quan trọng: Kiến trúc và Trường hợp sử dụng

1. Hiệu quả đào tạo và sự hội tụ

RTDETRv2, dựa trên kiến trúc Transformer, trước đây yêu cầu thời gian huấn luyện dài hơn để hội tụ so với mạng CNN. Tuy nhiên, những cải tiến trong phiên bản v2 đã giảm thiểu đáng kể điều này, cho phép điều chỉnh số lượng epoch huấn luyện. Ngược lại, PP-YOLOE+ được hưởng lợi từ sự hội tụ nhanh chóng đặc trưng của mạng CNN nhưng có thể đạt đến điểm bão hòa sớm hơn về độ chính xác trên các tập dữ liệu khổng lồ như Objects365 .

2. Suy luận và triển khai

Mặc dù RTDETRv2 mang lại sự cân bằng ấn tượng giữa tốc độ và độ chính xác trên GPU (như...). NVIDIA (T4), các bộ chuyển đổi có thể tốn nhiều bộ nhớ hơn và hoạt động chậm hơn trên CPU biên so với các mạng nơ-ron tích chập (CNN). PP-YOLOE+ tỏa sáng trong các trường hợp yêu cầu khả năng tương thích phần cứng rộng rãi, đặc biệt là trên các thiết bị biên cũ hơn, nơi các bộ tăng tốc CNN phổ biến hơn các NPU thân thiện với bộ chuyển đổi.

3. Hệ sinh thái và bảo trì

PP-YOLOE+ có mối liên hệ mật thiết với PaddlePaddle khung làm việc. Mặc dù mạnh mẽ, điều này có thể là một trở ngại đối với các nhóm đã quen với PyTorch RTDETRv2 đã chính thức PyTorch Các triển khai riêng lẻ thường yêu cầu thiết lập môi trường cụ thể. Sự phân mảnh này làm nổi bật giá trị của một nền tảng thống nhất.

Lợi thế của Ultralytics: Giới thiệu YOLO26

Mặc dù RTDETRv2 và PP-YOLOE+ rất mạnh mẽ, nhưng các nhà phát triển thường gặp phải những thách thức như sự phân mảnh hệ sinh thái, quy trình xuất dữ liệu phức tạp và sự không tương thích phần cứng. Ultralytics YOLO26 giải quyết những vấn đề này bằng cách kết hợp hiệu năng tiên tiến với trải nghiệm phát triển vượt trội.

Tìm hiểu thêm về YOLO26

Vì sao YOLO26 là sự lựa chọn vượt trội?

Đối với năm 2026, Ultralytics đã định nghĩa lại tiêu chuẩn với YOLO26 , một mô hình tổng hợp những đặc điểm tốt nhất của CNN và Transformer đồng thời loại bỏ những điểm yếu của chúng.

Thiết kế không cần NMS từ đầu đến cuối: Giống như RTDETRv2, YOLO26 được thiết kế hoàn toàn từ đầu đến cuối. Nó loại bỏ hoàn toàn... NMS Bước xử lý hậu kỳ. Bước đột phá này, lần đầu tiên được tiên phong trong YOLOv10 , giúp giảm độ biến thiên độ trễ và đơn giản hóa logic triển khai, điều rất quan trọng đối với các hệ thống an toàn thời gian thực.
Cân bằng hiệu năng: YOLO26 đạt được "tam giác vàng" về tốc độ, độ chính xác và kích thước. Với khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, nó mở khóa các khả năng xử lý thời gian thực trên Raspberry Pi và các thiết bị di động mà các mô hình sử dụng nhiều bộ chuyển đổi khó có thể hỗ trợ.
Động lực huấn luyện nâng cao: Kết hợp Trình tối ưu hóa MuSGD — một sự kết hợp của SGD và Muon (lấy cảm hứng từ quá trình huấn luyện LLM) — YOLO26 mang lại sự ổn định của quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM) cho thị giác máy tính. Kết hợp với ProgLoss và STAL (Soft Task Alignment Learning), nó mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, một điểm yếu thường gặp ở các kiến trúc khác.
Tính linh hoạt: Không giống như PP-YOLOE+ chủ yếu là một bộ dò tìm, YOLO26 hỗ trợ đầy đủ các tác vụ bao gồm Phân đoạn đối tượng , Ước tính tư thế , Hộp giới hạn định hướng (OBB) và Phân loại.
Dễ sử dụng & Hệ sinh thái: Nền tảng Ultralytics cho phép bạn chuyển từ chú thích dữ liệu sang triển khai chỉ trong vài phút. Với yêu cầu bộ nhớ giảm trong quá trình huấn luyện, bạn có thể huấn luyện các lô dữ liệu lớn hơn trên GPU dành cho người tiêu dùng, tránh được chi phí VRAM cao liên quan đến các đầu dò Transformer.

Ví dụ về tích hợp liền mạch

Việc vận hành một mô hình hiện đại không nên đòi hỏi các tệp cấu hình phức tạp hoặc việc chuyển đổi khung phần mềm. Với Ultralytics Chỉ cần ba dòng lệnh là đủ. Python :

from ultralytics import YOLO

# Load the NMS-free, highly efficient YOLO26 model
model = YOLO("yolo26n.pt")  # Nano version for edge deployment

# Train on a custom dataset with MuSGD optimizer enabled by default
# Results are automatically logged to the Ultralytics Platform
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with zero post-processing overhead
results = model("https://ultralytics.com/images/bus.jpg")

Kết luận và Đề xuất

Việc lựa chọn giữa RTDETRv2 và PP-YOLOE+ phụ thuộc phần lớn vào các ràng buộc từ hệ thống cũ của bạn.

Hãy chọn RTDETRv2 nếu bạn có GPU mạnh và vấn đề của bạn liên quan đến các cảnh đông đúc, nơi việc phân bổ sự chú ý toàn cục là không thể thiếu.
Hãy chọn PP-YOLOE+ nếu bạn đã quen thuộc với Baidu. PaddlePaddle hệ sinh thái và đòi hỏi một nền tảng CNN vững chắc.

Tuy nhiên, đối với phần lớn các dự án mới trong năm 2026, Ultralytics YOLO26 là lựa chọn được khuyến nghị. Tính năng DFL Removal của nó giúp đơn giản hóa việc xuất sang các định dạng như TensorRT và... ONNX Trong khi đó, kiến trúc không phụ thuộc vào NMS của nó đảm bảo độ trễ được xác định. Kết hợp với một cộng đồng mã nguồn mở năng động và được duy trì tốt, YOLO26 đảm bảo quy trình xử lý hình ảnh máy tính của bạn có khả năng đáp ứng nhu cầu trong tương lai, hiệu quả và dễ dàng mở rộng.

Để khám phá toàn bộ tiềm năng của các mô hình này, hãy truy cập Tài liệu Ultralytics hoặc bắt đầu khóa đào tạo ngay hôm nay trên Nền tảng Ultralytics .

RTDETRv2 so với PP-YOLOE+: Phân tích chuyên sâu về công nghệ nhận dạng đối tượng hiện đại

So sánh Các chỉ số Hiệu suất

RTDETRv2: Sự tiến hóa của Transformer

Các tính năng kiến trúc chính

PP-YOLOE+: Tiêu chuẩn CNN được tinh chỉnh

Các tính năng kiến trúc chính

So sánh Quan trọng: Kiến trúc và Trường hợp sử dụng

1. Hiệu quả đào tạo và sự hội tụ

2. Suy luận và triển khai

3. Hệ sinh thái và bảo trì

Lợi thế của Ultralytics: Giới thiệu YOLO26

Vì sao YOLO26 là sự lựa chọn vượt trội?

Ví dụ về tích hợp liền mạch

Kết luận và Đề xuất

Bình luận