Link to this sectionRTDETRv2 so với PP-YOLOE+#
Lĩnh vực thị giác máy tính đang phát triển nhanh chóng đã tạo ra nhiều phương pháp kiến trúc đa dạng để giải quyết các thách thức phát hiện đối tượng thời gian thực phức tạp. Trong số những tiến bộ đáng chú ý gần đây có RTDETRv2 và PP-YOLOE+, hai model mạnh mẽ tiếp cận quá trình nhận dạng hình ảnh từ các triết lý thiết kế khác biệt về cơ bản. Mặc dù cả hai model đều nhắm đến việc cung cấp khả năng phát hiện hiệu suất cao, nhưng cơ chế, mô hình đào tạo và kịch bản triển khai lý tưởng của chúng lại khác nhau đáng kể.
Hướng dẫn toàn diện này đi sâu vào các sắc thái kỹ thuật của cả hai model, so sánh kiến trúc, các chỉ số hiệu suất và hỗ trợ hệ sinh thái nhằm giúp các lập trình viên và nhà nghiên cứu chọn ra giải pháp tối ưu cho nhu cầu triển khai cụ thể của họ.
Link to this sectionTổng quan về mô hình#
Trước khi phân tích dữ liệu hiệu suất, điều quan trọng là phải hiểu nguồn gốc và mục tiêu kiến trúc của từng model. Cả hai đều xuất phát từ các nhóm nghiên cứu tại Baidu, tuy nhiên chúng đại diện cho các nhánh khác nhau trong cây phả hệ phát hiện đối tượng.
Link to this sectionRTDETRv2#
RTDETRv2 đại diện cho một bước nhảy vọt trong các kiến trúc thị giác dựa trên Transformer. Được xây dựng dựa trên Real-Time Detection Transformer gốc, nó tận dụng backbone vision transformer linh hoạt kết hợp với bộ mã hóa hybrid hiệu quả. Đặc điểm xác định nhất của nó là khả năng dự đoán end-to-end tự nhiên, loại bỏ hoàn toàn nhu cầu sử dụng Non-Maximum Suppression (NMS) trong quá trình xử lý hậu kỳ.
Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 2024-07-24
Arxiv: 2407.17140
GitHub: RT-DETR Repository
Link to this sectionPP-YOLOE+#
PP-YOLOE+ là một bản nâng cấp tiên tiến của series YOLO, được tối ưu hóa mạnh mẽ cho các ứng dụng công nghiệp hiệu suất cao. Nó có kiến trúc CNN có khả năng mở rộng với head phát hiện anchor-free. Được thiết kế để cung cấp sự cân bằng vượt trội giữa tốc độ và độ chính xác, nó giới thiệu các kỹ thuật mạnh mẽ như ET-head và hàm loss focal tổng quát để cải thiện phát hiện đối tượng nhỏ.
Tác giả: Nhóm tác giả PaddlePaddle
Tổ chức: Baidu
Ngày: 2022-04-02
Arxiv: 2203.16250
GitHub: PaddleDetection Repository
Mặc dù cả hai model đều có các kho lưu trữ nghiên cứu độc lập, bạn có thể dễ dàng thử nghiệm với RTDETRv2 trực tiếp trong gói Python của Ultralytics, hưởng lợi từ một API thống nhất và các tùy chọn xuất model hợp lý.
Link to this sectionSự khác biệt về kiến trúc#
Sự khác biệt cơ bản giữa hai model này nằm ở cách chúng xử lý bối cảnh thị giác và tạo ra các dự đoán.
PP-YOLOE+ sử dụng backbone Convolutional Neural Network (CNN) truyền thống nhưng được tối ưu hóa cao. Nó dựa vào các vùng tiếp nhận cục bộ (local receptive fields) để trích xuất đặc trưng, làm cho nó cực kỳ nhanh và hiệu quả cho việc triển khai tiêu chuẩn. Tuy nhiên, nó vẫn yêu cầu xử lý hậu kỳ NMS tiêu chuẩn để lọc các bounding box chồng chéo, điều này có thể gây ra hiện tượng nghẽn độ trễ trong các cảnh đông đúc.
Ngược lại, RTDETRv2 sử dụng Hybrid Encoder và Transformer Decoder. Điều này cho phép model nắm bắt bối cảnh toàn cục trên toàn bộ hình ảnh cùng một lúc. Các cơ chế attention vốn dĩ hiểu được mối quan hệ giữa các đối tượng, cho phép model xuất ra bounding box cuối cùng trực tiếp mà không cần NMS. Cách tiếp cận end-to-end này đảm bảo độ trễ suy luận ổn định bất kể số lượng đối tượng được phát hiện.
Link to this sectionCác chỉ số hiệu suất và so sánh#
Khi đánh giá các chỉ số hiệu suất YOLO, việc cân bằng giữa độ chính xác (mAP) với chi phí tính toán (FLOPs) và tốc độ suy luận là rất quan trọng. Bảng dưới đây làm nổi bật hiệu suất của cả hai model ở nhiều kích thước khác nhau.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Trong khi PP-YOLOE+x đạt được mAPval cao hơn một chút là 54,7% trên tập dữ liệu COCO, các model RTDETRv2 thường cung cấp độ chính xác cạnh tranh cùng với lợi ích bổ sung là độ trễ nhất quán nhờ thiết kế không cần NMS. Tuy nhiên, PP-YOLOE+ vẫn duy trì lợi thế tuyệt đối về số lượng tham số và FLOPs cho các model nhỏ hơn, giúp nó đạt hiệu quả cao cho các triển khai tại biên (edge).
Link to this sectionLợi thế của Ultralytics: Sự ra đời của YOLO26#
Mặc dù RTDETRv2 và PP-YOLOE+ đều rất mạnh mẽ, nhưng trạng thái kỹ thuật tiên tiến nhất (state-of-the-art) vẫn liên tục phát triển. Đối với các lập trình viên đang tìm kiếm sự cân bằng tối ưu giữa tốc độ, độ chính xác và hỗ trợ hệ sinh thái, Ultralytics YOLO26 đại diện cho tiêu chuẩn công nghiệp mới.
YOLO26 tổng hợp những khía cạnh tốt nhất của cả CNN và Transformer. Nó áp dụng thiết kế End-to-End NMS-Free tiên phong từ các kiến trúc hiện đại, loại bỏ hiệu quả các điểm nghẽn xử lý hậu kỳ. Hơn nữa, nó giới thiệu MuSGD Optimizer mang tính cách mạng, một phương pháp lai lấy cảm hứng từ các đổi mới trong đào tạo LLM, đảm bảo quá trình đào tạo cực kỳ ổn định và hội tụ nhanh.
Không giống như các model Transformer hạng nặng đòi hỏi bộ nhớ CUDA đáng kể, YOLO26 có tính năng DFL Removal (Distribution Focal Loss) và được tối ưu hóa cụ thể cho tính toán tại biên (edge computing), mang lại hiệu suất suy luận CPU nhanh hơn tới 43% so với các thế hệ trước.
Ngoài ra, YOLO26 không chỉ giới hạn ở việc phát hiện đối tượng đơn giản. Nó linh hoạt một cách tự nhiên, hỗ trợ phân đoạn cá thể, ước tính tư thế và oriented bounding boxes (OBB) ngay lập tức, trong khi PP-YOLOE+ chủ yếu tập trung vào phát hiện bounding box.
Link to this sectionPhương pháp huấn luyện và Hệ sinh thái#
Hiệu quả đào tạo và sự dễ sử dụng là nơi mà hệ sinh thái Ultralytics thực sự tỏa sáng so với các kho lưu trữ nghiên cứu độc lập. Trong khi PP-YOLOE+ dựa vào framework PaddlePaddle và RTDETRv2 thường yêu cầu thiết lập môi trường phức tạp, việc tích hợp các model thông qua Ultralytics mang lại trải nghiệm liền mạch.
Với API của Ultralytics, bạn được hưởng lợi từ yêu cầu bộ nhớ thấp hơn trong quá trình đào tạo, xử lý tập dữ liệu tự động và tinh chỉnh siêu tham số đơn giản hóa. Hơn nữa, việc triển khai các model sang các định dạng sản xuất như ONNX hoặc TensorRT có thể được thực hiện chỉ với một câu lệnh duy nhất.
Link to this sectionVí dụ mã nguồn: Suy luận tinh gọn#
Dưới đây là minh họa về việc bạn có thể dễ dàng sử dụng RTDETRv2 cùng với model YOLO26 được khuyến nghị như thế nào thông qua gói Python của Ultralytics:
from ultralytics import RTDETR, YOLO
# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()
# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")
# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")Link to this sectionCác ứng dụng thực tế và trường hợp sử dụng#
Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào phần cứng cụ thể và các yêu cầu ứng dụng.
- RTDETRv2 vượt trội trong các môi trường phía máy chủ (server-side) và hiểu các cảnh phức tạp. Cơ chế attention toàn cục của nó làm cho nó cực kỳ hiệu quả trong việc quản lý đám đông và phân tích hình ảnh y tế dày đặc, nơi các đối tượng chồng chéo thường khiến các thuật toán NMS tiêu chuẩn thất bại.
- PP-YOLOE+ rất phù hợp cho kiểm tra công nghiệp tốc độ cao và các môi trường đầu tư mạnh vào hệ sinh thái PaddlePaddle. Số lượng tham số thấp ở các quy mô nhỏ hơn giúp nó trở nên khả thi cho một số ứng dụng robot.
- Ultralytics YOLO26 là giải pháp được khuyến nghị phổ quát cho triển khai thương mại toàn diện. Với các hàm ProgLoss + STAL nâng cao, nó cải thiện đáng kể khả năng nhận diện đối tượng nhỏ, vốn rất quan trọng đối với hoạt động của drone trên không và giám sát giao thông thành phố thông minh.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa RT-DETR và PP-YOLOE+ phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn RT-DETR#
RT-DETR là lựa chọn mạnh mẽ cho:
- Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
- Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
- Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.
Link to this sectionKhi nào nên chọn PP-YOLOE+#
PP-YOLOE+ được khuyến nghị cho:
- Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên framework và công cụ PaddlePaddle của Baidu.
- Triển khai Paddle Lite Edge: Triển khai lên phần cứng với các kernel suy luận được tối ưu hóa cao dành riêng cho Paddle Lite hoặc engine suy luận Paddle.
- Nhận diện phía máy chủ có độ chính xác cao: Các kịch bản ưu tiên độ chính xác nhận diện tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là vấn đề.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionKết luận#
Cả RTDETRv2 và PP-YOLOE+ đều đã đẩy lùi các giới hạn về những gì có thể thực hiện được trong thị giác máy tính, chứng minh tính khả thi của cả kiến trúc Transformer và CNN được tối ưu hóa cao. Tuy nhiên, sự phức tạp của việc triển khai các codebase nghiên cứu phân mảnh có thể cản trở tiến độ sản xuất.
Đối với các kỹ sư AI hiện đại, việc tận dụng Nền tảng Ultralytics mang lại lợi thế không thể sánh bằng. Bằng cách chuyển sang các model được tích hợp liền mạch như YOLO11 hoặc YOLO26 tiên tiến, các nhóm có thể đạt được tỷ lệ độ chính xác trên tốc độ cao nhất có thể, đồng thời giảm đáng kể yêu cầu bộ nhớ và chi phí phát triển.