So sánh khả năng phát hiện đối tượng bằng học sâu giữa PP-YOLOE+ và RTDETRv2
Sự phát triển của các kiến trúc phát hiện đối tượng được đánh dấu bằng sự cạnh tranh khốc liệt giữa Mạng nơ-ron tích chập (CNN) và các mô hình dựa trên Transformer. Hai cột mốc quan trọng trong quá trình này là PP-YOLOE+ , một bộ phát hiện dựa trên CNN được cải tiến từ... PaddlePaddle hệ sinh thái và RTDETRv2 , một bộ chuyển đổi phát hiện thời gian thực tiên tiến.
Bản so sánh kỹ thuật này đánh giá kiến trúc, các chỉ số hiệu năng và tính phù hợp triển khai của chúng để giúp các nhà nghiên cứu và kỹ sư lựa chọn mô hình tối ưu cho các ứng dụng thị giác máy tính cụ thể của họ.
Tóm tắt điều hành
PP-YOLOE+ đại diện cho đỉnh cao của dòng PP-. YOLO Chuỗi này tập trung vào việc tinh chỉnh các cơ chế không cần neo và các chiến lược gán nhãn trong khuôn khổ CNN thuần túy. Nó hoạt động xuất sắc trong môi trường tích hợp sâu với Baidu. PaddlePaddle Khung sườn này có thể gặp khó khăn khi xuất khẩu sang các hệ sinh thái khác.
RTDETRv2 (Real-Time Detection Transformer v2) đã vượt qua mọi giới hạn bằng cách giới thiệu bộ giải mã linh hoạt, có thể điều chỉnh và tối ưu hóa bộ mã hóa lai. Nó đã loại bỏ thành công nhu cầu về Non-Maximum Suppression ( NMS ) , một nút thắt cổ chai phổ biến trong xử lý hậu kỳ, bằng cách tận dụng khả năng chú ý toàn cục của các bộ chuyển đổi.
Tuy nhiên, đối với các nhà phát triển đang tìm kiếm một giải pháp thống nhất kết hợp tốc độ của mạng CNN với... NMS Với sự tiện lợi không cần đến các bộ chuyển đổi – mà không gây ra gánh nặng tính toán khổng lồ Ultralytics YOLO26 mang đến một giải pháp thay thế vượt trội. Với thiết kế tích hợp từ đầu đến cuối và khả năng suy luận CPU nhanh hơn tới 43% , YOLO26 thu hẹp khoảng cách giữa các máy chủ hiệu năng cao và các thiết bị biên.
PP-YOLOE+: Sức mạnh CNN không anchor
Ra mắt năm 2022, PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, tích hợp cấu trúc mạnh mẽ và khả năng gán nhãn động để đạt được độ chính xác cạnh tranh.
Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 02/04/2022
Arxiv: 2203.16250
GitHub: PaddleDetection
Điểm nổi bật về kiến trúc
PP-YOLOE+ sử dụng CSPRepResStage , một kiến trúc mạng kết hợp lợi ích của luồng gradient của CSPNet với các kỹ thuật tái tham số hóa được thấy trong RepVGG. Điều này cho phép mô hình có động lực huấn luyện phức tạp được đơn giản hóa thành các phép tích chập đơn giản trong quá trình suy luận, giúp tăng tốc độ triển khai.
Mô hình sử dụng đầu Anchor-Free với chiến lược Học căn chỉnh nhiệm vụ (TAL). Không giống như các phương pháp dựa trên anchor cũ dựa vào các hộp được xác định trước, PP-YOLOE+ dự đoán tâm của các đối tượng và khoảng cách của chúng đến các cạnh của hộp giới hạn. Điều này đơn giản hóa việc tìm kiếm siêu tham số và cải thiện khả năng khái quát hóa trên các tập dữ liệu đa dạng như COCO .
Các ràng buộc kế thừa
Mặc dù PP-YOLOE+ mang lại hiệu năng mạnh mẽ, nhưng nó lại phụ thuộc nhiều vào... PaddlePaddle khung này có thể làm phức tạp các quy trình triển khai được chuẩn hóa. PyTorch hoặc ONNX Người dùng thường cần các công cụ chuyển đổi chuyên dụng để chuyển các mô hình sang nền tảng biên.
RTDETRv2: Sự tiến hóa của Transformer
RTDETRv2 được xây dựng dựa trên sự thành công của phiên bản gốc. RT-DETR Mục tiêu là chứng minh rằng các mô hình Transformer có thể vượt trội hơn YOLO trong các kịch bản thời gian thực. Mô hình này giải quyết vấn đề chi phí tính toán cao của các mô hình Vision Transformer (ViT) tiêu chuẩn bằng cách sử dụng bộ mã hóa lai xử lý hiệu quả các đặc trưng đa tỷ lệ.
Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 17/04/2023 (Bản gốc), 24/07/2024 (Phiên bản v2)
Arxiv: 2304.08069
GitHub: RT-DETR
Điểm nổi bật về kiến trúc
Điểm đột phá cốt lõi trong RTDETRv2 là bộ mã hóa lai (Hybrid Encoder) và cơ chế lựa chọn truy vấn dựa trên IoU -aware Query Selection ). Các bộ chuyển đổi (transformers) truyền thống gặp khó khăn với độ phức tạp bậc hai của cơ chế chú ý khi xử lý các bản đồ đặc trưng có độ phân giải cao. RTDETRv2 khắc phục điều này bằng cách tách rời tương tác nội thang đo và hợp nhất liên thang đo, giúp giảm đáng kể mức sử dụng bộ nhớ.
Điều quan trọng là, RTDETRv2 là một bộ dò tín hiệu đầu cuối (End-to-End detector). Nó sử dụng thuật toán Hungarian Matcher trong quá trình huấn luyện để gán các dự đoán cho dữ liệu thực tế theo tỷ lệ một-một. Điều này có nghĩa là đầu ra của mô hình không yêu cầu bất kỳ sự can thiệp nào. NMS xử lý hậu kỳ, tránh hiện tượng tăng đột biến độ trễ và việc điều chỉnh tham số thường gặp ở các phương pháp truyền thống. YOLO mô hình.
So sánh hiệu suất
Bảng dưới đây so sánh hiệu năng của cả hai kiến trúc. Trong khi PP-YOLOE+ thể hiện khả năng hoạt động tốt ở số lượng tham số thấp hơn, RTDETRv2 lại cho thấy khả năng mở rộng vượt trội ở kích thước lớn hơn, mặc dù đòi hỏi tính toán cao hơn (FLOPs).
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Lợi thế của Ultralytics: Tại sao chọn YOLO26?
Trong khi RTDETRv2 mang lại những lợi ích của NMS - Việc phát hiện miễn phí gặp phải vấn đề là phải sử dụng các khối biến áp nặng, thường mất nhiều thời gian để huấn luyện và khó triển khai trên các hệ thống không phải là hệ thống chính thống. GPU phần cứng. Ultralytics YOLO26 tạo ra một cuộc cách mạng trong lĩnh vực này bằng cách đạt được khả năng phát hiện từ đầu đến cuối mà không cần hệ thống quản lý mạng NMS bằng cách sử dụng kiến trúc mạng nơ-ron tích chập (CNN) thuần túy.
Bằng cách áp dụng chiến lược Gán kép nhất quán (CDA) trong quá trình huấn luyện, YOLO26 học cách loại bỏ các hộp trùng lặp bên trong. Điều này giúp loại bỏ chi phí suy luận phát sinh. NMS mà không phải chịu những hạn chế về độ trễ của bộ biến đổi.
Ưu điểm chính của YOLO26
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM như Kimi K2 của Moonshot AI, bộ tối ưu hóa MuSGD kết hợp... SGD Với Muon giúp hội tụ nhanh hơn và huấn luyện ổn định hơn, một tính năng độc đáo của thế hệ YOLO26.
- Hiệu quả được tối ưu hóa cho thiết bị biên: Với việc loại bỏ Distribution Focal Loss (DFL) và các lớp chú ý phức tạp, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% so với các phiên bản trước. Điều này làm cho nó trở nên lý tưởng để chạy trên Raspberry Pi hoặc các thiết bị di động, nơi RTDETR gặp khó khăn.
- Tính linh hoạt trong tác vụ: Không giống như PP-YOLOE+ chủ yếu là một bộ dò tìm, YOLO26 hỗ trợ trực tiếp Ước tính tư thế , Phân đoạn đối tượng và OBB trong một thư viện duy nhất.
- ProgLoss + STAL: Các hàm mất mát mới cải thiện khả năng phát hiện vật thể nhỏ — một điểm yếu quan trọng trong nhiều mô hình transformer — giúp YOLO26 vượt trội hơn trong phân tích ảnh chụp từ trên không .
Quy trình làm việc được tối ưu hóa với Ultralytics Nền tảng
Hãy quên đi những file cấu hình phức tạp. Bạn có thể huấn luyện, quản lý phiên bản và triển khai các mô hình YOLO26 trực tiếp thông qua Nền tảng Ultralytics . Hệ sinh thái này xử lý mọi thứ, từ chú thích tập dữ liệu đến xuất dữ liệu chỉ bằng một cú nhấp chuột. TensorRT , CoreML , Và TFLite .
Ví dụ mã: Bắt đầu với YOLO26
Việc vận hành mô hình hiện đại nhất trở nên vô cùng đơn giản với... Ultralytics Python API:
from ultralytics import YOLO
# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for simplified deployment
model.export(format="onnx")
Các trường hợp sử dụng lý tưởng
Khi nào nên sử dụng PP-YOLOE+
- Hệ thống Paddle cũ: Nếu cơ sở hạ tầng hiện tại của bạn được xây dựng hoàn toàn trên Baidu's PaddlePaddle PP-YOLOE+ cung cấp lộ trình nâng cấp gốc mà không cần thay đổi khung phần mềm.
- Mạng nơ-ron tích chập phía máy chủ: Dành cho các trường hợp trong đó GPU Bộ nhớ dồi dào, nhưng khả năng hỗ trợ của bộ chuyển đổi (ví dụ, TensorRT Các plugin cho tính năng Chú ý Đa đầu (Multi-Head Attention) đang thiếu trong môi trường triển khai.
Khi nào nên sử dụng RTDETRv2
- Cảnh đông đúc: Cơ chế chú ý toàn cục của Transformer giúp ích trong các cảnh có nhiều vật thể bị che khuất, nơi mà mạng CNN có thể gặp khó khăn trong việc tách các đối tượng chồng chéo.
- Phần cứng cố định: Phù hợp với các GPU cao cấp (như...) NVIDIA T4 hoặc A100) trong đó chi phí nhân ma trận của bộ biến đổi là không đáng kể so với lợi ích về độ chính xác.
Khi nào nên sử dụng Ultralytics YOLO26
- AI trên thiết bị biên và di động: Dung lượng bộ nhớ thấp và hiệu năng cao. CPU Tốc độ xử lý nhanh chóng khiến YOLO26 trở thành lựa chọn tối ưu cho việc triển khai trên iOS / Android hoặc các hệ thống nhúng.
- Phân tích video thời gian thực: Đối với các ứng dụng yêu cầu tốc độ khung hình cao, chẳng hạn như giám sát giao thông hoặc dây chuyền sản xuất, thì... NMS Thiết kế không phụ thuộc vào bộ nhớ đảm bảo độ trễ xác định.
- Nghiên cứu & Tạo mẫu nhanh: Tài liệu đầy đủ và sự hỗ trợ tích cực từ cộng đồng cho phép các nhà nghiên cứu nhanh chóng thử nghiệm và cải tiến, tận dụng các trọng số đã được huấn luyện trước cho nhiều nhiệm vụ khác nhau ngoài việc phát hiện khung giới hạn đơn giản.
Kết luận
Cả PP-YOLOE+ và RTDETRv2 đều đã đóng góp đáng kể cho lĩnh vực thị giác máy tính. PP-YOLOE+ đã đẩy giới hạn của mạng nơ-ron tích chập (CNN) trong hệ sinh thái Paddle, trong khi RTDETRv2 chứng minh tính khả thi của mô hình Transformer cho các tác vụ thời gian thực. Tuy nhiên, Ultralytics YOLO26 đại diện cho sự tổng hợp của những tiến bộ này: cung cấp sự đơn giản về kiến trúc và tốc độ của CNN với khả năng xử lý từ đầu đến cuối. NMS -Sự thanh lịch không giới hạn của một bộ chuyển đổi. Kết hợp với hệ sinh thái Ultralytics mạnh mẽ, nó trở thành công cụ linh hoạt nhất cho việc phát triển AI hiện đại.