PP-YOLOE+ so với YOLO11 : Định hướng sự phát triển của công nghệ phát hiện đối tượng hiệu năng cao
Trong lĩnh vực thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn kiến trúc mô hình phù hợp là rất quan trọng để cân bằng độ chính xác, tốc độ và các ràng buộc triển khai. Bài so sánh này khám phá hai cột mốc quan trọng trong lịch sử phát hiện đối tượng: PP-YOLOE+ , một bộ phát hiện không cần neo được tinh chỉnh từ... PaddlePaddle hệ sinh thái và YOLO11 , một phiên bản tiên tiến nhất từ... Ultralytics Được thiết kế để đạt hiệu quả và tính linh hoạt vượt trội.
Mặc dù PP-YOLOE+ đại diện cho một giải pháp hoàn thiện dành cho các ứng dụng công nghiệp trong các khuôn khổ cụ thể, YOLO11 Vượt qua những giới hạn về khả năng trên các thiết bị biên thông qua những cải tiến về kiến trúc. Hơn nữa, chúng ta sẽ hướng tới YOLO26 , bước đột phá mới nhất cung cấp khả năng xử lý đầu cuối nguyên bản. NMS - Phát hiện miễn phí.
So sánh Các chỉ số Hiệu suất
Bảng sau đây cung cấp sự so sánh trực tiếp các chỉ số hiệu suất chính. YOLO11 thể hiện ưu thế rõ rệt về hiệu quả, mang lại độ chính xác tương đương hoặc vượt trội với số lượng tham số giảm đáng kể và tốc độ suy luận nhanh hơn.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
PP-YOLOE+: The PaddlePaddle Nhà máy điện
PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, được các nhà nghiên cứu tại Baidu phát triển như một phần của bộ công cụ PaddleDetection. Nó tập trung vào việc cải thiện tốc độ hội tụ huấn luyện và hiệu suất tác vụ tiếp theo so với phiên bản tiền nhiệm.
Kiến trúc kỹ thuật
PP-YOLOE+ là một mô hình không cần anchor, tận dụng kiến trúc CSPRepResNet và chiến lược Học căn chỉnh nhiệm vụ (TAL) để gán nhãn. Nó sử dụng cơ chế chú ý ESE (Effective Squeeze-and-Excitation) độc đáo bên trong phần neck để tăng cường khả năng biểu diễn đặc trưng. Một lựa chọn kiến trúc quan trọng là việc sử dụng phương pháp tái tham số hóa kiểu RepVGG, cho phép mô hình có động lực huấn luyện phức tạp nhưng có thể thu gọn thành các cấu trúc đơn giản và nhanh hơn trong quá trình suy luận.
Các tính năng chính bao gồm:
- Đầu không cần neo: đơn giản hóa thiết kế bằng cách loại bỏ nhu cầu về các hộp neo được xác định trước.
- Học tập căn chỉnh nhiệm vụ (TAL): Tự động căn chỉnh các nhiệm vụ phân loại và hồi quy để cải thiện độ chính xác.
- Huấn luyện trước trên Object365: Phiên bản "Plus" (+) được hưởng lợi rất nhiều từ quá trình huấn luyện trước mạnh mẽ trên tập dữ liệu khổng lồ Objects365 , giúp tăng tốc độ hội tụ đáng kể trên các tập dữ liệu nhỏ hơn.
Siêu dữ liệu:
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức:Baidu
- Ngày: 2022-04-02
- Arxiv:PP-YOLOE: Một phiên bản YOLO được phát triển
- GitHub:PaddlePaddle/PaddleDetection
Các ràng buộc của hệ sinh thái
Mặc dù PP-YOLOE+ mang lại hiệu năng mạnh mẽ, nhưng nó lại gắn bó chặt chẽ với khung học sâu PaddlePaddle . Các nhà phát triển quen thuộc với... PyTorch hoặc TensorFlow Có thể gặp phải khó khăn và trở ngại lớn khi tích hợp nó vào các quy trình MLOps hiện có mà không hỗ trợ Paddle Inference một cách tự nhiên.
Ultralytics YOLO11 Định nghĩa lại hiệu quả
Được Ultralytics phát hành vào cuối năm 2024, YOLO11 thể hiện sự cải tiến đáng kể trong YOLO thuộc họ kiến trúc này, ưu tiên hiệu quả tham số và khả năng trích xuất đặc trưng. Không giống như bản chất tập trung vào nghiên cứu của một số kiến trúc khác, YOLO11 Được thiết kế để triển khai trong điều kiện thực tế, cân bằng giữa độ chính xác tuyệt đối và tốc độ vận hành.
Đổi mới Kiến trúc
YOLO11 Phiên bản này giới thiệu khối C3k2 , một sự phát triển nhẹ hơn và nhanh hơn của nút thắt cổ chai CSP, và tích hợp C2PSA (Cross-Stage Partial with Spatial Attention) để tăng cường khả năng tập trung của mô hình vào các vùng ảnh quan trọng. Những thay đổi này dẫn đến một mô hình có chi phí tính toán thấp hơn so với các phiên bản trước đó trong khi vẫn duy trì tính cạnh tranh. mAP điểm số.
Những lợi ích dành cho nhà phát triển bao gồm:
- Giảm dung lượng bộ nhớ sử dụng: YOLO11 YOLO11x sử dụng ít tham số hơn đáng kể so với PP-YOLOE+ để đạt được độ chính xác tương tự (ví dụ: YOLO11x có ít hơn khoảng 42% tham số so với PP-YOLOE+x), lý tưởng cho các thiết bị biên có RAM hạn chế.
- Khung phần mềm thống nhất: Hỗ trợ liền mạch các chức năng phát hiện , phân đoạn , phân loại , ước lượng tư thế và OBB .
- PyTorch Native: Được xây dựng trên nền tảng được sử dụng rộng rãi. PyTorch khung sườn này đảm bảo khả năng tương thích với phần lớn các công cụ và thư viện AI hiện đại.
Siêu dữ liệu:
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2024-09-27
- GitHub:ultralytics/ultralytics
- Tài liệu:Tài liệu YOLO11
Phân tích phê bình: Lựa chọn công cụ phù hợp
1. Dễ sử dụng và Hệ sinh thái
Đây là điểm khác biệt rõ rệt nhất. Ultralytics các người mẫu nổi tiếng vì dễ sử dụng. Các ultralytics Python Gói này cho phép huấn luyện, xác thực và triển khai chỉ với chưa đến năm dòng mã.
Ngược lại, PP-YOLOE+ yêu cầu cài đặt... PaddlePaddle Khung sườn và việc sao chép kho lưu trữ PaddleDetection. Cấu hình thường liên quan đến việc sửa đổi các tệp YAML phức tạp và sử dụng các tập lệnh dòng lệnh thay vì API kiểu Python, điều này có thể làm chậm quá trình tạo mẫu nhanh.
2. Khả năng triển khai và tính linh hoạt
YOLO11 Nổi bật về tính linh hoạt. Nó có thể được xuất khẩu dễ dàng sang các định dạng như ONNX , TensorRT , CoreML , Và TFLite Chỉ cần sử dụng một lệnh duy nhất. Điều này khiến nó trở thành lựa chọn ưu việt để triển khai trên nhiều loại phần cứng khác nhau, từ... NVIDIA Các mô-đun Jetson cho iOS thiết bị.
Mặc dù PP-YOLOE+ có thể được xuất khẩu, nhưng quá trình này thường ưu tiên Paddle Inference hoặc yêu cầu các bước chuyển đổi trung gian (ví dụ: Paddle2ONNX) có thể gây ra các vấn đề về khả năng tương thích. Ngoài ra, YOLO11 Nó hỗ trợ nhiều tác vụ hơn — chẳng hạn như phát hiện hộp giới hạn định hướng (OBB) và phân đoạn đối tượng — ngay từ đầu, trong khi PP-YOLOE+ chủ yếu là một kiến trúc tập trung vào phát hiện.
3. Hiệu quả đào tạo
Ultralytics Các mô hình được tối ưu hóa về hiệu quả đào tạo , thường yêu cầu ít tài nguyên hơn. CUDA Bộ nhớ được tối ưu hóa và khả năng hội tụ nhanh hơn nhờ các siêu tham số được thiết lập sẵn thông minh. Hệ sinh thái này cũng cung cấp khả năng tích hợp liền mạch với các công cụ theo dõi thí nghiệm như Comet và Weights & Biases , giúp tối ưu hóa vòng đời MLOps.
Nhìn về phía trước: Sức mạnh của YOLO26
Dành cho các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất, Ultralytics đã giới thiệu YOLO26 , một bước tiến mang tính cách mạng vượt trội hơn cả hai thế hệ trước. YOLO11 và PP-YOLOE+.
YOLO26 sở hữu thiết kế hoàn toàn không cần NMS , một bước đột phá lần đầu tiên được tiên phong trong... YOLOv10 nhưng nay đã được hoàn thiện để sản xuất. Điều này loại bỏ nhu cầu về việc triệt tiêu không tối đa (Non-Maximum Suppression) NMS ) xử lý hậu kỳ, thường là điểm nghẽn gây ra độ trễ trong các ứng dụng thời gian thực.
Những cải tiến quan trọng trong YOLO26 bao gồm:
- Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ Distribution Focal Loss (DFL) và tối ưu hóa kiến trúc đầu đọc, YOLO26 được tinh chỉnh đặc biệt cho điện toán biên và môi trường không có GPU mạnh mẽ.
- MuSGD Optimizer: Một sự kết hợp của... SGD Và Muon (lấy cảm hứng từ Kimi K2 của Moonshot AI), trình tối ưu hóa này mang lại sự ổn định trong quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM) cho thị giác máy tính, đảm bảo sự hội tụ nhanh hơn.
- ProgLoss + STAL: Các hàm mất mát nâng cao giúp cải thiện khả năng phát hiện vật thể nhỏ , rất quan trọng đối với các tác vụ như xử lý ảnh trên không hoặc kiểm soát chất lượng.
- Cải tiến dành riêng cho từng tác vụ: Bao gồm tổn thất phân đoạn ngữ nghĩa để cải thiện độ chính xác của mặt nạ và tổn thất góc chuyên biệt cho OBB, giải quyết các điểm gián đoạn ranh giới.
Khuyến Nghị
Đối với các dự án mới, YOLO26 là lựa chọn được khuyến nghị. NMS Kiến trúc không cần thư viện hỗ trợ giúp đơn giản hóa đáng kể quy trình triển khai, loại bỏ sự phức tạp trong việc tinh chỉnh. IoU Ngưỡng cho quá trình xử lý hậu kỳ.
Ví dụ triển khai
Trải nghiệm sự đơn giản của... Ultralytics hệ sinh thái. Đoạn mã sau đây minh họa cách tải và huấn luyện mô hình. Bạn có thể dễ dàng chuyển đổi giữa các mô hình. YOLO11 và YOLO26 bằng cách thay đổi chuỗi tên mô hình.
from ultralytics import YOLO
# Load the latest YOLO26 model (or use "yolo11n.pt")
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset
# The system automatically handles data augmentation and logging
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
# NMS-free output is handled automatically for YOLO26
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for simplified deployment
path = model.export(format="onnx")
Đối với người dùng quan tâm đến các kiến trúc chuyên biệt khác, tài liệu cũng đề cập đến các mô hình như RT-DETR để phát hiện dựa trên transformer và YOLO -World cho các tác vụ từ vựng mở.
Kết luận
Mặc dù PP-YOLOE+ vẫn là một lựa chọn tốt cho những người đã đầu tư sâu vào hệ sinh thái Baidu, YOLO11 và YOLO26 mới hơn lại mang đến một gói giải pháp hấp dẫn hơn cho cộng đồng lập trình viên nói chung. Với khả năng sử dụng dễ dàng vượt trội, yêu cầu bộ nhớ thấp hơn, nhiều tùy chọn xuất dữ liệu và một cộng đồng phát triển mạnh mẽ, Ultralytics Các mô hình này cung cấp sự cân bằng hiệu năng cần thiết cho các ứng dụng thị giác máy tính hiện đại, có khả năng mở rộng.