PP-YOLOE+ so với YOLOv7 Điều hướng các kiến trúc phát hiện đối tượng thời gian thực
Khi xây dựng các quy trình xử lý hình ảnh máy tính, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng. Hai kiến trúc đáng chú ý từ năm 2022 là PP-YOLOE+ và YOLOv7 Các công nghệ này đã giới thiệu những tiến bộ mạnh mẽ trong việc phát hiện đối tượng theo thời gian thực. Bản so sánh kỹ thuật này cung cấp cái nhìn sâu sắc về kiến trúc, phương pháp huấn luyện và hiệu năng thực tế của chúng, giúp bạn đưa ra quyết định sáng suốt cho các ứng dụng của mình.
Tổng quan về các Mô hình
Cả PP-YOLOE+ và YOLOv7 đều được thiết kế để vượt qua giới hạn về độ chính xác và tốc độ, nhưng chúng lại xuất phát từ các hệ sinh thái phát triển và triết lý thiết kế khác nhau.
PP-YOLOE+
Được phát triển bởi Các tác giả PaddlePaddle tại Baidu, PP-YOLOE+ được xây dựng dựa trên PP-YOLOv2 gốc. Nó được giới thiệu để cung cấp một bộ detect đối tượng hiệu quả và có độ chính xác cao được tối ưu hóa cho hệ sinh thái PaddlePaddle.
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức:Baidu
- Ngày: 2022-04-02
- Arxiv:2203.16250
- GitHub:Kho lưu trữ PaddleDetection
- Tài liệu:Tài liệu PP-YOLOE+
YOLOv7
Được phát triển bởi Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao, YOLOv7 đã giới thiệu "trainable bag-of-freebies" để thiết lập các tiêu chuẩn tiên tiến mới cho các bộ phát hiện đối tượng thời gian thực tại thời điểm phát hành.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2022-07-06
- Arxiv:2207.02696
- GitHub:Kho lưu trữ YOLOv7
- Tài liệu:Tài liệu Ultralytics YOLOv7
Đổi mới Kiến trúc
Kiến trúc PP-YOLOE+
PP-YOLOE+ dựa trên mô hình không cần anchor, giúp đơn giản hóa quá trình triển khai bằng cách loại bỏ nhu cầu điều chỉnh anchor boxes cho các tập dữ liệu tùy chỉnh. Nó tích hợp kiến trúc RepResNet mạnh mẽ và mạng PAN (Path Aggregation Network) kiểu CSPNet để kết hợp hiệu quả các đặc trưng đa tỷ lệ. Ngoài ra, nó tận dụng khái niệm Học căn chỉnh nhiệm vụ (Task Alignment Learning - TAL) để căn chỉnh động các nhiệm vụ phân loại và định vị trong quá trình huấn luyện, đảm bảo độ chính xác cao trên nhiều nhiệm vụ thị giác máy tính khác nhau.
Kiến trúc YOLOv7
YOLOv7 Họ đã áp dụng một cách tiếp cận khác bằng cách giới thiệu Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Kiến trúc này cho phép mạng học được nhiều đặc điểm đa dạng hơn mà không phá hủy đường dẫn gradient ban đầu, dẫn đến sự hội tụ tốt hơn. YOLOv7 Ngoài ra, mô hình này còn tận dụng tối đa việc tái tham số hóa mô hình — cụ thể là các phép tích chập tái tham số hóa theo kế hoạch — giúp hợp nhất các lớp tích chập trong quá trình suy luận để tăng tốc độ thực thi mà không làm giảm độ chính xác. Điều này làm cho YOLOv7 Có khả năng vượt trội trong các tác vụ như theo dõi nhiều đối tượng và hệ thống báo động an ninh phức tạp.
Sự khác biệt về hệ sinh thái
Trong khi PP-YOLOE+ được tích hợp chặt chẽ với Baidu's PaddlePaddle khung, YOLOv7 Ứng dụng này được xây dựng bằng PyTorch , một ngôn ngữ lập trình có cộng đồng người dùng lớn hơn và khả năng tương thích rộng rãi hơn với các hệ thống triển khai như ONNX và TensorRT .
Phân tích hiệu suất
Khi cân bằng giữa tốc độ, thông số và độ chính xác ( mAP Các mẫu máy này có hiệu năng tương đương nhau tùy thuộc vào biến thể cụ thể và phần cứng mục tiêu. Dưới đây là bảng so sánh toàn diện các thông số của chúng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Trong khi đó, mẫu PP-YOLOE+x đạt được mức cao hơn một chút. mAP , YOLOv7 Các biến thể mang lại tỷ lệ tham số trên độ chính xác rất cao. YOLOv7 Kiến trúc này vẫn là lựa chọn ưa thích cho việc xử lý GPU thô, trong đó TensorRT Việc tối ưu hóa mang lại độ trễ cực thấp.
Lợi thế của Ultralytics
Khi huấn luyện và triển khai các mô hình này, khung làm việc bạn chọn cũng quan trọng không kém gì chính mô hình đó. Việc sử dụng Ultralytics Cung cấp trải nghiệm người dùng liền mạch nhờ vào sự thống nhất cao. Python API giúp đơn giản hóa toàn bộ vòng đời của máy học.
- Hệ sinh thái được duy trì tốt: Các mô hình Ultralytics YOLO hưởng lợi từ một hệ sinh thái được cập nhật liên tục, tài liệu mạnh mẽ và một cộng đồng tích cực.
- Yêu cầu bộ nhớ: Ultralytics tối ưu hóa mạnh mẽ việc tải dữ liệu và các chế độ huấn luyện. Huấn luyện các mô hình Ultralytics YOLO thường yêu cầu ít bộ nhớ CUDA hơn nhiều so với các kiến trúc nặng dựa trên transformer, cho phép các nhà phát triển sử dụng kích thước batch lớn hơn trên phần cứng phổ thông.
- Hiệu quả huấn luyện: Tận dụng các chiến lược tăng cường dữ liệu mạnh mẽ và điều chỉnh siêu tham số tích hợp, Ultralytics đảm bảo rằng các mô hình hội tụ nhanh chóng với các trọng số đã được huấn luyện sẵn có.
Triển khai API đơn giản
Đào tạo một YOLOv7 mô hình với Ultralytics Chỉ cần vài dòng mã, nó hoàn toàn trừu tượng hóa các kịch bản huấn luyện phức tạp:
from ultralytics import YOLO
# Load a pretrained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to TensorRT for deployment
model.export(format="engine", device=0)
Tiêu chuẩn mới: Giới thiệu YOLO26
Trong khi PP-YOLOE+ và YOLOv7 Với những cột mốc quan trọng trong phát hiện đối tượng, lĩnh vực trí tuệ nhân tạo đang phát triển nhanh chóng. Đối với bất kỳ dự án thị giác máy tính mới nào, chúng tôi đặc biệt khuyên dùng Ultralytics YOLO26 . Được phát hành vào tháng 1 năm 2026, YOLO26 đại diện cho một bước tiến vượt bậc trong trí tuệ nhân tạo thị giác ưu tiên thiết bị đầu cuối.
Vì sao YOLO26 vượt trội hơn các kiến trúc cũ:
- Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 có tính đầu cuối tự nhiên. Bằng cách loại bỏ hậu xử lý Non-Maximum Suppression (NMS), nó đảm bảo độ trễ suy luận có thể dự đoán được và có tính xác định—một bước đột phá lần đầu tiên được thấy trong YOLOv10.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss đơn giản hóa quy trình xuất và cải thiện đáng kể khả năng tương thích cho các thiết bị biên công suất thấp.
- Tăng tốc suy luận trên CPU lên đến 43%: Đối với các kịch bản thiếu GPU chuyên dụng—chẳng hạn như cảm biến IoT thành phố thông minh—YOLO26 được tối ưu hóa mạnh mẽ để chạy hiệu quả trực tiếp trên CPU.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến (như Kimi K2 của Moonshot AI), YOLO26 sử dụng một sự kết hợp lai giữa SGD và Muon để huấn luyện cực kỳ ổn định và hội tụ nhanh chóng.
- ProgLoss + STAL: Các hàm mất mát được cải tiến này mang lại những cải thiện đáng kể trong việc detect vật thể nhỏ, điều này rất quan trọng cho các trường hợp sử dụng như hình ảnh trên không từ máy bay không người lái và detect lỗi sản xuất.
Các trường hợp sử dụng lý tưởng và kịch bản triển khai
Khi nào nên sử dụng PP-YOLOE+
PP-YOLOE+ tỏa sáng khi bạn đang đắm chìm trong thế giới Baidu và PaddlePaddle Hệ sinh thái. Nếu mục tiêu triển khai của bạn sử dụng phần cứng chuyên dụng được thiết kế riêng cho các mô hình Paddle (ví dụ: trong một số dây chuyền sản xuất ở châu Á), PP-YOLOE+ cung cấp độ chính xác tuyệt vời và khả năng tích hợp liền mạch. Nó rất hiệu quả cho tự động hóa sản xuất công nghiệp .
Khi nào nên sử dụng YOLOv7
YOLOv7 vẫn là một lựa chọn tuyệt vời cho việc suy luận hiệu năng cao nói chung, đặc biệt là khi triển khai trên NVIDIA phần cứng sử dụng TensorRT . Việc tích hợp nó vào... PyTorch Hệ sinh thái này làm cho nó trở nên vô cùng linh hoạt đối với nghiên cứu học thuật và các quy trình thương mại tùy chỉnh, chẳng hạn như quản lý đám đông thời gian thực hoặc các tác vụ ước tính tư thế phức tạp, nơi tính toàn vẹn cấu trúc của mạng là tối quan trọng.
Các mô hình khác để xem xét
Tùy thuộc vào nhu cầu cụ thể của bạn, bạn cũng có thể quan tâm đến việc so sánh các kiến trúc này với YOLO11 để có sự linh hoạt rộng rãi, sẵn sàng cho sản xuất, hoặc RT-DETR nếu dự án của bạn yêu cầu những ưu điểm cụ thể của bộ biến đổi thị giác so với mạng tích chập truyền thống.
Kết luận
Cả PP-YOLOE+ và YOLOv7 đều mang lại những cải tiến đáng kể cho thế giới detect đối tượng thời gian thực. Trong khi PP-YOLOE+ vượt trội trong các môi trường được chuẩn hóa xung quanh PaddlePaddle, YOLOv7 lại mang đến sự linh hoạt và hiệu suất đáng kinh ngạc thông qua hệ sinh thái PyTorch và Ultralytics.
Tuy nhiên, khi các giải pháp thị giác máy tính tiếp tục phát triển, việc sử dụng các công cụ hiện đại là điều cần thiết. Bằng cách áp dụng Nền tảng Ultralytics và các kiến trúc thế hệ tiếp theo như YOLO26 , các nhà phát triển có thể đảm bảo ứng dụng của họ luôn dẫn đầu về tốc độ, độ chính xác và tính dễ sử dụng.