YOLOv7 So sánh toàn diện giữa PP-YOLOE và PP-YOLOE+
Khi đánh giá các mô hình thị giác máy tính tiên tiến nhất cho các quy trình sản xuất, các nhà phát triển thường cân nhắc ưu điểm của các kiến trúc khác nhau. Hai mô hình đáng chú ý trong lĩnh vực phát hiện đối tượng là YOLOv7 và PP-YOLOE+ . Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết về kiến trúc, số liệu hiệu năng và các kịch bản triển khai lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt cho dự án thị giác máy tính tiếp theo của mình.
Đổi mới Kiến trúc
Hiểu rõ những khác biệt cấu trúc cốt lõi giữa các mô hình này là điều vô cùng quan trọng để dự đoán cách chúng hoạt động trong quá trình huấn luyện và suy luận.
YOLOv7 Những điểm nổi bật về kiến trúc
YOLOv7 Đã giới thiệu một số cải tiến quan trọng được thiết kế để nâng cao độ chính xác mà không làm tăng đáng kể chi phí suy luận.
- Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN): Kiến trúc này kiểm soát các đường dẫn gradient ngắn nhất và dài nhất. Bằng cách đó, nó cho phép mạng học được nhiều đặc điểm đa dạng hơn và cải thiện khả năng học tập tổng thể mà không phá hủy đường dẫn gradient ban đầu.
- Chiến lược mở rộng mô hình: YOLOv7 Ứng dụng phương pháp điều chỉnh tỷ lệ mô hình phức hợp, điều chỉnh đồng thời độ sâu và chiều rộng trong khi ghép nối các lớp để duy trì cấu trúc kiến trúc tối ưu trên các kích thước khác nhau.
- Phương pháp huấn luyện đa dạng: Các tác giả đã tích hợp phương pháp tích chập được tham số hóa lại (RepConv) mà không cần kết nối đồng nhất, giúp tăng tốc độ suy luận đáng kể mà không làm giảm khả năng dự đoán của mô hình.
Thông tin chi tiết về YOLOv7 :
Các tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
Ngày: 06/07/2022
Arxiv: https://arxiv.org/abs/2207.02696
Những điểm nổi bật về kiến trúc của PP-YOLOE+
Được phát triển bởi Baidu trong PaddlePaddle Hệ sinh thái PP-YOLOE+ được xây dựng dựa trên phiên bản tiền nhiệm PP-YOLOv2, tập trung mạnh vào các phương pháp không cần điểm neo và các biểu diễn đặc trưng được nâng cao.
- Thiết kế không dựa trên neo: Không giống như các phương pháp dựa trên neo, thiết kế này đơn giản hóa phần đầu dự đoán và giảm số lượng siêu tham số, giúp mô hình dễ dàng điều chỉnh hơn cho các tập dữ liệu tùy chỉnh.
- Mạng xương sống CSPRepResNet: Mạng xương sống này tích hợp các kết nối dư và mạng một phần đa tầng để cải thiện khả năng trích xuất đặc trưng trong khi vẫn duy trì hiệu quả tính toán.
- Học tập căn chỉnh nhiệm vụ (TAL): PP-YOLOE+ sử dụng ET-head (Efficient Task-aligned head) để căn chỉnh tốt hơn các nhiệm vụ phân loại và định vị, giải quyết một nút thắt cổ chai phổ biến trong các bộ dò một giai đoạn.
Thông tin chi tiết về PP-YOLOE+:
Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 02/04/2022
Arxiv: https://arxiv.org/abs/2203.16250
Các chỉ số hiệu suất và điểm chuẩn
Việc lựa chọn mô hình phù hợp thường phụ thuộc vào các ràng buộc cụ thể về phần cứng và yêu cầu độ trễ của bạn. Bảng dưới đây minh họa sự đánh đổi giữa độ chính xác ( mAP ), tốc độ và độ phức tạp của mô hình.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Phân tích Kết quả
- Các kịch bản độ chính xác cao: YOLOv7x thể hiện hiệu suất mạnh mẽ, đạt được độ chính xác cao. mAP Điều đó có tính cạnh tranh cao đối với các tác vụ phát hiện phức tạp. Trong khi đó, PP-YOLOE+x có tỷ lệ mở rộng cao hơn một chút trong... mAP Điều này được thực hiện với sự gia tăng đáng kể về số lượng tham số và số phép tính FLOP.
- Hiệu quả và tốc độ: Các phiên bản nhỏ hơn của PP-YOLOE+ (t và s) mang lại hiệu suất cực thấp. TensorRT với tốc độ cao, chúng rất phù hợp cho việc triển khai ở vùng biên, nơi có những hạn chế nghiêm ngặt về phần cứng.
- Điểm tối ưu: YOLOv7l mang lại sự cân bằng ấn tượng, đạt hiệu suất hơn 51%. mAP Trong khi vẫn duy trì thời gian suy luận dưới 7ms trên GPU T4, đây là lựa chọn mạnh mẽ cho các ứng dụng máy chủ thời gian thực tiêu chuẩn.
Tối ưu hóa cho sản xuất
Khi triển khai các mô hình này, việc tận dụng các định dạng xuất như TensorRT hoặc ONNX có thể giảm đáng kể độ trễ so với việc sử dụng định dạng gốc. PyTorch suy luận.
Lợi thế của Ultralytics
Trong khi cả hai YOLOv7 Và PP-YOLOE+ mang lại hiệu năng chuẩn mực mạnh mẽ, kinh nghiệm phát triển và hỗ trợ hệ sinh thái cũng quan trọng không kém đối với sự thành công của dự án.
Trải nghiệm người dùng được tối ưu hóa
Ultralytics các mô hình ưu tiên tính dễ sử dụng thông qua một giao diện thống nhất. Python API. Không giống như PP-YOLOE+, vốn yêu cầu điều hướng... PaddlePaddle hệ sinh thái và các tệp cấu hình cụ thể của nó, Ultralytics Cho phép bạn chuyển đổi liền mạch từ giai đoạn huấn luyện sang giai đoạn triển khai.
from ultralytics import YOLO
# Load a pretrained model
model = YOLO("yolov7.pt")
# Train the model effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized deployment
model.export(format="engine") # TensorRT export
Hiệu quả tài nguyên
Một điểm mạnh chính của Ultralytics YOLO Ưu điểm của các mô hình này là yêu cầu bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận. Hiệu quả này cho phép các nhà nghiên cứu và nhà phát triển sử dụng kích thước lô lớn hơn trên phần cứng cấp người tiêu dùng, tăng tốc quá trình huấn luyện so với các mô hình nặng hơn hoặc kiến trúc Transformer phức tạp như RT-DETR .
Hệ sinh thái và tính linh hoạt
Cái Ultralytics Hệ sinh thái được duy trì cực kỳ tốt , với các bản cập nhật thường xuyên, tài liệu đầy đủ và hỗ trợ gốc cho nhiều tác vụ khác nhau ngoài việc phát hiện tiêu chuẩn. Với Ultralytics Một khung phần mềm duy nhất hỗ trợ phân đoạn đối tượng , ước lượng tư thế , phân loại và hộp giới hạn định hướng (OBB) , cung cấp tính linh hoạt vượt trội mà các mô hình cạnh tranh thường thiếu.
Tương lai của Trí tuệ nhân tạo thị giác: YOLO26
Khi công nghệ thị giác máy tính phát triển nhanh chóng, các kiến trúc mới đã xuất hiện, định nghĩa lại các tiêu chuẩn về tốc độ và hiệu quả. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho đỉnh cao của sự phát triển này và là lựa chọn được khuyến nghị cao nhất cho tất cả các dự án mới.
Những cải tiến quan trọng của YOLO26:
- Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hiện tượng triệt tiêu cực đại không cần thiết (Non-Maximum Suppression) NMS ) xử lý hậu kỳ. Cách tiếp cận từ đầu đến cuối này giúp đơn giản hóa đáng kể logic triển khai và giảm độ trễ biến đổi, một bước đột phá lần đầu tiên được giới thiệu trong YOLOv10 .
- Hiệu năng biên vượt trội chưa từng có: Bằng cách loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , giúp nó vượt trội hơn so với các thế hệ trước trong lĩnh vực IoT và các thiết bị biên.
- Động lực huấn luyện nâng cao: Việc tích hợp Trình tối ưu hóa MuSGD —lấy cảm hứng từ những cải tiến của LLM như Kimi K2 của Moonshot AI—đảm bảo quá trình huấn luyện ổn định hơn và hội tụ nhanh hơn.
- Phát hiện vật thể nhỏ vượt trội: Các hàm mất mát được cải tiến, cụ thể là ProgLoss + STAL , khắc phục những điểm yếu cố hữu trong việc nhận dạng vật thể nhỏ, điều rất quan trọng đối với các ứng dụng như ảnh chụp từ trên không .
Các ứng dụng thực tế
Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào môi trường triển khai cụ thể.
Khi nào nên chọn PP-YOLOE+
- Tích hợp PaddlePaddle : Nếu cơ sở hạ tầng của bạn đã được tích hợp sâu với Baidu PaddlePaddle Trong hệ sinh thái này, PP-YOLOE+ mang lại sự phù hợp tự nhiên.
- Kiểm tra công nghiệp ở châu Á: Thường được sử dụng tại các trung tâm sản xuất ở châu Á, nơi các hệ thống phần cứng và phần mềm được cấu hình sẵn cho các công cụ của Baidu.
Khi nào nên chọn YOLOv7
- Hệ thống tăng tốc GPU : Hoạt động cực kỳ hiệu quả trên các GPU cấp máy chủ đối với các tác vụ yêu cầu thông lượng cao, chẳng hạn như phân tích video .
- Tích hợp robot: Lý tưởng để tích hợp thị giác máy tính vào robot , cho phép đưa ra quyết định nhanh chóng trong môi trường năng động.
- Nghiên cứu học thuật: Được hỗ trợ rộng rãi và thường xuyên sử dụng như một cơ sở đáng tin cậy trong PyTorch nghiên cứu dựa trên cơ sở.
Mặc dù các mô hình cũ có ý nghĩa lịch sử, việc chuyển đổi sang các kiến trúc hiện đại như YOLO26 hoặc YOLO11 thông qua Nền tảng Ultralytics đảm bảo quyền truy cập vào các tối ưu hóa mới nhất, quy trình huấn luyện đơn giản nhất và khả năng hỗ trợ đa nhiệm rộng rãi nhất hiện nay.