PP-YOLOE+ so với YOLOv7 Điều hướng các kiến trúc phát hiện đối tượng thời gian thực
Khi xây dựng các quy trình xử lý hình ảnh máy tính, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng. Hai kiến trúc đáng chú ý từ năm 2022 là PP-YOLOE+ và YOLOv7 Các công nghệ này đã giới thiệu những tiến bộ mạnh mẽ trong việc phát hiện đối tượng theo thời gian thực. Bản so sánh kỹ thuật này cung cấp cái nhìn sâu sắc về kiến trúc, phương pháp huấn luyện và hiệu năng thực tế của chúng, giúp bạn đưa ra quyết định sáng suốt cho các ứng dụng của mình.
Tổng quan về các Mô hình
Cả PP-YOLOE+ và YOLOv7 Chúng được thiết kế để vượt qua giới hạn về độ chính xác và tốc độ, nhưng lại xuất phát từ các hệ sinh thái phát triển và triết lý thiết kế khác nhau.
PP-YOLOE+
Được phát triển bởi PaddlePaddle Được phát triển bởi các tác giả tại Baidu, PP-YOLOE+ dựa trên PP-YOLOv2 ban đầu. Nó được giới thiệu để cung cấp một bộ phát hiện đối tượng hiệu quả và có độ chính xác cao, được tối ưu hóa cho việc... PaddlePaddle hệ sinh thái.
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức:Baidu
- Ngày: 2022-04-02
- Arxiv:2203.16250
- GitHub:Kho lưu trữ PaddleDetection
- Tài liệu:Tài liệu PP-YOLOE+
YOLOv7
Được phát triển bởi Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao, YOLOv7 Vào thời điểm ra mắt, nó đã giới thiệu "túi quà tặng miễn phí có thể huấn luyện" để thiết lập các tiêu chuẩn tiên tiến mới cho các bộ phát hiện đối tượng thời gian thực.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2022-07-06
- Arxiv:2207.02696
- GitHub:Kho lưu trữ YOLOv7
- Tài liệu: Tài liệu hướng dẫn sử dụng Ultralytics YOLOv7
Đổi mới Kiến trúc
Kiến trúc PP-YOLOE+
PP-YOLOE+ dựa trên mô hình không cần anchor, giúp đơn giản hóa quá trình triển khai bằng cách loại bỏ nhu cầu điều chỉnh anchor boxes cho các tập dữ liệu tùy chỉnh. Nó tích hợp kiến trúc RepResNet mạnh mẽ và mạng PAN (Path Aggregation Network) kiểu CSPNet để kết hợp hiệu quả các đặc trưng đa tỷ lệ. Ngoài ra, nó tận dụng khái niệm Học căn chỉnh nhiệm vụ (Task Alignment Learning - TAL) để căn chỉnh động các nhiệm vụ phân loại và định vị trong quá trình huấn luyện, đảm bảo độ chính xác cao trên nhiều nhiệm vụ thị giác máy tính khác nhau.
Kiến trúc YOLOv7
YOLOv7 Họ đã áp dụng một cách tiếp cận khác bằng cách giới thiệu Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Kiến trúc này cho phép mạng học được nhiều đặc điểm đa dạng hơn mà không phá hủy đường dẫn gradient ban đầu, dẫn đến sự hội tụ tốt hơn. YOLOv7 Ngoài ra, mô hình này còn tận dụng tối đa việc tái tham số hóa mô hình — cụ thể là các phép tích chập tái tham số hóa theo kế hoạch — giúp hợp nhất các lớp tích chập trong quá trình suy luận để tăng tốc độ thực thi mà không làm giảm độ chính xác. Điều này làm cho YOLOv7 Có khả năng vượt trội trong các tác vụ như theo dõi nhiều đối tượng và hệ thống báo động an ninh phức tạp.
Sự khác biệt về hệ sinh thái
Trong khi PP-YOLOE+ được tích hợp chặt chẽ với Baidu's PaddlePaddle khung, YOLOv7 Ứng dụng này được xây dựng bằng PyTorch , một ngôn ngữ lập trình có cộng đồng người dùng lớn hơn và khả năng tương thích rộng rãi hơn với các hệ thống triển khai như ONNX và TensorRT .
Phân tích hiệu suất
Khi cân bằng giữa tốc độ, thông số và độ chính xác ( mAP Các mẫu máy này có hiệu năng tương đương nhau tùy thuộc vào biến thể cụ thể và phần cứng mục tiêu. Dưới đây là bảng so sánh toàn diện các thông số của chúng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Trong khi đó, mẫu PP-YOLOE+x đạt được mức cao hơn một chút. mAP , YOLOv7 Các biến thể mang lại tỷ lệ tham số trên độ chính xác rất cao. YOLOv7 Kiến trúc này vẫn là lựa chọn ưa thích cho việc xử lý GPU thô, trong đó TensorRT Việc tối ưu hóa mang lại độ trễ cực thấp.
Lợi thế của Ultralytics
Khi huấn luyện và triển khai các mô hình này, khung làm việc bạn chọn cũng quan trọng không kém gì chính mô hình đó. Việc sử dụng Ultralytics Cung cấp trải nghiệm người dùng liền mạch nhờ vào sự thống nhất cao. Python API giúp đơn giản hóa toàn bộ vòng đời của máy học.
- Hệ sinh thái được duy trì tốt: Ultralytics YOLO Các mô hình được hưởng lợi từ một hệ sinh thái được cập nhật liên tục, tài liệu đầy đủ và một cộng đồng năng động.
- Yêu cầu bộ nhớ: Ultralytics Tối ưu hóa mạnh mẽ việc tải dữ liệu và các chế độ huấn luyện. Huấn luyện Ultralytics YOLO các mô hình thường yêu cầu ít hơn nhiều CUDA So với các kiến trúc dựa trên bộ chuyển đổi nặng nề, bộ nhớ của chúng cho phép các nhà phát triển sử dụng kích thước lô lớn hơn trên phần cứng dành cho người tiêu dùng.
- Hiệu quả huấn luyện: Tận dụng các chiến lược tăng cường dữ liệu mạnh mẽ và khả năng điều chỉnh siêu tham số tích hợp sẵn, Ultralytics Đảm bảo các mô hình hội tụ nhanh chóng với các trọng số đã được huấn luyện sẵn.
Triển khai API đơn giản
Đào tạo một YOLOv7 mô hình với Ultralytics Chỉ cần vài dòng mã, nó hoàn toàn trừu tượng hóa các kịch bản huấn luyện phức tạp:
from ultralytics import YOLO
# Load a pretrained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to TensorRT for deployment
model.export(format="engine", device=0)
Tiêu chuẩn mới: Giới thiệu YOLO26
Trong khi PP-YOLOE+ và YOLOv7 Với những cột mốc quan trọng trong phát hiện đối tượng, lĩnh vực trí tuệ nhân tạo đang phát triển nhanh chóng. Đối với bất kỳ dự án thị giác máy tính mới nào, chúng tôi đặc biệt khuyên dùng Ultralytics YOLO26 . Được phát hành vào tháng 1 năm 2026, YOLO26 đại diện cho một bước tiến vượt bậc trong trí tuệ nhân tạo thị giác ưu tiên thiết bị đầu cuối.
Vì sao YOLO26 vượt trội hơn các kiến trúc cũ:
- Thiết kế không cần NMS từ đầu đến cuối: YOLO26 được thiết kế hoàn toàn từ đầu đến cuối. Bằng cách loại bỏ Non-Maximum Suppression ( ) ( ) NMS (Bằng cách xử lý hậu kỳ), nó đảm bảo độ trễ suy luận có thể dự đoán được và mang tính xác định — một bước đột phá lần đầu tiên được thấy trong YOLOv10 .)
- Loại bỏ DFL: Việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL) giúp đơn giản hóa quy trình xuất dữ liệu và cải thiện đáng kể khả năng tương thích với các thiết bị biên công suất thấp.
- Suy luận CPU nhanh hơn tới 43%: Đối với các trường hợp không có GPU chuyên dụng — chẳng hạn như cảm biến IoT thành phố thông minh — YOLO26 được tối ưu hóa mạnh mẽ để chạy hiệu quả trực tiếp trên CPU.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến (như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp của... SGD và Muon cho quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh chóng.
- ProgLoss + STAL: Các hàm mất mát được cải tiến này mang lại những cải tiến đáng kể trong việc phát hiện vật thể nhỏ, điều này rất quan trọng đối với các trường hợp sử dụng như chụp ảnh trên không bằng máy bay không người lái và phát hiện lỗi trong sản xuất.
Các trường hợp sử dụng lý tưởng và kịch bản triển khai
Khi nào nên sử dụng PP-YOLOE+
PP-YOLOE+ tỏa sáng khi bạn đang đắm chìm trong thế giới Baidu và PaddlePaddle Hệ sinh thái. Nếu mục tiêu triển khai của bạn sử dụng phần cứng chuyên dụng được thiết kế riêng cho các mô hình Paddle (ví dụ: trong một số dây chuyền sản xuất ở châu Á), PP-YOLOE+ cung cấp độ chính xác tuyệt vời và khả năng tích hợp liền mạch. Nó rất hiệu quả cho tự động hóa sản xuất công nghiệp .
Khi nào nên sử dụng YOLOv7
YOLOv7 vẫn là một lựa chọn tuyệt vời cho việc suy luận hiệu năng cao nói chung, đặc biệt là khi triển khai trên NVIDIA phần cứng sử dụng TensorRT . Việc tích hợp nó vào... PyTorch Hệ sinh thái này làm cho nó trở nên vô cùng linh hoạt đối với nghiên cứu học thuật và các quy trình thương mại tùy chỉnh, chẳng hạn như quản lý đám đông thời gian thực hoặc các tác vụ ước tính tư thế phức tạp, nơi tính toàn vẹn cấu trúc của mạng là tối quan trọng.
Các mô hình khác để xem xét
Tùy thuộc vào nhu cầu cụ thể của bạn, bạn cũng có thể quan tâm đến việc so sánh các kiến trúc này với YOLO11 để có tính linh hoạt rộng rãi, sẵn sàng cho sản xuất, hoặc RT-DETR nếu dự án của bạn yêu cầu những ưu điểm cụ thể của bộ chuyển đổi hình ảnh so với các mạng tích chập truyền thống.
Kết luận
Cả PP-YOLOE+ và YOLOv7 đã mang lại những cải tiến đáng kể cho thế giới phát hiện đối tượng thời gian thực. Trong khi PP-YOLOE+ hoạt động xuất sắc trong các môi trường được tiêu chuẩn hóa xung quanh PaddlePaddle , YOLOv7 mang lại sự linh hoạt và hiệu năng vượt trội thông qua... PyTorch Và Ultralytics hệ sinh thái.
Tuy nhiên, khi các giải pháp thị giác máy tính tiếp tục phát triển, việc sử dụng các công cụ hiện đại là điều cần thiết. Bằng cách áp dụng Nền tảng Ultralytics và các kiến trúc thế hệ tiếp theo như YOLO26 , các nhà phát triển có thể đảm bảo ứng dụng của họ luôn dẫn đầu về tốc độ, độ chính xác và tính dễ sử dụng.