Chuyển đến nội dung

YOLOv7 vs PP-YOLOE+: Cuộc đối đầu kiến ​​trúc trong phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính được định hình bởi sự đổi mới không ngừng, và năm 2022 là một năm then chốt chứng kiến ​​sự ra mắt của hai kiến ​​trúc có tầm ảnh hưởng lớn: YOLOv7PP-YOLOE+ . Trong khi đó, YOLOv7 tiếp tục di sản của YOLO Thuộc dòng sản phẩm tập trung vào tối ưu hóa "gói quà tặng miễn phí", PP-YOLOE+ thể hiện nỗ lực của Baidu hướng tới việc phát hiện hiệu năng cao, không cần neo trong phạm vi ứng dụng. PaddlePaddle hệ sinh thái.

Đối với các nhà nghiên cứu và kỹ sư, việc lựa chọn giữa các mô hình này thường phụ thuộc vào các yêu cầu cụ thể của khung công tác ( PyTorch so với PaddlePaddle ) và phần cứng triển khai. Hướng dẫn này cung cấp sự so sánh kỹ thuật chuyên sâu về kiến ​​trúc, số liệu hiệu năng và khả năng sử dụng của chúng, đồng thời giới thiệu các giải pháp thay thế hiện đại như YOLO26 , tích hợp những tính năng tốt nhất của các phiên bản tiền nhiệm thành một giải pháp liền mạch, hoàn chỉnh từ đầu đến cuối. NMS Khung phần mềm miễn phí.

So sánh các chỉ số hiệu suất

Bảng sau đây so sánh hiệu suất của YOLOv7 so sánh với PP-YOLOE+ trên nhiều quy mô mô hình khác nhau. Trong khi đó YOLOv7 Thể hiện khả năng phát hiện mạnh mẽ, PP-YOLOE+ mang lại sự cân bằng cạnh tranh cao giữa số lượng tham số và tốc độ suy luận.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

YOLOv7: Cỗ máy mạnh mẽ "Bag-of-Freebies"

Được phát hành vào giữa năm 2022, YOLOv7 Đã vượt qua những giới hạn của việc phát hiện đối tượng bằng cách tập trung vào hiệu quả kiến ​​trúc và các chiến lược tối ưu hóa huấn luyện mà không làm tăng chi phí suy luận.

Các tính năng kiến trúc chính

YOLOv7 Bài báo giới thiệu E-ELAN (Extended Efficient Layer Aggregation Network) , một kiến ​​trúc mới được thiết kế để kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, cho phép mạng học được nhiều đặc điểm đa dạng hơn. Nó cũng tận dụng tối đa "túi quà tặng có thể huấn luyện", bao gồm việc tái tham số hóa mô hình và gán nhãn động.

Tuy nhiên, YOLOv7 Nó vẫn là một bộ dò dựa trên anchor . Mặc dù phương pháp này đã được chứng minh, nhưng nó thường yêu cầu điều chỉnh cẩn thận các anchor box cho các tập dữ liệu tùy chỉnh, điều này có thể làm phức tạp quá trình huấn luyện so với các triển khai không dùng anchor box mới hơn được tìm thấy trong YOLOv8 hoặc YOLO26.

Tìm hiểu thêm về YOLOv7

PP-YOLOE+: Đối thủ không Anchor

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, được Baidu phát triển như một phần của bộ công cụ PaddleDetection. Nó được thiết kế để khắc phục những hạn chế của các phương pháp dựa trên anchor, đồng thời tối đa hóa tốc độ suy luận trên nhiều loại phần cứng khác nhau.

Các tính năng kiến trúc chính

PP-YOLOE+ sử dụng một không neo mô hình này giúp giảm đáng kể số lượng siêu tham số. Cốt lõi của nó dựa trên... RepResBlock (lấy cảm hứng từ RepVGG) và một Học tập dựa trên sự phù hợp nhiệm vụ (TAL) chiến lược này, giúp điều chỉnh động các nhiệm vụ phân loại và định vị, mang lại độ chính xác cao, đặc biệt là ở mức độ nhất định. x (kích thước cực lớn) nơi nó đạt được hiệu quả ấn tượng 54,7% mAP.

Các cân nhắc về hệ sinh thái

Mặc dù PP-YOLOE+ mang lại hiệu năng tuyệt vời, nhưng nó lại gắn bó chặt chẽ với framework PaddlePaddle . Các nhà phát triển quen thuộc với... PyTorch có thể gặp khó khăn và trở ngại lớn khi cố gắng tích hợp các mô hình này vào hệ thống hiện có. PyTorch -các quy trình MLOps dựa trên hoặc khi sử dụng các công cụ triển khai tiêu chuẩn như TorchScript .

So sánh: Kiến trúc và Khả năng sử dụng

Dựa trên Anchor so với Không Anchor

Điểm khác biệt rõ rệt nhất nằm ở cách tiếp cận với các hộp giới hạn. YOLOv7 sử dụng các hộp neo được xác định trước, đóng vai trò là mẫu tham chiếu để phát hiện đối tượng. Điều này hoạt động tốt với các tập dữ liệu tiêu chuẩn như COCO nhưng có thể gặp khó khăn với các hình dạng đối tượng bất thường được tìm thấy trong các tập dữ liệu như DOTA-v2 trừ khi được trả về thủ công.

PP-YOLOE+ không cần điểm neo, dự đoán trực tiếp tâm của các đối tượng và khoảng cách của chúng đến các ranh giới. Điều này thường đơn giản hóa quy trình huấn luyện. Hiện đại Ultralytics Các mẫu như YOLO11YOLO26 cũng đã hoàn toàn áp dụng giao diện không có liên kết và thậm chí... NMS - Kiến trúc không ràng buộc nhằm tối đa hóa tính linh hoạt và tốc độ.

Bộ nhớ và Hiệu quả

Ultralytics Các mô hình này nổi tiếng về hiệu quả đào tạo . Trong khi đó, YOLOv7 đòi hỏi đáng kể GPU Do các đường dẫn nối phức tạp trong E-ELAN, bộ nhớ dành cho các mô hình lớn nhất của nó khá hạn chế, PP-YOLOE+ tối ưu hóa điều này thông qua việc tái tham số hóa. Tuy nhiên, các phiên bản mới hơn như YOLO26 vượt trội hơn cả hai bằng cách loại bỏ các thành phần nặng như Distribution Focal Loss (DFL), dẫn đến yêu cầu bộ nhớ thấp hơn đáng kể trong cả quá trình huấn luyện và suy luận.

Tương lai: Tại sao nên chuyển sang YOLO26?

Trong khi YOLOv7 và PP-YOLOE+ là những công nghệ tiên tiến nhất vào năm 2022, lĩnh vực này đã phát triển nhanh chóng. YOLO26 , được phát hành bởi Ultralytics Ra mắt vào tháng 1 năm 2026, sản phẩm này đánh dấu đỉnh cao của những tiến bộ đó, giải quyết những điểm yếu cụ thể của các mẫu trước đó.

Thiết kế không NMS đầu cuối

Một trong những nút thắt cổ chai lớn nhất ở cả hai YOLOv7 và PP-YOLOE+ là ức chế không tối đa ( NMS ), một bước xử lý hậu kỳ cần thiết để lọc các phát hiện trùng lặp. YOLO26 hoàn toàn không cần NMS từ đầu đến cuối . Điều này loại bỏ sự biến động độ trễ do NMS Trong những khung cảnh đông đúc, nó rất lý tưởng cho các ứng dụng thời gian thực như xe tự hành và giám sát giao thông.

Tối ưu hóa cho điện toán biên

YOLO26 loại bỏ hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL). Việc đơn giản hóa kiến ​​trúc này giúp tối ưu hóa quá trình xuất sang các định dạng như CoreMLTFLite , đảm bảo khả năng tương thích tốt hơn với các thiết bị tiêu thụ điện năng thấp. Kết hợp với các tối ưu hóa cho CPU Về khả năng suy luận, YOLO26 mang lại tốc độ CPU nhanh hơn tới 43% so với các thế hệ trước, một lợi thế quan trọng cho các triển khai IoT.

Ổn định trong huấn luyện nâng cao

Lấy cảm hứng từ những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM), YOLO26 tích hợp Trình tối ưu hóa MuSGD , một sự kết hợp giữa... SGD và Muon (lấy cảm hứng từ Kimi K2 của Moonshot AI). Điều này giúp hội tụ nhanh hơn và các lần huấn luyện ổn định hơn, giảm thiểu tình trạng "thử và sai" thường gặp khi huấn luyện các mô hình học sâu. Hơn nữa, việc tích hợp ProgLossSTAL (Soft-Task Alignment Learning) giúp tăng đáng kể hiệu suất trong việc phát hiện các vật thể nhỏ , một lĩnh vực mà các mô hình cũ thường gặp khó khăn.

Tìm hiểu thêm về YOLO26

Dễ sử dụng với Ultralytics

Một trong những đặc điểm nổi bật của Ultralytics Điểm nổi bật của hệ sinh thái này chính là tính dễ sử dụng . Cho dù bạn đang sử dụng YOLOv8 , YOLOv9 hay YOLO26 tiên tiến nhất, API vẫn nhất quán và đơn giản.

Ngược lại với việc thiết lập PaddlePaddle môi trường cho PP-YOLOE+, có thể yêu cầu các điều kiện cụ thể CUDA Đối sánh phiên bản và cài đặt thư viện riêng biệt, Ultralytics các mô hình hoạt động ngay lập tức với tiêu chuẩn pip install ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLO model (YOLO26n for maximum speed)
model = YOLO("yolo26n.pt")

# Train the model on a custom dataset with a single command
# The system handles data augmentation, logging, and plots automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

Kết luận

Cả YOLOv7PP-YOLOE+ đều là những kiến ​​trúc có khả năng đáp ứng yêu cầu. YOLOv7 vẫn là một lựa chọn tuyệt vời dành cho những ai thực sự yêu thích thể loại cổ điển. YOLO kiến trúc và PyTorch PP-YOLOE+ mang lại độ chính xác cao, là một ứng cử viên xuất sắc dành cho người dùng trong hệ sinh thái Baidu, cung cấp hiệu quả tham số mạnh mẽ.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm một hệ sinh thái được duy trì tốt , tính linh hoạt vượt trội (bao gồm phát hiện, phân đoạn , ước tính tư thếOBB ) và những đột phá hiệu năng mới nhất, Ultralytics YOLO26 là lựa chọn tối ưu. Thiết kế toàn diện, dung lượng bộ nhớ được giảm thiểu và những cải tiến dành riêng cho từng tác vụ (như RLE cho ước tính tư thế và tổn thất phân đoạn ngữ nghĩa) khiến nó trở thành giải pháp có khả năng đáp ứng tốt nhất các thách thức AI trong thế giới thực.

Để bắt đầu hành trình của bạn với trí tuệ nhân tạo thị giác tiên tiến nhất, hãy khám phá Nền tảng Ultralytics để có trải nghiệm đào tạo và triển khai liền mạch.

Khám phá các Mô hình Khác

Bạn muốn xem các mô hình khác hoạt động như thế nào? Hãy xem các bài so sánh của chúng tôi về YOLOv6 so với YOLOv7RT-DETR so với YOLOv8 để tìm ra giải pháp phù hợp nhất với các yêu cầu của dự án của bạn.


Bình luận