YOLOv7 So sánh toàn diện giữa PP-YOLOE và PP-YOLOE+

Khi đánh giá các mô hình thị giác máy tính tiên tiến nhất cho các quy trình sản xuất, các nhà phát triển thường cân nhắc ưu điểm của các kiến trúc khác nhau. Hai mô hình đáng chú ý trong lĩnh vực phát hiện đối tượng là YOLOv7 và PP-YOLOE+ . Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết về kiến trúc, số liệu hiệu năng và các kịch bản triển khai lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt cho dự án thị giác máy tính tiếp theo của mình.

Đổi mới Kiến trúc

Hiểu rõ những khác biệt cấu trúc cốt lõi giữa các mô hình này là điều vô cùng quan trọng để dự đoán cách chúng hoạt động trong quá trình huấn luyện và suy luận.

YOLOv7 Những điểm nổi bật về kiến trúc

YOLOv7 Đã giới thiệu một số cải tiến quan trọng được thiết kế để nâng cao độ chính xác mà không làm tăng đáng kể chi phí suy luận.

Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN): Kiến trúc này kiểm soát các đường dẫn gradient ngắn nhất và dài nhất. Bằng cách đó, nó cho phép mạng học các đặc trưng đa dạng hơn và cải thiện khả năng học tổng thể mà không phá hủy đường dẫn gradient ban đầu.
Chiến lược mở rộng mô hình: YOLOv7 sử dụng phương pháp mở rộng mô hình phức hợp, điều chỉnh độ sâu và chiều rộng đồng thời trong khi nối các lớp để duy trì cấu trúc kiến trúc tối ưu trên các kích thước khác nhau.
Túi quà miễn phí có thể huấn luyện: Các tác giả đã tích hợp phương pháp tích chập tái tham số hóa (RepConv) không có kết nối đồng nhất, giúp tăng đáng kể tốc độ suy luận mà không ảnh hưởng đến khả năng dự đoán của mô hình.

Thông tin chi tiết về YOLOv7:
Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696

Tìm hiểu thêm về YOLOv7

Những điểm nổi bật về kiến trúc của PP-YOLOE+

Được phát triển bởi Baidu trong hệ sinh thái PaddlePaddle, PP-YOLOE+ được xây dựng dựa trên phiên bản tiền nhiệm của nó, PP-YOLOv2, tập trung mạnh vào các phương pháp không neo và các biểu diễn đặc trưng được tăng cường.

Thiết kế không Anchor: Không giống như các phương pháp dựa trên anchor, thiết kế này đơn giản hóa đầu dự đoán và giảm số lượng siêu tham số, giúp mô hình dễ dàng điều chỉnh hơn cho các tập dữ liệu tùy chỉnh.
Backbone CSPRepResNet: Backbone này tích hợp các kết nối dư và mạng Cross Stage Partial để cải thiện khả năng trích xuất đặc trưng đồng thời duy trì hiệu quả tính toán.
Học căn chỉnh tác vụ (TAL): PP-YOLOE+ sử dụng ET-head (đầu căn chỉnh tác vụ hiệu quả) để căn chỉnh tốt hơn các tác vụ phân loại và định vị, giải quyết một nút thắt cổ chai phổ biến trong các bộ detect một giai đoạn.

Chi tiết PP-YOLOE+:
Tác giả: Các tác giả PaddlePaddle
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: https://arxiv.org/abs/2203.16250

Tìm hiểu thêm về PP-YOLOE+

Các chỉ số hiệu suất và điểm chuẩn

Việc lựa chọn mô hình phù hợp thường phụ thuộc vào các ràng buộc cụ thể về phần cứng và yêu cầu độ trễ của bạn. Bảng dưới đây minh họa sự đánh đổi giữa độ chính xác (mAP), tốc độ và độ phức tạp của mô hình.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Phân tích Kết quả

Các kịch bản yêu cầu độ chính xác cao: YOLOv7x thể hiện hiệu suất mạnh mẽ, đạt mAP cao và cạnh tranh cho các tác vụ detect phức tạp. Mặc dù PP-YOLOE+x có mAP cao hơn một chút, nhưng điều đó đi kèm với sự gia tăng đáng kể về số lượng tham số và FLOPs.
Hiệu quả và Tốc độ: Các biến thể nhỏ hơn của PP-YOLOE+ (t và s) mang lại tốc độ TensorRT cực nhanh, làm cho chúng rất phù hợp cho việc triển khai trên thiết bị biên nơi có các ràng buộc phần cứng nghiêm ngặt.
Điểm tối ưu: YOLOv7l mang lại sự cân bằng ấn tượng, đạt được hơn 51% mAP đồng thời duy trì thời gian suy luận dưới 7ms trên GPU T4, biến nó thành lựa chọn mạnh mẽ cho các ứng dụng máy chủ thời gian thực tiêu chuẩn.

Tối ưu hóa cho sản xuất

Khi triển khai các mô hình này, việc tận dụng các định dạng xuất như TensorRT hoặc ONNX có thể giảm đáng kể độ trễ so với việc sử dụng định dạng gốc. PyTorch suy luận.

Lợi thế của Ultralytics

Trong khi cả hai YOLOv7 Và PP-YOLOE+ mang lại hiệu năng chuẩn mực mạnh mẽ, kinh nghiệm phát triển và hỗ trợ hệ sinh thái cũng quan trọng không kém đối với sự thành công của dự án.

Trải nghiệm người dùng được tối ưu hóa

Ultralytics các mô hình ưu tiên tính dễ sử dụng thông qua một giao diện thống nhất. Python API. Không giống như PP-YOLOE+, vốn yêu cầu điều hướng... PaddlePaddle hệ sinh thái và các tệp cấu hình cụ thể của nó, Ultralytics Cho phép bạn chuyển đổi liền mạch từ giai đoạn huấn luyện sang giai đoạn triển khai.

from ultralytics import YOLO

# Load a pretrained model
model = YOLO("yolov7.pt")

# Train the model effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized deployment
model.export(format="engine")  # TensorRT export

Hiệu quả tài nguyên

Một điểm mạnh chính của các mô hình Ultralytics YOLO là yêu cầu bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận. Hiệu quả này cho phép các nhà nghiên cứu và nhà phát triển sử dụng kích thước lô lớn hơn trên phần cứng tiêu dùng, đẩy nhanh quá trình huấn luyện so với các mô hình nặng hơn hoặc kiến trúc Transformer phức tạp như RT-DETR.

Hệ sinh thái và tính linh hoạt

Cái Ultralytics Hệ sinh thái được duy trì cực kỳ tốt , với các bản cập nhật thường xuyên, tài liệu đầy đủ và hỗ trợ gốc cho nhiều tác vụ khác nhau ngoài việc phát hiện tiêu chuẩn. Với Ultralytics Một khung phần mềm duy nhất hỗ trợ phân đoạn đối tượng , ước lượng tư thế , phân loại và hộp giới hạn định hướng (OBB) , cung cấp tính linh hoạt vượt trội mà các mô hình cạnh tranh thường thiếu.

Tương lai của Trí tuệ nhân tạo thị giác: YOLO26

Khi thị giác máy tính phát triển nhanh chóng, các kiến trúc mới hơn đã xuất hiện, định nghĩa lại các tiêu chuẩn về tốc độ và hiệu quả. Ra mắt vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho đỉnh cao của sự phát triển này và là lựa chọn được khuyến nghị cao cho tất cả các dự án mới.

Những cải tiến quan trọng của YOLO26:

Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 loại bỏ hậu xử lý Non-Maximum Suppression (NMS). Phương pháp đầu cuối tự nhiên này đơn giản hóa đáng kể logic triển khai và giảm độ trễ biến đổi, một bước đột phá lần đầu tiên được giới thiệu trong YOLOv10.
Hiệu suất biên chưa từng có: Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43%, biến nó thành vượt trội cho các thiết bị IoT và biên so với các thế hệ trước.
Động lực huấn luyện nâng cao: Sự tích hợp của Bộ tối ưu hóa MuSGD—lấy cảm hứng từ những đổi mới LLM như Kimi K2 của Moonshot AI—đảm bảo huấn luyện ổn định hơn và hội tụ nhanh hơn.
detect vật thể nhỏ vượt trội: Các hàm mất mát được cải tiến, cụ thể là ProgLoss + STAL, giải quyết những điểm yếu lịch sử trong việc nhận dạng vật thể nhỏ, rất quan trọng cho các ứng dụng như hình ảnh trên không.

Các ứng dụng thực tế

Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào môi trường triển khai cụ thể.

Khi nào nên chọn PP-YOLOE+

Tích hợp PaddlePaddle: Nếu cơ sở hạ tầng của bạn đã được tích hợp sâu với hệ sinh thái PaddlePaddle của Baidu, PP-YOLOE+ sẽ cung cấp một sự phù hợp tự nhiên.
Kiểm tra công nghiệp tại Châu Á: Thường được sử dụng tại các trung tâm sản xuất ở Châu Á nơi các ngăn xếp phần cứng và phần mềm được cấu hình sẵn cho các công cụ của Baidu.

Khi nào nên chọn YOLOv7

Hệ thống tăng tốc GPU: Hoạt động đặc biệt tốt trên các GPU cấp máy chủ cho các tác vụ yêu cầu thông lượng cao, chẳng hạn như phân tích video.
Tích hợp Robot: Lý tưởng để tích hợp thị giác máy tính vào robot, cho phép đưa ra quyết định nhanh chóng trong môi trường động.
Nghiên cứu học thuật: Được hỗ trợ rộng rãi và thường xuyên được sử dụng như một nền tảng đáng tin cậy trong nghiên cứu dựa trên PyTorch.

Mặc dù các mô hình cũ có ý nghĩa lịch sử, việc chuyển đổi sang các kiến trúc hiện đại như YOLO26 hoặc YOLO11 thông qua Nền tảng Ultralytics đảm bảo quyền truy cập vào các tối ưu hóa mới nhất, quy trình huấn luyện đơn giản nhất và khả năng hỗ trợ đa nhiệm rộng rãi nhất hiện nay.