PP-YOLOE+ so với... YOLOv9 So sánh toàn diện các kiến trúc phát hiện đối tượng

Công nghệ phát hiện vật thể thời gian thực tiếp tục phát triển nhanh chóng, với các nhà nghiên cứu liên tục nỗ lực vượt qua giới hạn về độ chính xác, độ trễ và hiệu quả tham số. Hai cột mốc quan trọng trong hành trình này là PP-YOLOE+, được phát triển bởi... PaddlePaddle đội ngũ tại Baidu, và YOLOv9 , được tạo ra bởi người sáng lập ban đầu YOLOv7 các tác giả. Bài so sánh này khám phá những đổi mới về kiến trúc, các chỉ số hiệu suất và thực tế triển khai của hai mô hình mạnh mẽ này.

Siêu dữ liệu mô hình

PP-YOLOE+
Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 02/04/2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: Kho lưu trữ PaddleDetection
Tài liệu: Tài liệu chính thức của PaddleDocs

YOLOv9
Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
Ngày: 21/02/2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: Kho lưu trữ YOLOv9
Tài liệu: Tài liệu Ultralytics YOLOv9

Tìm hiểu thêm về YOLOv9

Phân tích hiệu suất

Khi so sánh các mô hình này, các nhà phát triển thường xem xét sự đánh đổi giữa mAP (độ chính xác trung bình) và tốc độ suy luận . Bảng dưới đây cho thấy rằng trong khi PP-YOLOE+ là một bộ dò không cần anchor tiên tiến nhất vào năm 2022, YOLOv9 (2024) sử dụng các nguyên tắc kiến trúc mới hơn để đạt được hiệu quả tham số vượt trội.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Những điểm đáng chú ý bao gồm:

Hiệu quả tham số: YOLOv9t đạt được độ chính xác cạnh tranh với số lượng tham số ít hơn một nửa so với PP-YOLOE+t (2,0 triệu so với 4,85 triệu), do đó phù hợp hơn nhiều cho các thiết bị biên có bộ nhớ hạn chế .
Độ chính xác ở quy mô lớn: Đối với các mô hình lớn hơn, YOLOv9e vượt trội hơn PP-YOLOE+x về độ chính xác. mAP (55,6% so với 54,7%) trong khi sử dụng ít tham số hơn đáng kể (57,3 triệu so với 98,42 triệu).
Tốc độ: YOLOv9 cung cấp tốc độ suy luận cực kỳ cạnh tranh trên NVIDIA GPU T4, đặc biệt là các phiên bản nhỏ hơn.

Sự khác biệt về kiến trúc

PP-YOLOE+: Phát hiện không neo được tinh chỉnh

PP-YOLOE+ là sự phát triển của PP-YOLOv2, nhấn mạnh mô hình không cần anchor. Nó sử dụng kiến trúc xương sống CSPResNet và phần cổ CSPPAN được đơn giản hóa. Các tính năng chính bao gồm:

Học tập căn chỉnh nhiệm vụ (TAL): Một chiến lược gán nhãn tự động chọn các mẫu tích cực dựa trên sự kết hợp giữa điểm phân loại và điểm định vị.
Đầu ET-Head: Một đầu in hiệu quả, được thiết kế để cân bằng giữa tốc độ và độ chính xác.
Ghép nối động: Cải thiện tốc độ hội tụ trong quá trình huấn luyện so với việc gán neo tĩnh.

YOLOv9: Thông tin Gradient có thể lập trình

YOLOv9 Nó giới thiệu những thay đổi cơ bản về cách mạng nơ-ron sâu xử lý luồng dữ liệu. Nó giải quyết vấn đề "nút thắt cổ chai thông tin" nơi dữ liệu bị mất khi truyền qua các lớp sâu.

Kiến trúc GELAN: Mạng tổng hợp lớp hiệu quả tổng quát (Generalized Efficient Layer Aggregation Network) kết hợp những ưu điểm tốt nhất của CSPNet và ELAN để tối đa hóa việc sử dụng tham số.
PGI (Programmable Gradient Information): Khái niệm mới này sử dụng một nhánh phụ có thể đảo ngược để tạo ra các gradient đáng tin cậy cho nhánh chính, đảm bảo rằng các đặc trưng sâu giữ lại thông tin quan trọng về hình ảnh đầu vào.
Giám sát phụ trợ: Tương tự như các kỹ thuật được thấy trong các mô hình phân đoạn , YOLOv9 Sử dụng các đầu phụ trợ trong quá trình huấn luyện để tăng hiệu suất mà không ảnh hưởng đến tốc độ suy luận (vì các đầu này sẽ được tháo ra trong quá trình triển khai).

Tại sao thông tin về độ dốc lại quan trọng

Trong các mạng nơ-ron sâu, dữ liệu đầu vào ban đầu có thể bị "lãng quên" khi các đặc trưng truyền đến các lớp cuối cùng. YOLOv9 Công nghệ PGI của 's đảm bảo rằng mô hình vẫn giữ được sự hiểu biết đầy đủ về đối tượng, điều này đặc biệt hữu ích trong việc phát hiện các đối tượng nhỏ hoặc bị che khuất trong các cảnh phức tạp.

Hệ sinh thái và Dễ sử dụng

Sự khác biệt quan trọng nhất đối với các nhà phát triển nằm ở hệ sinh thái và quy trình làm việc.

Lợi thế của Ultralytics

YOLOv9 được tích hợp hoàn toàn vào Ultralytics hệ sinh thái. Điều này có nghĩa là bạn có thể huấn luyện, xác thực và triển khai mô hình bằng cùng một API đơn giản được sử dụng cho YOLO11 và YOLO26 .

Lợi ích chính:

API thống nhất: Chuyển đổi giữa các tác vụ như Phát hiện đối tượng và Ước tính tư thế chỉ bằng cách thay đổi tệp trọng lượng mô hình.
MLOps tự động: Tích hợp liền mạch với Nền tảng Ultralytics cho phép huấn luyện trên đám mây, quản lý tập dữ liệu và triển khai mô hình chỉ bằng một cú nhấp chuột.
Hiệu quả bộ nhớ: Ultralytics Các vòng lặp huấn luyện được tối ưu hóa cao, thường yêu cầu ít VRAM hơn so với các khung phần mềm cạnh tranh. Đây là một lợi thế quan trọng so với nhiều mô hình dựa trên Transformer vốn yêu cầu tài nguyên tính toán khổng lồ.
Tính linh hoạt khi xuất khẩu: Hỗ trợ xuất khẩu gốc sang ONNX , OpenVINO , CoreML , Và TensorRT Đảm bảo mô hình của bạn hoạt động ở mọi nơi.

from ultralytics import YOLO

# Load a pretrained YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to TensorRT for maximum GPU speed
model.export(format="engine")

Quy trình làm việc của PP-YOLOE+

PP-YOLOE+ dựa trên PaddlePaddle Mặc dù mạnh mẽ, nó đòi hỏi phải áp dụng một hệ sinh thái cụ thể, khác biệt với các khuôn khổ khác. PyTorch Quy trình làm việc tập trung vào thư viện mà nhiều nhà nghiên cứu ưa thích. Việc thiết lập thường bao gồm sao chép thư mục. PaddleDetection việc quản lý kho lưu trữ và các tệp cấu hình thủ công có thể đòi hỏi người dùng phải học hỏi nhiều hơn so với việc sử dụng các công cụ khác. pip install ultralytics kinh nghiệm.

Các trường hợp sử dụng và Khuyến nghị

Khi nào nên tiếp tục sử dụng PP-YOLOE+

Tích hợp hệ thống cũ: Nếu môi trường sản xuất của bạn đã được xây dựng trên nền tảng của Baidu... PaddlePaddle cơ sở hạ tầng.
Phần cứng chuyên dụng: Nếu bạn triển khai trên phần cứng có tối ưu hóa chuyên biệt dành riêng cho Paddle Lite.

Khi nào nên lựa chọn Ultralytics YOLO Mô hình

Đối với phần lớn các dự án mới, YOLOv9 hoặc YOLO26 phiên bản mới hơn là những lựa chọn được khuyến nghị.

Nghiên cứu & Phát triển: Kiến trúc PGI trong YOLOv9 Cung cấp một môi trường nghiên cứu phong phú cho các nhà nghiên cứu về dòng chảy gradient.
Triển khai thương mại: Các tùy chọn xuất khẩu mạnh mẽ trong Ultralytics hệ sinh thái giúp việc di chuyển từ một nơi nào đó trở nên dễ dàng. PyTorch Chuyển đổi nguyên mẫu thành ứng dụng sản xuất bằng C++ sử dụng TensorRT hoặc OpenVINO .
Điện toán biên: Với hiệu quả tham số vượt trội ( mAP mỗi FLOP), Ultralytics Các mẫu này lý tưởng cho các thiết bị chạy bằng pin như máy bay không người lái hoặc camera thông minh.

Nhìn về phía trước: Sức mạnh của YOLO26

Trong khi YOLOv9 Đây là một mô hình xuất sắc, và lĩnh vực này đã tiến xa hơn nữa với sự ra mắt của YOLO26 . Nếu bạn đang bắt đầu một dự án mới ngày hôm nay, YOLO26 mang lại một số lợi thế quan trọng so với cả PP-YOLOE+ và... YOLOv9 .

Tìm hiểu thêm về YOLO26

YOLO26 đại diện cho công nghệ tiên tiến nhất về hiệu quả xử lý hình ảnh bằng máy tính:

NMS từ đầu đến cuối - Miễn phí: Không giống như PP-YOLOE+ và YOLOv9 những trường hợp này yêu cầu Không Tối Đa Hóa Sự Ức Chế ( NMS (Xử lý hậu kỳ) YOLO26 là phần mềm gốc. NMS -miễn phí. Điều này giúp giảm sự biến động về độ trễ và đơn giản hóa đáng kể quy trình triển khai.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM (như Kimi K2 của Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa MuSGD để hội tụ nhanh hơn và chạy huấn luyện ổn định hơn.
Phát hiện vật thể nhỏ được nâng cao: Với ProgLoss + STAL , YOLO26 vượt trội trong việc phát hiện các vật thể nhỏ, một điểm yếu truyền thống của nhiều bộ dò tìm thời gian thực.
Tốc độ CPU : Nhờ loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL) và các tối ưu hóa khác, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , trở thành lựa chọn hàng đầu cho môi trường điện toán phi máy chủ hoặc thiết bị biên không có bộ xử lý thần kinh chuyên dụng (NPU).

Tóm tắt

Cả PP-YOLOE+ và YOLOv9 là những cột mốc trong lịch sử phát hiện đối tượng. PP-YOLOE+ đã tinh chỉnh phương pháp không cần neo, trong khi đó YOLOv9 đã giới thiệu các khái niệm giám sát sâu thông qua PGI. Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa độ chính xác, tính dễ sử dụng và khả năng triển khai trong tương lai, thì... Ultralytics Hệ sinh thái này—được dẫn đầu bởi YOLOv9 và YOLO26 mang tính cách mạng—cung cấp giải pháp mạnh mẽ nhất.

Khám phá thêm

Bạn quan tâm đến các kiến trúc khác? Hãy xem các bài so sánh của chúng tôi về RT-DETR (dựa trên biến áp) hoặc YOLO11 để tìm ra giải pháp phù hợp nhất cho ứng dụng của bạn.

PP-YOLOE+ so với... YOLOv9 So sánh toàn diện các kiến ​​trúc phát hiện đối tượng