YOLOv9 So sánh với PP-YOLOE+: Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại
Lĩnh vực phát hiện đối tượng thời gian thực tiếp tục phát triển nhanh chóng, mang đến cho các kỹ sư thị giác máy tính nhiều lựa chọn để triển khai các mô hình có độ chính xác cao trên cơ sở hạ tầng biên và đám mây. Hai mô hình nổi bật trong lĩnh vực này là YOLOv9 và PP-YOLOE+ . Mặc dù cả hai đều đẩy giới hạn về độ chính xác và tốc độ, nhưng chúng xuất phát từ các hướng nghiên cứu và hệ sinh thái phần mềm khác nhau.
Bài so sánh kỹ thuật toàn diện này sẽ khám phá kiến trúc, phương pháp huấn luyện, các chỉ số hiệu suất và các ứng dụng thực tế lý tưởng của chúng. Chúng ta cũng sẽ tìm hiểu cách hệ sinh thái Ultralytics rộng lớn hơn mang lại những lợi thế đáng kể cho các nhà phát triển ưu tiên tính dễ sử dụng, hiệu quả bộ nhớ và khả năng triển khai linh hoạt.
Nguồn gốc và thông số kỹ thuật của mẫu xe
Việc hiểu rõ bối cảnh của các mô hình này giúp chúng ta nắm bắt được các quyết định về kiến trúc và sự phụ thuộc vào khung phần mềm của chúng.
YOLOv9: Giải quyết nút thắt thông tin
Được giới thiệu vào đầu năm 2024, YOLOv9 Giải quyết vấn đề mất dữ liệu xảy ra khi thông tin truyền qua mạng nơ-ron sâu. Đây là một mạng nơ-ron tích chập được tối ưu hóa cao, được thiết kế để tối đa hóa hiệu quả tham số.
- Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 21 tháng 2, 2024
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
- Tài liệu:Tài liệu Ultralytics YOLOv9
PP-YOLOE+: Phát triển hệ sinh thái mái chèo
Được Baidu phát hành vào năm 2022, PP-YOLOE+ là một cải tiến liên tục so với PP-YOLOv2. Nó sử dụng mô hình không có điểm neo và giới thiệu chiến lược gán nhãn động để cải thiện sự hội tụ và độ chính xác trong khuôn khổ PaddlePaddle .
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức: Baidu
- Ngày: 2 tháng 4 năm 2022
- Arxiv:2203.16250
- GitHub:PaddleDetection
- Tài liệu: Cấu hình PP-YOLOE+
So sánh kiến trúc
Thông tin về độ dốc có thể lập trình so với CSPRepResStage
Sự đổi mới cốt lõi trong YOLOv9 Đó là Thông tin Gradient có thể lập trình (Programmable Gradient Information - PGI) . PGI hoạt động như một khung giám sát phụ trợ, đảm bảo rằng thông tin gradient quan trọng được bảo toàn và truyền chính xác trở lại các lớp nông trong quá trình huấn luyện. Điều này được kết hợp với Mạng tổng hợp lớp hiệu quả tổng quát (Generalized Efficient Layer Aggregation Network - GELAN) , kết hợp thế mạnh của CSPNet và ELAN để mang lại độ chính xác cao đồng thời giảm đáng kể chi phí tính toán (FLOPs).
PP-YOLOE+ dựa trên một hệ thống xương sống chuyên dụng có tên gọi là... CSPRepResStageNó tận dụng các kỹ thuật tái tham số hóa (tương tự như trong RepVGG) để tăng tốc độ suy luận bằng cách hợp nhất các lớp tích chập trong quá trình triển khai. Hơn nữa, nó sử dụng đầu phân tích hiệu quả theo nhiệm vụ (ET-head) để cân bằng giữa các nhiệm vụ phân loại và hồi quy.
Mặc dù PP-YOLOE+ rất mạnh mẽ, YOLOv9 Kiến trúc GELAN của nó thường yêu cầu dung lượng bộ nhớ nhỏ hơn trong cả quá trình huấn luyện và suy luận, điều này khiến nó đặc biệt phù hợp với các thiết bị AI biên .
So sánh hiệu suất
Khi đánh giá các mô hình để sản xuất, cần xem xét sự đánh đổi giữa các yếu tố sau: mAP (Độ chính xác trung bình), tốc độ suy luận và kích thước mô hình là rất quan trọng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Phân tích
- Hiệu quả tham số: YOLOv9 đạt được hiệu quả cao hơn đáng kể. Ví dụ, YOLOv9c đạt được mức... mAP với hiệu suất 53,0% chỉ sử dụng 25,3 triệu thông số, trong khi PP-YOLOE+l yêu cầu số thông số gấp đôi (52,2 triệu) để đạt được hiệu suất thấp hơn một chút. mAP ở mức 52,9%. Điều này làm giảm đáng kể yêu cầu về bộ nhớ cho YOLOv9 .
- Tốc độ suy luận: YOLOv9 Các mô hình thể hiện khả năng tối ưu hóa tuyệt vời cho các bộ tăng tốc phần cứng như TensorRT , mang lại tốc độ suy luận cạnh tranh trên NVIDIA GPU T4 đóng vai trò quan trọng trong suy luận thời gian thực .
Phương pháp luận đào tạo và Hệ sinh thái
Việc lựa chọn giữa các mô hình này thường phụ thuộc vào hệ sinh thái phần mềm.
PP-YOLOE+ và PaddlePaddle
PP-YOLOE+ được tích hợp chặt chẽ với bộ công cụ PaddleDetection . Mặc dù mạnh mẽ, nó yêu cầu người dùng phải điều hướng trong một môi trường dựa trên dòng lệnh với nhiều cấu hình phức tạp. Đối với các nhóm đã quen thuộc với hệ sinh thái PyTorch hoặc TensorFlow , việc chuyển đổi sang PP-YOLOE+ có thể gặp khó khăn. PaddlePaddle Điều này gây ra ma sát đáng kể và đòi hỏi quá trình học hỏi khó khăn hơn.
Cái Ultralytics Ưu điểm: Quy trình làm việc được tối ưu hóa
Ngược lại, YOLOv9 hoạt động trong hệ sinh thái Ultralytics được hoàn thiện cao. Được thiết kế dành cho các nhà phát triển và nhà nghiên cứu, Ultralytics Ưu tiên sự dễ sử dụng vượt trội. API Python hoàn toàn loại bỏ các đoạn mã lặp lại phức tạp.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for production deployment
model.export(format="onnx")
Quy trình này làm nổi bật hiệu quả đào tạo vượt trội của Ultralytics Các mô hình. Hỗ trợ gốc cho việc tăng cường dữ liệu, huấn luyện phân tán và ghi nhật ký tự động lên các nền tảng như Weights & Biases hoặc MLflow được tích hợp sẵn.
Khám phá những tiến bộ mới nhất trong Trí tuệ nhân tạo thị giác
Trong khi YOLOv9 Với hiệu năng vượt trội, chúng tôi đặc biệt khuyên bạn nên xem xét Ultralytics YOLO26 mới ra mắt cho các dự án mới. YOLO26 sở hữu thiết kế NMS -Free từ đầu đến cuối , giúp đơn giản hóa đáng kể việc triển khai. Với tính năng loại bỏ DFL (Distribution Focal Loss được loại bỏ để đơn giản hóa việc xuất dữ liệu và cải thiện khả năng tương thích với thiết bị biên/công suất thấp), nó mang lại tốc độ suy luận CPU nhanh hơn tới 43% cho điện toán biên. Được hỗ trợ bởi trình tối ưu hóa MuSGD , nó đảm bảo quá trình huấn luyện ổn định và hội tụ nhanh chóng. Ngoài ra, ProgLoss + STAL cung cấp các hàm mất mát được cải tiến với những cải tiến đáng kể trong nhận dạng vật thể nhỏ, rất quan trọng đối với IoT, robot và hình ảnh trên không.
Tính linh hoạt và hỗ trợ tác vụ
Các dự án thị giác máy tính hiện đại hiếm khi chỉ dừng lại ở việc vẽ các hộp giới hạn đơn giản.
PP-YOLOE+ chủ yếu được thiết kế cho việc phát hiện đối tượng tiêu chuẩn. Việc điều chỉnh kiến trúc của nó cho các tác vụ khác đòi hỏi kỹ thuật tùy chỉnh chuyên sâu.
Ngược lại, Ultralytics Khung phần mềm này là một công cụ đa nhiệm mạnh mẽ. Bằng cách sử dụng API thống nhất, các nhà phát triển có thể dễ dàng chuyển đổi từ phát hiện đối tượng tiêu chuẩn sang phân đoạn đối tượng phức tạp, ước tính tư thế có độ chính xác cao, phát hiện hộp giới hạn định hướng (OBB) cho ảnh chụp từ trên không và phân loại hình ảnh. Tính linh hoạt vượt trội này là lý do tại sao các nhóm doanh nghiệp luôn lựa chọn nó. Ultralytics các mô hình như YOLOv9 , YOLO11 và YOLO26.
Các trường hợp sử dụng và ứng dụng lý tưởng
- Phân tích Thành phố Thông minh & Quản lý Giao thông: Hiệu quả tham số cao và độ trễ thấp của YOLOv9 (và YOLO26 tiếp theo) khiến chúng trở nên lý tưởng để triển khai trên phần cứng biên có hạn chế (như NVIDIA (Các thiết bị Jetson) để giám sát lưu lượng giao thông và an ninh đô thị.
- Hệ thống quản lý hàng tồn kho bán lẻ: Dùng để phát hiện các cụm sản phẩm nhỏ được sắp xếp dày đặc trên kệ. YOLOv9 PGI của 's duy trì hiệu quả các chi tiết không gian nhỏ, vượt trội hơn PP-YOLOE+ trong các tác vụ phát hiện vật thể nhỏ.
- Các triển khai cũ: PP-YOLOE+ vẫn là một lựa chọn khả thi dành riêng cho các nhóm được yêu cầu sử dụng Baidu/ PaddlePaddle Ngăn xếp phần mềm trong cơ sở hạ tầng kế thừa hiện có.
Dành cho các nhà nghiên cứu đang tìm hiểu về kiến trúc dựa trên Transformer, Ultralytics Ngoài ra, nó còn hỗ trợ RT-DETR một cách tự nhiên thông qua cùng một API dễ sử dụng, đảm bảo bạn luôn có quyền truy cập vào mô hình tối ưu cho các yêu cầu triển khai cụ thể của mình.