Chuyển đến nội dung

YOLOv9 so với PP-YOLOE+: So sánh kỹ thuật

Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu là một quyết định then chốt đối với các kỹ sư thị giác máy tính, cân bằng giữa nhu cầu về độ chính xác cao và các hạn chế về tính toán. Hướng dẫn toàn diện này so sánh YOLOv9 , một mô hình tiên tiến giới thiệu các kỹ thuật thông tin gradient mới, và PP-YOLOE+ , một bộ phát hiện mạnh mẽ được tối ưu hóa cho PaddlePaddle khung. Chúng tôi phân tích những đổi mới về kiến trúc, hiệu suất chuẩn và khả năng triển khai phù hợp để giúp bạn xác định giải pháp phù hợp nhất cho các ứng dụng thị giác máy tính của mình.

YOLOv9 : Thông tin Gradient có thể lập trình để nâng cao khả năng học tập

YOLOv9 đánh dấu một bước tiến đáng kể trong quá trình phát triển của các bộ phát hiện vật thể thời gian thực. Được phát hành vào đầu năm 2024, YOLOv9 giải quyết các vấn đề cơ bản liên quan đến mất mát thông tin trong mạng nơ-ron sâu, thiết lập các chuẩn mực mới về độ chính xác và hiệu quả tham số.

Tác giả: Vương Chien-Yao và Liêu Hồng Nguyên
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs. ultralytics .com/models/yolov9/

Kiến trúc này giới thiệu hai khái niệm đột phá: Thông tin Gradient Lập trình (PGI)Mạng Tổng hợp Lớp Hiệu quả Tổng quát (GELAN) . Khi mạng lưới trở nên sâu hơn, dữ liệu thiết yếu để tính toán hàm mất mát có thể bị mất - một hiện tượng được gọi là nút thắt cổ chai thông tin. PGI giải quyết vấn đề này bằng cách tạo ra các gradient đáng tin cậy thông qua một nhánh phụ trợ có thể đảo ngược, đảm bảo các đặc trưng sâu giữ lại thông tin quan trọng. Đồng thời, GELAN tối ưu hóa việc sử dụng tham số, cho phép mô hình đạt được độ chính xác vượt trội với ít tài nguyên tính toán hơn so với các kiến trúc dựa trên tích chập theo chiều sâu.

Được tích hợp vào hệ sinh thái Ultralytics , YOLOv9 Lợi ích từ thiết kế lấy người dùng làm trung tâm, giúp đơn giản hóa quy trình làm việc phức tạp. Các nhà phát triển có thể tận dụng API Python thống nhất để đào tạo, xác thực và triển khai, rút ngắn đáng kể thời gian từ khâu nguyên mẫu đến khâu sản xuất. Sự tích hợp này cũng đảm bảo khả năng tương thích với nhiều tập dữ liệu và định dạng xuất dữ liệu.

Tìm hiểu thêm về YOLOv9

PP-YOLOE+: Độ chính xác cao trong hệ sinh thái PaddlePaddle

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, được Baidu phát triển như một phần của bộ PaddleDetection. Nó được thiết kế đặc biệt để chạy hiệu quả trên nền tảng PaddlePaddle , mang lại sự cân bằng mạnh mẽ giữa tốc độ và độ chính xác cho các ứng dụng công nghiệp.

Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/ PaddlePaddle /PaddleDetection/
Tài liệu: https://github.com/ PaddlePaddle /PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

PP-YOLOE+ sử dụng cơ chế không neo , loại bỏ nhu cầu sử dụng các hộp neo được xác định trước, giúp đơn giản hóa quy trình tinh chỉnh siêu tham số. Nền tảng của nó thường sử dụng CSPRepResNet và có thiết kế đầu độc đáo được hỗ trợ bởi Học Căn Chỉnh Nhiệm Vụ (TAL). Phương pháp này căn chỉnh các tác vụ phân loại và định vị để cải thiện chất lượng kết quả phát hiện. Mặc dù có khả năng cao, PP-YOLOE+ được kết hợp chặt chẽ với PaddlePaddle hệ sinh thái, có thể trình bày một đường cong học tập cho các nhóm được chuẩn hóa trên PyTorch hoặc TensorFlow .

Sự phụ thuộc vào hệ sinh thái

Trong khi PP-YOLOE+ mang lại hiệu suất cạnh tranh, sự phụ thuộc của nó vào PaddlePaddle khuôn khổ có thể hạn chế khả năng tương tác với phạm vi rộng hơn của PyTorch -các công cụ và thư viện thường được sử dụng trong cộng đồng nghiên cứu phương Tây.

Tìm hiểu thêm về PP-YOLOE+

Phân tích hiệu năng: Tốc độ, độ chính xác và hiệu quả

Khi so sánh hai kiến trúc này, YOLOv9 cho thấy lợi thế rõ ràng về cả hiệu suất tham số và độ chính xác đỉnh. Việc tích hợp GELAN cho phép YOLOv9 để xử lý dữ liệu trực quan hiệu quả hơn, mang lại điểm Độ chính xác trung bình ( mAP ) cao hơn trên tập dữ liệu COCO trong khi vẫn duy trì độ trễ thấp hơn.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Những Điểm Chính

  • Hiệu quả tham số: Mô hình YOLOv9 -T đạt hiệu suất tương đương với các mô hình lớn hơn trong khi chỉ sử dụng 2,0M tham số , ít hơn đáng kể so với biến thể PP-YOLOE+t ở mức 4,85M. Điều này làm cho YOLOv9 đặc biệt phù hợp với các thiết bị AI biên có dung lượng lưu trữ hạn chế.
  • Độ chính xác đỉnh: YOLOv9 -E đạt được mAP đáng chú ý là 55,6% , vượt qua mô hình PP-YOLOE+x lớn nhất (54,7% mAP ) mặc dù sử dụng ít hơn khoảng 40% tham số (57,3M so với 98,42M). Điều này làm nổi bật ưu thế về mặt kiến trúc của GELAN trong việc tối đa hóa khả năng trích xuất tính năng.
  • Tốc độ suy luận: Trong khi PP-YOLOE+s cho thấy độ trễ thô cao hơn một chút trên GPU T4, YOLOv9 Các mô hình thường mang lại sự cân bằng tốt hơn, mang lại độ chính xác cao hơn đáng kể với chi phí tính toán tương tự. Ví dụ, YOLOv9 -C vượt trội hơn PP-YOLOE+l về độ chính xác (53,0% so với 52,9%) trong khi nhanh hơn (7,16ms so với 8,36ms) và nhẹ hơn.

Phương pháp đào tạo và tính dễ sử dụng

Trải nghiệm của nhà phát triển có sự khác biệt đáng kể giữa hai mô hình, chủ yếu dựa trên khuôn khổ cơ bản và hỗ trợ hệ sinh thái của chúng.

Ultralytics Lợi thế của hệ sinh thái

Chọn YOLOv9 qua Ultralytics cung cấp quyền truy cập vào bộ công cụ toàn diện được thiết kế để hợp lý hóa vòng đời học máy.

  • API đơn giản: Việc đào tạo một mô hình chỉ cần một vài dòng mã, loại bỏ những mã lệnh phức tạp.
  • Hiệu quả bộ nhớ: Ultralytics YOLO các mô hình được tối ưu hóa để sử dụng ít bộ nhớ hơn trong quá trình đào tạo so với kiến trúc dựa trên máy biến áp, cho phép kích thước lô lớn hơn trên phần cứng cấp tiêu dùng.
  • Tính linh hoạt: Ngoài khả năng phát hiện, Ultralytics Khung hỗ trợ phân đoạn trường hợp , ước tính tư thế và phân loại, cung cấp giao diện thống nhất cho nhiều tác vụ khác nhau.
  • Đào tạo hiệu quả: Với việc tăng cường dữ liệu tiên tiến và các trọng số được đào tạo sẵn có, các nhà phát triển có thể đạt được sự hội tụ nhanh hơn, tiết kiệm được giá trị GPU giờ.

Quy trình làm việc hợp lý với Ultralytics

Bạn có thể tải, đào tạo và xác thực một YOLOv9 mô hình chỉ trong một vài dòng Python , tận dụng sự mạnh mẽ Ultralytics công cụ để tự động điều chỉnh siêu tham số và theo dõi thử nghiệm.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

PaddlePaddle Môi trường

PP-YOLOE+ yêu cầu thư viện PaddleDetection . Mặc dù mạnh mẽ, nhưng nó đòi hỏi người dùng phải quen thuộc với hệ sinh thái Baidu. Việc thiết lập môi trường, chuyển đổi tập dữ liệu sang định dạng cần thiết và xuất mô hình để triển khai có thể phức tạp hơn đối với người dùng chưa được nhúng vào hệ thống. PaddlePaddle cơ sở hạ tầng.

Các trường hợp sử dụng lý tưởng

Hiểu được điểm mạnh của từng mô hình giúp lựa chọn công cụ phù hợp cho các ứng dụng thực tế cụ thể.

Khi nào nên chọn YOLOv9

  • Hệ thống tự động: Dành cho xe tự lái và robot, nơi mà việc tối đa hóa độ chính xác là rất quan trọng đối với sự an toàn, YOLOv9 -E cấp trên mAP cung cấp độ tin cậy cần thiết.
  • Triển khai Edge: Nhẹ YOLOv9 -T hoàn hảo để triển khai trên Raspberry Pi hoặc NVIDIA Thiết bị Jetson dành cho các tác vụ như đếm người hoặc phân tích bán lẻ thông minh.
  • Nghiên cứu & Phát triển: Hệ sinh thái được duy trì tốt và PyTorch hỗ trợ làm cho nó trở nên lý tưởng cho các nhà nghiên cứu tạo nguyên mẫu các giải pháp thị giác máy tính mới hoặc tích hợp khả năng theo dõi đối tượng .
  • Môi trường hạn chế tài nguyên: Các ứng dụng yêu cầu hiệu suất cao với VRAM hạn chế được hưởng lợi từ YOLOv9 Kiến trúc hiệu quả và dung lượng bộ nhớ thấp hơn.

Khi nào nên chọn PP-YOLOE+

  • Người dùng PaddlePaddle : Đối với các tổ chức đang sử dụng cơ sở hạ tầng của Baidu, PP-YOLOE+ cung cấp khả năng tích hợp liền mạch và tối ưu hóa gốc.
  • Kiểm tra công nghiệp (Trung Quốc): Được áp dụng rộng rãi tại thị trường Châu Á, công nghệ này thường được sử dụng trong các quy trình sản xuất dựa trên phần cứng suy luận Paddle cụ thể.

Kết luận

Mặc dù cả hai mô hình đều là những đối thủ đáng gờm trong lĩnh vực phát hiện đối tượng, YOLOv9 nổi lên như một lựa chọn ưu việt cho phần lớn các nhà phát triển và doanh nghiệp toàn cầu. Việc sử dụng Thông tin Gradient Lập trình (PGI) tiên tiến mang lại độ chính xác vượt trội với hiệu suất đáng kinh ngạc, vượt trội hơn PP-YOLOE+ về các chỉ số chính trong khi sử dụng ít tham số hơn đáng kể.

Hơn nữa, hệ sinh thái Ultralytics nâng cao YOLOv9 bằng cách cung cấp khả năng sử dụng dễ dàng vượt trội, tài liệu hướng dẫn phong phú và một cộng đồng năng động. Cho dù bạn đang xây dựng hệ thống báo động an ninh , phân tích hình ảnh y tế hay phát triển cơ sở hạ tầng thành phố thông minh, YOLOv9 mang lại sự cân bằng về hiệu suất và tính linh hoạt cần thiết để thành công.

Các mô hình khác để xem xét

Nếu bạn đang khám phá AI tầm nhìn tiên tiến, hãy xem xét các mô hình mạnh mẽ khác từ Ultralytics :

  • YOLO11 : Sự phát triển mới nhất trong YOLO dòng sản phẩm này mang lại tốc độ nhanh hơn và độ chính xác cao hơn cho các ứng dụng tiên tiến.
  • YOLOv8 : Một tiêu chuẩn công nghiệp cực kỳ linh hoạt hỗ trợ các tác vụ phát hiện, phân đoạn, tạo dáng và OBB .
  • RT-DETR : Một bộ dò dựa trên máy biến áp thời gian thực có độ chính xác vượt trội, cung cấp một giải pháp thay thế cho kiến trúc dựa trên CNN.

Bình luận