Chuyển đến nội dung

YOLOv9 so với YOLOv5: So sánh chi tiết

Trang này cung cấp so sánh kỹ thuật giữa hai mô hình phát hiện đối tượng quan trọng: YOLOv9 và Ultralytics YOLOv5. Cả hai mô hình đều là một phần của series YOLO (You Only Look Once) có ảnh hưởng, được biết đến với sự cân bằng giữa tốc độ và độ chính xác trong phát hiện đối tượng theo thời gian thực. So sánh này khám phá sự khác biệt về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình phù hợp nhất cho các dự án thị giác máy tính của mình.

YOLOv9: Nâng cao độ chính xác với kiến trúc mới

YOLOv9 được giới thiệu vào tháng 2 năm 2024, mang đến những đổi mới kiến trúc quan trọng cho lĩnh vực phát hiện đối tượng. Nó hướng đến giải quyết vấn đề mất thông tin trong mạng nơ-ron sâu, một thách thức quan trọng để đào tạo các mô hình hiệu quả cao.

Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs.ultralytics.com/models/yolov9/

Kiến trúc và các cải tiến

YOLOv9 giới thiệu hai khái niệm đột phá được trình bày chi tiết trong bài báo của mình, "YOLOv9: Học những gì bạn muốn học bằng cách sử dụng Thông tin Gradient có thể lập trình":

  • Thông tin Gradient có thể lập trình (PGI): Cách tiếp cận mới này được thiết kế để giải quyết vấn đề tắc nghẽn thông tin xảy ra khi dữ liệu truyền qua các lớp mạng sâu. PGI đảm bảo rằng thông tin đầu vào đầy đủ có sẵn để tính toán hàm mất mát, do đó bảo toàn dữ liệu quan trọng để cập nhật gradient chính xác hơn và huấn luyện mô hình hiệu quả hơn.
  • Mạng tổng hợp lớp hiệu quả tổng quát (GELAN): YOLOv9 cũng có GELAN, một kiến trúc mạng mới được tối ưu hóa để sử dụng tham số vượt trội và hiệu quả tính toán. Nó xây dựng dựa trên các nguyên tắc của CSPNet và ELAN để tạo ra một cấu trúc đạt được độ chính xác cao hơn với ít tham số và chi phí tính toán (FLOPs) hơn.

Điểm mạnh

  • Độ chính xác Nâng cao: YOLOv9 thiết lập một tiêu chuẩn hiện đại mới trên bộ dữ liệu COCO, vượt trội hơn nhiều công cụ phát hiện đối tượng theo thời gian thực trước đó về độ chính xác trung bình (mAP).
  • Cải thiện hiệu quả: Sự kết hợp của PGI và GELAN tạo ra các mô hình không chỉ có độ chính xác cao mà còn hiệu quả về mặt tính toán, khiến chúng trở nên mạnh mẽ cho các tác vụ mà hiệu suất là rất quan trọng.
  • Bảo toàn thông tin: Bằng cách giải quyết trực tiếp nút thắt thông tin, PGI cho phép đào tạo các mạng sâu hơn, phức tạp hơn mà không bị suy giảm hiệu suất điển hình, dẫn đến các mô hình mạnh mẽ hơn.

Điểm yếu

  • Tài Nguyên Huấn Luyện: Như đã lưu ý trong tài liệu YOLOv9, việc huấn luyện các mô hình YOLOv9 có thể tốn nhiều tài nguyên và thời gian hơn so với các mô hình đã được thiết lập như YOLOv5.
  • Hệ sinh thái mới hơn: Vì là một mô hình gần đây hơn từ một nhóm nghiên cứu khác, hệ sinh thái, hỗ trợ cộng đồng và tích hợp của bên thứ ba ít hoàn thiện hơn so với Ultralytics YOLOv5 đã được thiết lập tốt.
  • Tính linh hoạt của tác vụ: YOLOv9 ban đầu tập trung chủ yếu vào phát hiện đối tượng. Nó thiếu sự hỗ trợ tích hợp cho các tác vụ thị giác khác như phân đoạn thể hiện, phân loại hình ảnhước tính tư thế, vốn được hỗ trợ nguyên bản trong các mô hình Ultralytics.

Các Trường hợp Sử dụng

  • Các ứng dụng đòi hỏi độ chính xác phát hiện đối tượng cao nhất có thể, chẳng hạn như phân tích video nâng cao và kiểm tra công nghiệp có độ chính xác cao.
  • Các tình huống mà hiệu quả tính toán phải được cân bằng với hiệu suất hàng đầu, như trong AI để quản lý giao thông.
  • Nghiên cứu và phát triển trong thị giác máy tính nâng cao, nơi khám phá các kiến trúc mới là một ưu tiên.

Tìm hiểu thêm về YOLOv9

Ultralytics YOLOv5: Tiêu chuẩn đã được thiết lập và linh hoạt

Được phát hành vào năm 2020, Ultralytics YOLOv5 nhanh chóng trở thành một tiêu chuẩn công nghiệp nhờ sự cân bằng vượt trội về tốc độ, độ chính xác và tính dễ sử dụng. Được phát triển hoàn toàn bằng PyTorch, nó đã liên tục được tinh chỉnh và được hỗ trợ bởi một hệ sinh thái mạnh mẽ.

Tác giả: Glenn Jocher
Tổ chức: Ultralytics
Ngày: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Tài liệu: https://docs.ultralytics.com/models/yolov5/

Kiến trúc và các tính năng

YOLOv5 sử dụng kiến trúc đã được chứng minh với backbone CSPDarknet53 và neck PANet để tổng hợp đặc trưng hiệu quả. Detection head dựa trên anchor của nó rất hiệu quả. Mô hình có sẵn với nhiều kích cỡ khác nhau (n, s, m, l, x), cho phép các nhà phát triển lựa chọn sự cân bằng hoàn hảo giữa hiệu suất và giới hạn tài nguyên.

Điểm mạnh

  • Tốc độ và Hiệu quả Vượt trội: YOLOv5 được tối ưu hóa cao cho suy luận nhanh, khiến nó trở nên lý tưởng cho các ứng dụng thời gian thực trên nhiều loại phần cứng, từ GPU mạnh mẽ đến thiết bị biên hạn chế về tài nguyên.
  • Dễ sử dụng: Nổi tiếng với trải nghiệm người dùng được tối ưu hóa, YOLOv5 cung cấp giao diện PythonCLI đơn giản, cùng với tài liệu mở rộng và rõ ràng.
  • Hệ sinh thái được duy trì tốt: YOLOv5 được hưởng lợi từ hệ sinh thái Ultralytics toàn diện, bao gồm phát triển tích cực, một cộng đồng lớn và hỗ trợ trên Discord, cập nhật thường xuyên và các công cụ mạnh mẽ như Ultralytics HUB để đào tạo và triển khai không cần code.
  • Cân bằng hiệu suất: Mô hình đạt được sự cân bằng tốt giữa tốc độ suy luận và độ chính xác phát hiện, phù hợp với nhiều tình huống triển khai thực tế khác nhau.
  • Tính linh hoạt: Không giống như nhiều mô hình chuyên dụng, YOLOv5 hỗ trợ nhiều tác vụ ngay khi xuất xưởng, bao gồm phát hiện đối tượng, phân vùng thể hiệnphân loại hình ảnh.
  • Hiệu quả huấn luyện: YOLOv5 cung cấp quy trình huấn luyện hiệu quả, các trọng số đã được huấn luyện trước có sẵn và thường yêu cầu bộ nhớ thấp hơn so với nhiều kiến trúc khác, đặc biệt là các mô hình dựa trên transformer.

Điểm yếu

  • Độ chính xác cao nhất: Mặc dù có độ chính xác cao vào thời điểm đó, nhưng các mô hình mới hơn như YOLOv9 có thể đạt được điểm mAP cao hơn trên các chuẩn như COCO.
  • Thiết kế dựa trên Anchor: Nó dựa vào các hộp anchor được xác định trước, có thể yêu cầu điều chỉnh nhiều hơn cho các bộ dữ liệu có các đối tượng có hình dạng bất thường so với các phương pháp không cần anchor hiện đại.

Các Trường hợp Sử dụng

Tìm hiểu thêm về YOLOv5

Hiệu năng và điểm chuẩn: YOLOv9 so với YOLOv5

So sánh hiệu suất giữa YOLOv9 và YOLOv5 làm nổi bật những tiến bộ trong kiến trúc mô hình trong những năm qua. Các mô hình YOLOv9 liên tục đạt được điểm mAP cao hơn so với các đối tác YOLOv5 của chúng, thường với việc sử dụng hiệu quả hơn các tham số và FLOPs ở phân khúc cao hơn. Ví dụ: YOLOv9-C đạt 53.0% mAP với 25.3 triệu tham số, vượt trội so với 50.7% mAP của YOLOv5x với 86.7 triệu tham số.

Tuy nhiên, YOLOv5 vượt trội về tốc độ, đặc biệt là các biến thể nhỏ hơn của nó như YOLOv5n và YOLOv5s, cung cấp thời gian suy luận cực nhanh trên cả CPU và GPU, khiến chúng trở nên vô địch cho nhiều ứng dụng biên thời gian thực.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Kết luận: Bạn nên chọn mô hình nào?

Việc lựa chọn giữa YOLOv9 và YOLOv5 phụ thuộc nhiều vào nhu cầu cụ thể của dự án.

  • YOLOv9 là lựa chọn vượt trội cho các ứng dụng mà độ chính xác tối đa là mục tiêu chính và bạn có đủ tài nguyên tính toán để đào tạo. Kiến trúc cải tiến của nó làm cho nó trở nên lý tưởng để vượt qua các ranh giới của hiệu suất phát hiện đối tượng trong các lĩnh vực chuyên biệt.

  • Ultralytics YOLOv5 vẫn là lựa chọn thiết thực và linh hoạt hơn cho nhiều ứng dụng hơn. Ưu điểm chính của nó—dễ sử dụng, tốc độ, hỗ trợ đa nhiệm và một hệ sinh thái hoàn thiện, được hỗ trợ tốt—làm cho nó trở thành mô hình phù hợp cho các nhà phát triển cần xây dựng các giải pháp thực tế, mạnh mẽ một cách nhanh chóng và hiệu quả. Đối với các dự án yêu cầu triển khai trên các thiết bị biên hoặc sự cân bằng giữa tốc độ và độ chính xác, YOLOv5 thường là lựa chọn tối ưu.

Đối với những ai đang tìm kiếm một điểm trung gian hoặc thậm chí các tính năng nâng cao hơn, Ultralytics cung cấp một bộ đầy đủ các mô hình. Hãy cân nhắc khám phá YOLOv8, kết hợp nhiều lợi ích về khả năng sử dụng của YOLOv5 với kiến trúc không neo và tính linh hoạt thậm chí còn lớn hơn, hoặc YOLO11 mới nhất để có hiệu suất hiện đại trong hệ sinh thái Ultralytics. Bạn có thể tìm thêm so sánh trên trang so sánh mô hình của chúng tôi.



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận