YOLOv9 so với EfficientDet: So sánh chi tiết
Việc lựa chọn mô hình phát hiện đối tượng tối ưu là rất quan trọng đối với các tác vụ thị giác máy tính, cân bằng giữa độ chính xác, tốc độ và tài nguyên tính toán. Trang này cung cấp so sánh kỹ thuật chi tiết giữa Ultralytics YOLOv9 và EfficientDet, hai mô hình quan trọng trong bối cảnh phát hiện đối tượng. Chúng ta sẽ đi sâu vào các thiết kế kiến trúc, các chuẩn mực hiệu suất và các ứng dụng phù hợp của chúng để hỗ trợ bạn đưa ra quyết định sáng suốt cho các dự án của mình.
YOLOv9: Độ chính xác và hiệu quả hiện đại
YOLOv9, được giới thiệu vào năm 2024 bởi Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin, Academia Sinica, Đài Loan, thể hiện một bước tiến đáng kể trong loạt YOLO. Nó được trình bày chi tiết trong bài báo của họ "YOLOv9: Học những gì bạn muốn học bằng cách sử dụng Thông tin Gradient có thể lập trình" và được triển khai trong kho lưu trữ GitHub của họ. YOLOv9 giải quyết thách thức mất thông tin trong các mạng sâu thông qua các thành phần kiến trúc sáng tạo như Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN). Những đổi mới này đảm bảo rằng mô hình học hỏi hiệu quả và duy trì độ chính xác cao với ít tham số hơn, thể hiện sự cân bằng mạnh mẽ giữa hiệu suất và hiệu quả.
Chi tiết kỹ thuật:
- Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Tài liệu: https://docs.ultralytics.com/models/yolov9/
Điểm mạnh
- Độ chính xác vượt trội: YOLOv9 đạt được độ chính xác vượt trội trong phát hiện đối tượng, thường vượt trội hơn các đối thủ cạnh tranh ở số lượng tham số tương tự.
- Sử dụng tham số hiệu quả: Kiến trúc PGI và GELAN tăng cường khả năng trích xuất đặc trưng và giảm thiểu mất mát thông tin, dẫn đến hiệu suất tốt hơn với ít tham số và FLOPs hơn.
- Khả năng mở rộng: Họ YOLOv9 bao gồm nhiều kích cỡ mô hình khác nhau (YOLOv9t đến YOLOv9e), mang lại sự linh hoạt cho các khả năng tính toán khác nhau.
- Hệ sinh thái Ultralytics: Mặc dù nghiên cứu ban đầu đến từ Academia Sinica, nhưng việc tích hợp trong framework Ultralytics mang lại những lợi ích to lớn. Chúng bao gồm sự dễ sử dụng thông qua API Python đơn giản, tài liệu phong phú và quy trình huấn luyện hiệu quả với các trọng số đã được huấn luyện trước có sẵn. Hệ sinh thái được duy trì tốt đảm bảo phát triển tích cực, hỗ trợ mạnh mẽ từ cộng đồng và tích hợp với các công cụ như Ultralytics HUB để huấn luyện không cần code.
- Yêu cầu bộ nhớ thấp: Các mô hình YOLO thường có yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện so với nhiều kiến trúc khác, đặc biệt là các mô hình dựa trên transformer như RT-DETR.
Điểm yếu
- Tính Mới: Vì là một mô hình mới hơn, các ví dụ triển khai thực tế có thể ít hơn so với các mô hình cũ và đã được thiết lập như EfficientDet, mặc dù việc áp dụng trong cộng đồng Ultralytics đang diễn ra nhanh chóng.
- Tính đặc hiệu của tác vụ: Bài báo YOLOv9 gốc chủ yếu tập trung vào phát hiện đối tượng. Tuy nhiên, việc tích hợp nó vào hệ sinh thái Ultralytics gợi ý về tiềm năng rộng lớn hơn, phù hợp với khả năng đa nhiệm của các mô hình như Ultralytics YOLOv8.
Các Trường hợp Sử dụng
YOLOv9 đặc biệt phù hợp cho các ứng dụng mà độ chính xác và hiệu quả là tối quan trọng, chẳng hạn như:
- Phân tích hình ảnh độ phân giải cao, như sử dụng thị giác máy tính để phân tích ảnh vệ tinh.
- Hiểu cảnh phức tạp cần thiết trong xe tự hành.
- Nhận dạng đối tượng chi tiết cho các tác vụ như kiểm soát chất lượng trong sản xuất.
EfficientDet: Phát hiện đối tượng hiệu quả và có khả năng mở rộng
EfficientDet được giới thiệu vào năm 2019 bởi một nhóm tại Google Research. Nó đề xuất một họ công cụ phát hiện đối tượng có khả năng mở rộng mới, ưu tiên hiệu quả mà không làm giảm độ chính xác. Kiến trúc của mô hình dựa trên xương sống EfficientNet hiệu quả cao, Mạng lưới Kim tự tháp Đặc trưng hai chiều (BiFPN) mới lạ để hợp nhất đặc trưng và một phương pháp mở rộng hỗn hợp, thống nhất mở rộng độ phân giải, độ sâu và chiều rộng cho tất cả các phần của mô hình.
Chi tiết kỹ thuật:
- Tác giả: Mingxing Tan, Ruoming Pang, Quoc V. Le
- Tổ chức: Google
- Date: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
Điểm mạnh
- Compound Scaling: Đổi mới chính của EfficientDet là cách tiếp cận có hệ thống để scaling, cho phép nó tạo ra một họ các mô hình (D0-D7) đáp ứng các giới hạn tài nguyên khác nhau.
- BiFPN: Mạng lưới Kim tự tháp Đặc trưng Hai hướng cho phép hợp nhất đặc trưng đa tỷ lệ phong phú hơn so với các FPN truyền thống, cải thiện độ chính xác phát hiện.
- Ý nghĩa lịch sử: Vào thời điểm phát hành, EfficientDet đã thiết lập một tiêu chuẩn mới về hiệu quả trong phát hiện đối tượng, ảnh hưởng đến nhiều kiến trúc sau này.
Điểm yếu
- Hiệu suất lỗi thời: Mặc dù mang tính đột phá vào thời điểm đó, EfficientDet đã bị các mô hình mới hơn như YOLOv9 vượt qua cả về độ chính xác và tốc độ. Như được hiển thị trong bảng hiệu suất, các mô hình YOLOv9 liên tục đạt được mAP cao hơn với ít tham số hơn và tốc độ suy luận nhanh hơn đáng kể.
- Suy luận chậm hơn: Trên phần cứng hiện đại như NVIDIA T4, ngay cả các mô hình EfficientDet nhỏ nhất cũng chậm hơn so với các biến thể YOLOv9 tương đương hoặc chính xác hơn.
- Hệ sinh thái hạn chế: EfficientDet chủ yếu là một kho lưu trữ nghiên cứu. Nó thiếu hệ sinh thái toàn diện, thân thiện với người dùng do Ultralytics cung cấp, bao gồm đào tạo, triển khai và hỗ trợ cộng đồng được sắp xếp hợp lý.
- Tính đặc thù của tác vụ: EfficientDet được thiết kế chỉ dành cho phát hiện đối tượng và không cung cấp tính linh hoạt tích hợp cho các tác vụ khác như phân đoạn thể hiện hoặc ước tính tư thế được tìm thấy trong framework Ultralytics.
Các Trường hợp Sử dụng
EfficientDet vẫn có thể được xem xét cho các hệ thống cũ hoặc làm cơ sở so sánh trong học thuật. Các ứng dụng của nó bao gồm:
- Phát hiện đối tượng đa năng, trong đó suy luận tốc độ cao không phải là ràng buộc chính.
- Mục đích giáo dục để hiểu các mạng lưới kim tự tháp đặc trưng và các nguyên tắc mở rộng mô hình.
- Các dự án đã được chuẩn hóa trên framework TensorFlow, nơi có triển khai ban đầu.
Phân tích hiệu năng: YOLOv9 so với EfficientDet
So sánh hiệu suất giữa YOLOv9 và EfficientDet thể hiện rõ ràng những tiến bộ đạt được trong lĩnh vực phát hiện đối tượng trong vài năm qua. YOLOv9 liên tục cung cấp sự cân bằng vượt trội giữa độ chính xác, tốc độ và kích thước mô hình.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.30 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Từ bảng so sánh, một số thông tin chi tiết quan trọng được đưa ra:
- Độ chính xác so với Hiệu quả: Mô hình YOLOv9c đạt được 53,0 mAP chỉ với 25,3 triệu tham số và thời gian suy luận cực nhanh là 7,16 ms trên GPU T4. Ngược lại, EfficientDet-d6 có độ chính xác tương tự (52,6 mAP) yêu cầu số lượng tham số gấp đôi (51,9 triệu) và chậm hơn hơn 12 lần ở mức 89,29 ms.
- Hiệu suất hàng đầu: Mô hình lớn nhất, YOLOv9e, đạt mức 55.6 mAP ấn tượng, vượt qua cả mô hình EfficientDet-d7 lớn nhất (53.7 mAP) trong khi nhanh hơn gấp 7 lần và đòi hỏi số lượng FLOPs ít hơn đáng kể.
- Mô hình nhẹ: Ở phân khúc nhỏ hơn, YOLOv9s (46.8 mAP) cung cấp độ chính xác tương đương với EfficientDet-d3 (47.5 mAP) nhưng với số lượng tham số gần bằng một nửa và nhanh hơn hơn 5 lần trên GPU.
Kết luận: Bạn nên chọn mô hình nào?
Đối với gần như tất cả các ứng dụng phát hiện đối tượng hiện đại, YOLOv9 là người chiến thắng rõ ràng. Kiến trúc tiên tiến của nó mang lại độ chính xác hiện đại đồng thời duy trì tốc độ suy luận vượt trội và hiệu quả tham số. Việc tích hợp vào hệ sinh thái Ultralytics càng nâng cao giá trị của nó, cung cấp một quy trình làm việc hợp lý từ đào tạo đến triển khai, được hỗ trợ bởi tài liệu đầy đủ và một cộng đồng tích cực.
EfficientDet vẫn là một mô hình quan trọng từ góc độ lịch sử và học thuật, tiên phong trong các khái niệm về mở rộng quy mô mô hình và hợp nhất tính năng. Tuy nhiên, đối với phát triển và triển khai thực tế, hiệu suất của nó đã bị lu mờ bởi các kiến trúc mới hơn, hiệu quả hơn như YOLOv9. Nếu bạn đang bắt đầu một dự án mới hoặc muốn nâng cấp một dự án hiện có, việc chọn YOLOv9 sẽ mang lại hiệu suất vượt trội, chu kỳ phát triển nhanh hơn và hỗ trợ tốt hơn cho các tiến bộ trong tương lai.
Khám phá các Mô hình Khác
Nếu bạn đang khám phá các mô hình hiện đại khác, hãy xem xét các so sánh với YOLOv10, YOLOv8 và các kiến trúc dựa trên transformer như RT-DETR. Bạn có thể tìm thấy các phân tích chi tiết hơn trên trang so sánh mô hình của chúng tôi.