Chuyển đến nội dung

YOLOv7 so với YOLOv9: So sánh kỹ thuật chi tiết

Khi lựa chọn một mô hình YOLO cho phát hiện đối tượng, việc hiểu rõ các sắc thái giữa các phiên bản khác nhau là rất quan trọng. Trang này cung cấp một so sánh kỹ thuật chi tiết giữa YOLOv7 và YOLOv9, hai mô hình quan trọng trong series YOLO được phát triển bởi các nhà nghiên cứu tại Viện Khoa học Thông tin, Academia Sinica, Đài Loan. Chúng ta sẽ khám phá những đổi mới kiến trúc, điểm chuẩn hiệu suất và sự phù hợp của chúng cho các ứng dụng khác nhau để giúp bạn đưa ra quyết định sáng suốt cho dự án thị giác máy tính tiếp theo của mình.

YOLOv7: Phát hiện đối tượng hiệu quả và nhanh chóng

Được phát hành vào tháng 7 năm 2022, YOLOv7 là một mô hình mang tính bước ngoặt, nhằm mục đích tối ưu hóa đáng kể cả tốc độ và độ chính xác để phát hiện đối tượng theo thời gian thực, thiết lập các tiêu chuẩn mới về hiệu quả vào thời điểm đó.

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Tài liệu: https://docs.ultralytics.com/models/yolov7/

Kiến trúc và các tính năng chính

Triết lý thiết kế của YOLOv7 tập trung vào việc tối đa hóa tốc độ suy luận mà không ảnh hưởng đến độ chính xác. Nó giới thiệu một số yếu tố kiến trúc và chiến lược đào tạo quan trọng để đạt được sự cân bằng này:

  • Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN): Thành phần cốt lõi này của backbone giúp tăng cường khả năng học hỏi của mạng bằng cách quản lý tổng hợp đặc trưng hiệu quả hơn. Như được trình bày chi tiết trong bài nghiên cứu, nó cho phép mô hình học các đặc trưng mạnh mẽ hơn mà không làm tăng đáng kể chi phí tính toán.
  • Compound Model Scaling: YOLOv7 giới thiệu các phương pháp compound scaling cho độ sâu và chiều rộng của mô hình, cho phép tối ưu hóa hiệu quả trên một loạt các kích thước mô hình để phù hợp với các mức ngân sách tính toán khác nhau.
  • Trainable Bag-of-Freebies: Khái niệm này liên quan đến việc kết hợp các kỹ thuật tối ưu hóa khác nhau trong quá trình đào tạo, chẳng hạn như tăng cường dữ liệu nâng cao và các chiến lược gán nhãn. Các phương pháp này cải thiện độ chính xác của mô hình cuối cùng mà không làm tăng bất kỳ chi phí nào cho chi phí suy diễn.

Điểm mạnh và Điểm yếu

Điểm mạnh

  • Tốc độ suy luận cao: Được tối ưu hóa cho các ứng dụng thời gian thực, YOLOv7 thường mang lại suy luận nhanh hơn nhiều mô hình kế tiếp trong một số cấu hình phần cứng và kích thước lô.
  • Hiệu suất cao: Nó đạt được điểm mAP cạnh tranh, khiến nó trở thành một lựa chọn đáng tin cậy và mạnh mẽ cho nhiều nhiệm vụ phát hiện.
  • Mô Hình Đã Được Thiết Lập: Vì đã có mặt trên thị trường một thời gian, YOLOv7 được hưởng lợi từ việc được chấp nhận rộng rãi hơn, tài nguyên cộng đồng phong phú và nhiều ví dụ triển khai đã được chứng minh.

Điểm yếu

  • Độ chính xác đỉnh thấp hơn: So với YOLOv9 mới hơn, YOLOv7 có thể có độ chính xác tối đa thấp hơn một chút, đặc biệt là trong các tình huống phức tạp với nhiều đối tượng nhỏ hoặc chồng chéo.
  • Phát hiện dựa trên Anchor: Nó dựa vào các hộp anchor được xác định trước, đôi khi có thể kém linh hoạt hơn so với các phương pháp không cần anchor để phát hiện các đối tượng có tỷ lệ khung hình bất thường hoặc rất khác nhau.

Các Trường hợp Sử dụng

YOLOv7 đặc biệt phù hợp cho các ứng dụng mà tốc độ suy luận là yếu tố quan trọng nhất:

  • Hệ thống phân tích và giám sát video thời gian thực.
  • Triển khai Edge AI trên các thiết bị có tài nguyên hạn chế, chẳng hạn như các thiết bị được tìm thấy trong robotics và máy bay không người lái.
  • Tạo mẫu và phát triển nhanh chóng các hệ thống phát hiện đối tượng, nơi thời gian hoàn thành nhanh chóng là điều cần thiết.

Tìm hiểu thêm về YOLOv7

YOLOv9: Thông tin Gradient có thể lập trình để nâng cao độ chính xác

Được giới thiệu vào tháng 2 năm 2024, YOLOv9 thể hiện một sự phát triển kiến trúc đáng kể bằng cách trực tiếp giải quyết vấn đề mất thông tin trong mạng nơ-ron sâu, dẫn đến những cải thiện đáng kể về độ chính xác.

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs.ultralytics.com/models/yolov9/

Kiến trúc và các tính năng chính

YOLOv9 giới thiệu các khái niệm mới được thiết kế để cải thiện luồng thông tin thông qua mạng, dẫn đến học tập hiệu quả hơn và độ chính xác cao hơn.

  • Thông tin Gradient có thể lập trình (PGI): Đây là sự đổi mới nền tảng của YOLOv9. PGI giải quyết vấn đề tắc nghẽn thông tin vốn có trong các mạng sâu bằng cách tạo ra các gradient đáng tin cậy thông qua các nhánh phụ có thể đảo ngược. Điều này đảm bảo rằng thông tin quan trọng được bảo toàn để cập nhật trong các lớp sâu hơn, ngăn ngừa sự mất mát các chi tiết quan trọng cần thiết cho việc phát hiện chính xác.
  • Generalized Efficient Layer Aggregation Network (GELAN): Dựa trên những thành công của các kiến trúc như CSPNet (sử dụng trong YOLOv5), GELAN là một kiến trúc mạng mới, hiệu quả cao. Nó tối ưu hóa việc sử dụng tham số và hiệu suất tính toán, cho phép YOLOv9 đạt hiệu suất tốt hơn với ít tài nguyên hơn.

Điểm mạnh và Điểm yếu

Điểm mạnh

  • Độ chính xác Nâng cao: Sự kết hợp của PGI và GELAN dẫn đến trích xuất đặc trưng vượt trội và điểm mAP cao hơn đáng kể so với YOLOv7, điều này đặc biệt rõ ràng ở các biến thể mô hình lớn hơn.
  • Cải thiện hiệu quả: YOLOv9 đạt được độ chính xác tốt hơn với ít tham số và tính toán hơn so với các mô hình trước đây. Với một mức độ chính xác nhất định, YOLOv9 thường hiệu quả hơn YOLOv7.
  • Đột phá công nghệ: Đại diện cho những tiến bộ mới nhất từ dòng nghiên cứu YOLO ban đầu, vượt qua các giới hạn về những gì có thể trong lĩnh vực phát hiện vật thể theo thời gian thực.

Điểm yếu

  • Nhu cầu tính toán: Mặc dù hiệu quả về độ chính xác, kiến trúc tiên tiến, đặc biệt là ở các biến thể lớn hơn như YOLOv9e, vẫn có thể đòi hỏi tài nguyên tính toán đáng kể cho việc huấn luyện và triển khai.
  • Mô hình mới hơn: Vì là một bản phát hành gần đây hơn, hỗ trợ cộng đồng và hướng dẫn triển khai của bên thứ ba có thể ít hơn so với một mô hình đã được thiết lập tốt như YOLOv7. Tuy nhiên, việc tích hợp nó vào hệ sinh thái Ultralytics giúp giảm thiểu điều này bằng cách cung cấp trải nghiệm người dùng hợp lý.

Các Trường hợp Sử dụng

YOLOv9 là lựa chọn lý tưởng cho các ứng dụng đòi hỏi mức độ chính xác và hiệu quả cao nhất:

  • Các tác vụ phát hiện phức tạp trong xe tự hành và hệ thống hỗ trợ lái xe tiên tiến.
  • Các hệ thống an ninh có độ chính xác cao, đòi hỏi giảm thiểu tối đa các kết quả dương tính và âm tính giả.
  • Các ứng dụng mà kích thước mô hình và chi phí tính toán là những ràng buộc quan trọng, nhưng không thể ảnh hưởng đến độ chính xác cao.

Tìm hiểu thêm về YOLOv9

So sánh trực tiếp về hiệu năng và hiệu quả

Khi so sánh trực tiếp YOLOv7 và YOLOv9, một xu hướng rõ ràng xuất hiện: YOLOv9 cung cấp sự đánh đổi vượt trội giữa độ chính xác và chi phí tính toán. Ví dụ: mô hình YOLOv9m đạt được cùng mAP 51.4% như YOLOv7l nhưng thực hiện điều đó với số lượng tham số gần bằng một nửa (20.0M so với 36.9M) và ít FLOPs hơn. Tương tự, YOLOv9c mang lại hiệu suất tương đương với YOLOv7x (53.0% so với 53.1% mAP) trong khi hiệu quả hơn đáng kể, chỉ sử dụng 25.3M tham số so với 71.3M của YOLOv7x. Việc tăng hiệu quả này là kết quả trực tiếp của những cải tiến kiến trúc trong YOLOv9, đặc biệt là PGI và GELAN, cho phép học tập hiệu quả hơn.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOv9t 640 38.3 - 2.30 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Kết luận và Đề xuất

Cả YOLOv7 và YOLOv9 đều là những mô hình phát hiện đối tượng đáng gờm, nhưng chúng phục vụ cho các ưu tiên hơi khác nhau.

  • YOLOv7 vẫn là một ứng cử viên mạnh mẽ, đặc biệt đối với các ứng dụng mà tốc độ suy luận thô là mối quan tâm hàng đầu và kiến trúc đã được thiết lập, được hỗ trợ rộng rãi được ưu tiên. Nó là một con ngựa thồ đã được chứng minh cho nhiều hệ thống thời gian thực.

  • YOLOv9 là phiên bản kế nhiệm rõ ràng và là lựa chọn được khuyến nghị cho các dự án mới yêu cầu độ chính xác và hiệu quả hiện đại. Kiến trúc cải tiến của nó giải quyết các vấn đề chính trong học sâu, dẫn đến một mô hình vừa chính xác hơn vừa hiệu quả hơn về mặt tính toán so với phiên bản tiền nhiệm.

Mặc dù cả hai mô hình đều tuyệt vời, nhưng các nhà phát triển tìm kiếm một giải pháp tích hợp và linh hoạt hơn cũng nên xem xét các mô hình từ hệ sinh thái Ultralytics, chẳng hạn như Ultralytics YOLOv8YOLO11 mới nhất. Các mô hình này cung cấp trải nghiệm người dùng hợp lý, tài liệu mở rộng và hỗ trợ nhiều tác vụ ngoài phát hiện, bao gồm phân đoạn thể hiện, ước tính tư thế và phân loại, tất cả trong một framework duy nhất, được duy trì tốt.

Khám phá các Mô hình Khác

Để so sánh thêm và khám phá các mô hình hiện đại khác, hãy xem các trang khác trong tài liệu Ultralytics này:

  • YOLOv5: Nổi tiếng về sự cân bằng giữa hiệu suất và mức độ phổ biến.
  • YOLOv8: Một mô hình linh hoạt và mạnh mẽ hỗ trợ nhiều tác vụ thị giác.
  • YOLOv10: Tập trung vào phát hiện đối tượng theo thời gian thực, từ đầu đến cuối bằng cách loại bỏ nhu cầu NMS.
  • YOLO11: Mô hình hiện đại mới nhất từ Ultralytics, mang lại hiệu suất và hiệu quả hàng đầu.
  • RT-DETR: Một bộ phát hiện dựa trên transformer cung cấp một cách tiếp cận kiến trúc khác.


📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận