Chuyển đến nội dung

YOLOv9 so với YOLOv10: So sánh kỹ thuật để phát hiện đối tượng

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng đối với bất kỳ dự án thị giác máy tính nào, ảnh hưởng trực tiếp đến hiệu suất, tốc độ và hiệu quả tài nguyên. Dòng YOLO tiếp tục đẩy lùi các ranh giới của những gì có thể. Trang này cung cấp so sánh kỹ thuật chi tiết giữa hai mô hình hiện đại: YOLOv9YOLOv10. Chúng tôi sẽ phân tích các cải tiến về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình tốt nhất cho các nhu cầu cụ thể của mình, cân bằng các yếu tố như độ chính xác, tốc độ suy luận và chi phí tính toán.

YOLOv9: Thông tin Gradient có thể lập trình để tăng cường khả năng học

YOLOv9, được giới thiệu vào tháng 2 năm 2024, là một bước tiến đáng kể trong phát hiện đối tượng, giải quyết vấn đề mất thông tin trong mạng nơ-ron sâu. Kiến trúc mới của nó đảm bảo rằng dữ liệu quan trọng được lưu giữ trong suốt mô hình, dẫn đến kết quả chính xác cao.

Chi tiết kỹ thuật:

Kiến trúc và các tính năng chính

YOLOv9 giới thiệu hai khái niệm đột phá:

  • Thông tin Gradient có thể lập trình (PGI): Cơ chế này giải quyết thách thức về mất mát thông tin khi dữ liệu truyền qua các lớp mạng sâu. Bằng cách tạo ra các gradient đáng tin cậy, PGI đảm bảo mô hình có thể học hiệu quả và thực hiện các cập nhật chính xác, điều này rất quan trọng để phát hiện các đối tượng phức tạp.
  • Mạng tổng hợp lớp hiệu quả tổng quát (GELAN): YOLOv9 có một kiến trúc mạng mới, GELAN, là một thiết kế hiệu quả cao giúp tối ưu hóa việc sử dụng tham số và hiệu quả tính toán. Điều này cho phép YOLOv9 đạt được hiệu suất hàng đầu mà không quá lớn hoặc chậm.

Điểm mạnh

  • Độ chính xác cao: YOLOv9 đặt ra một tiêu chuẩn cao về độ chính xác, với biến thể lớn nhất, YOLOv9-E, đạt được điểm mAP cao nhất trên bộ dữ liệu COCO.
  • Bảo toàn thông tin: Sự đổi mới cốt lõi của PGI giảm thiểu hiệu quả vấn đề nút thắt thông tin, dẫn đến việc học tập và hiệu suất mô hình tốt hơn.
  • Kiến trúc hiệu quả: GELAN cung cấp sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, làm cho YOLOv9 có tính cạnh tranh cao về hiệu suất trên mỗi tham số.
  • Hệ sinh thái Ultralytics: Khi được sử dụng trong framework Ultralytics, YOLOv9 được hưởng lợi từ trải nghiệm người dùng được tối ưu hóa, API Python đơn giản và tài liệu phong phú. Hệ sinh thái đảm bảo huấn luyện hiệu quả với các trọng số đã được huấn luyện trước có sẵn, phát triển tích cực, hỗ trợ mạnh mẽ từ cộng đồng và thường có yêu cầu bộ nhớ thấp hơn so với các loại mô hình khác như transformer.

Điểm yếu

  • Mô hình mới hơn: Là một bản phát hành gần đây, phạm vi các ví dụ do cộng đồng đóng góp và tích hợp công cụ của bên thứ ba vẫn đang phát triển so với các mô hình được xây dựng vững chắc hơn.
  • Độ phức tạp: Mặc dù khái niệm PGI mới rất mạnh mẽ, nhưng nó làm tăng thêm một lớp phức tạp về kiến trúc so với các thiết kế đơn giản hơn.

Các trường hợp sử dụng lý tưởng

YOLOv9 là một lựa chọn tuyệt vời cho các ứng dụng mà việc đạt được độ chính xác cao nhất có thể là mục tiêu chính:

  • Robotics tiên tiến: Dành cho các tác vụ phức tạp đòi hỏi phát hiện đối tượng chính xác trong môi trường động.
  • Phân tích hình ảnh độ phân giải cao: Lý tưởng cho các tình huống như phân tích ảnh vệ tinh, nơi chi tiết là tối quan trọng.
  • Hệ thống an toàn quan trọng: Các ứng dụng trong lái xe tự động hoặc hệ thống an ninh tiên tiến, nơi độ chính xác có thể là yếu tố sống còn.

Tìm hiểu thêm về YOLOv9

YOLOv10: Hiệu quả đầu cuối (End-to-End) theo thời gian thực

YOLOv10, được phát hành vào tháng 5 năm 2024 bởi các nhà nghiên cứu tại Đại học Thanh Hoa, được thiết kế để đạt hiệu quả và tốc độ tối đa. Nó đạt được điều này bằng cách thiết kế lại các thành phần chính của kiến trúc YOLO và đáng chú ý nhất là bằng cách loại bỏ sự cần thiết của quá trình xử lý hậu kỳ Non-Maximum Suppression (NMS).

Chi tiết kỹ thuật:

Kiến trúc và các tính năng chính

Triết lý thiết kế của YOLOv10 tập trung vào hiệu quả end-to-end:

  • Huấn luyện không NMS: YOLOv10 sử dụng Gán Nhãn Kép Nhất Quán trong quá trình huấn luyện, cho phép nó tạo ra các dự đoán rõ ràng mà không cần bước NMS. Điều này làm giảm đáng kể độ trễ suy luận và đơn giản hóa quy trình triển khai.
  • Thiết kế hướng đến hiệu quả và độ chính xác toàn diện: Kiến trúc mô hình đã được tối ưu hóa từ trên xuống dưới. Điều này bao gồm một lớp classification head (đầu phân loại) gọn nhẹ, giảm tỷ lệ lấy mẫu không gian-kênh được tách rời để bảo toàn thông tin hiệu quả và thiết kế khối được hướng dẫn theo thứ hạng để loại bỏ sự dư thừa tính toán.

Điểm mạnh

  • Hiệu suất và tốc độ cực cao: Được tối ưu hóa để có độ trễ và chi phí tính toán tối thiểu, khiến nó trở thành một trong những trình phát hiện đối tượng nhanh nhất hiện có.
  • Triển khai Đầu cuối (End-to-End): Thiết kế không NMS loại bỏ gánh nặng xử lý hậu kỳ, cho phép phát hiện đầu cuối thực sự chỉ trong một bước.
  • Hiệu suất trên mỗi Watt tuyệt vời: Mức tiêu thụ điện toán và bộ nhớ thấp giúp nó lý tưởng cho các thiết bị bị hạn chế về điện năng.
  • Tích hợp Ultralytics: YOLOv10 được tích hợp đầy đủ vào hệ sinh thái Ultralytics, cung cấp cho người dùng một nền tảng được duy trì tốt và dễ sử dụng. Điều này bao gồm một API đơn giản, tài liệu toàn diện và quyền truy cập vào toàn bộ bộ công cụ Ultralytics.

Điểm yếu

  • Mô hình rất mới: Vì là mô hình mới nhất trong series, các tài nguyên cộng đồng và các ví dụ triển khai thực tế vẫn đang được tích lũy.
  • Chuyên biệt hóa tác vụ: YOLOv10 có tính chuyên biệt cao cho phát hiện đối tượng. Nó thiếu tính linh hoạt tích hợp cho các tác vụ khác như phân đoạn thể hiện hoặc ước tính tư thế vốn có trong các mô hình như Ultralytics YOLOv8.

Các trường hợp sử dụng lý tưởng

YOLOv10 vượt trội trong các ứng dụng mà hiệu suất và hiệu quả theo thời gian thực là rất quan trọng:

  • Điện toán biên: Hoàn hảo để triển khai trên các thiết bị có tài nguyên hạn chế như NVIDIA Jetson và các nền tảng di động.
  • Phân tích video tốc độ cao: Các ứng dụng cần phát hiện đối tượng ngay lập tức trong luồng video, chẳng hạn như giám sát giao thông hoặc phân tích thể thao trực tiếp.
  • Hệ thống di động và nhúng: Tích hợp vào các ứng dụng mà tốc độ và mức tiêu thụ điện năng là những yếu tố quan trọng đối với trải nghiệm người dùng.

Tìm hiểu thêm về YOLOv10

Đối đầu hiệu năng: YOLOv9 so với YOLOv10

Sự khác biệt chính giữa YOLOv9 và YOLOv10 nằm ở các ưu tiên thiết kế của chúng. YOLOv9 tập trung vào tối đa hóa độ chính xác thông qua các thiết kế kiến trúc phức tạp, trong khi YOLOv10 được thiết kế cho hiệu quả tính toán vô song và độ trễ thấp.

Bảng dưới đây cho thấy rằng trong khi mô hình lớn nhất, YOLOv9-E, đạt được mAP tổng thể cao nhất, thì các mô hình YOLOv10 liên tục mang lại tốc độ và hiệu quả tham số tốt hơn ở mức độ chính xác tương đương. Ví dụ: YOLOv10-B có độ trễ ít hơn 46% và ít hơn 25% tham số so với YOLOv9-C cho hiệu suất tương tự. Điều này làm cho YOLOv10 trở thành một lựa chọn cực kỳ mạnh mẽ cho các ứng dụng mà tốc độ suy luận là một nút thắt quan trọng.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4

Kết luận: Bạn nên chọn mô hình nào?

Lựa chọn giữa YOLOv9 và YOLOv10 của bạn hoàn toàn phụ thuộc vào các ưu tiên của dự án.

  • Chọn YOLOv9 nếu yêu cầu chính của bạn là độ chính xác tối đa. Nó lý tưởng cho các tác vụ phức tạp, nơi độ chính xác là yếu tố không thể thương lượng và bạn có thể chấp nhận chi phí tính toán cao hơn một chút.

  • Chọn YOLOv10 nếu yêu cầu chính của bạn là tốc độ và hiệu quả thời gian thực. Kiến trúc không NMS của nó làm cho nó trở thành lựa chọn vượt trội cho các ứng dụng có độ trễ thấp và triển khai trên phần cứng bị hạn chế về tài nguyên.

Cả hai mô hình đều đại diện cho công nghệ tiên tiến nhất của phát hiện đối tượng và là những lựa chọn tuyệt vời trong các lĩnh vực tương ứng của chúng. Việc tích hợp của chúng vào hệ sinh thái Ultralytics đảm bảo rằng các nhà phát triển và nhà nghiên cứu có thể tận dụng các công cụ mạnh mẽ này một cách dễ dàng và được hỗ trợ mạnh mẽ.

Khám phá các Mô hình Khác

Đối với những người dùng có nhu cầu có thể không hoàn toàn phù hợp với YOLOv9 hoặc YOLOv10, hệ sinh thái Ultralytics cung cấp các lựa chọn thay thế mạnh mẽ khác. Ultralytics YOLOv8 vẫn là một lựa chọn hàng đầu nhờ sự cân bằng vượt trội giữa hiệu suất và tính linh hoạt, hỗ trợ các tác vụ như phân đoạn, phân loại và ước tính tư thế ngay lập tức. Đối với những người tìm kiếm những tiến bộ mới nhất tuyệt đối, Ultralytics YOLO11 được xây dựng dựa trên những phiên bản tiền nhiệm của nó để thiết lập các chuẩn mực mới về hiệu suất và hiệu quả. Bạn có thể khám phá thêm các so sánh, chẳng hạn như YOLOv9 so với YOLOv8YOLOv8 so với YOLOv10, để tìm mô hình hoàn hảo cho dự án của bạn.



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận