Chuyển đến nội dung

So sánh chi tiết kỹ thuật YOLOv7 và YOLOv10

Việc lựa chọn mô hình phát hiện đối tượng phù hợp liên quan đến việc cân bằng độ chính xác, tốc độ và các yêu cầu triển khai. Trang này cung cấp so sánh kỹ thuật chi tiết giữa YOLOv7 và YOLO10, hai mô hình quan trọng trong bối cảnh phát hiện đối tượng theo thời gian thực. Chúng ta sẽ đi sâu vào sự khác biệt về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình phù hợp nhất cho các dự án thị giác máy tính của mình.

YOLOv7: Độ chính xác và tốc độ cao

YOLOv7, được giới thiệu vào tháng 7 năm 2022, nhanh chóng được công nhận nhờ sự cân bằng ấn tượng giữa tốc độ và độ chính xác, thiết lập các chuẩn mực hiện đại mới vào thời điểm đó. Nó tập trung vào việc tối ưu hóa quy trình huấn luyện bằng cách sử dụng "trainable bag-of-freebies" để tăng cường độ chính xác mà không làm tăng chi phí suy luận.

Chi tiết kỹ thuật:

Kiến trúc và các tính năng chính

YOLOv7 giới thiệu một số cải tiến về kiến trúc và tinh chỉnh huấn luyện để đạt được hiệu suất cao:

  • Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN): Thành phần chính này trong backbone tăng cường khả năng học các đặc trưng đa dạng của mạng đồng thời kiểm soát đường dẫn gradient, giúp cải thiện sự hội tụ và độ chính xác tổng thể.
  • Điều chỉnh tỷ lệ mô hình: Nó đã triển khai các phương pháp điều chỉnh tỷ lệ phức hợp cho các mô hình dựa trên ghép kênh, cho phép điều chỉnh hiệu quả độ sâu và chiều rộng của mô hình cho phù hợp với các mức ngân sách tính toán khác nhau.
  • Trainable Bag-of-Freebies: YOLOv7 đã tận dụng các kỹ thuật nâng cao trong quá trình đào tạo, chẳng hạn như các chiến lược gán nhãn và điều chỉnh chuẩn hóa batch, để tăng hiệu suất mà không làm tăng bất kỳ chi phí nào trong quá trình suy diễn.
  • Head phụ từ thô đến tinh: Mô hình sử dụng các head phụ trong quá trình huấn luyện để cải thiện khả năng giám sát sâu và hướng dẫn quá trình học của mô hình hiệu quả hơn.

Điểm mạnh và Điểm yếu

Điểm mạnh

  • Cân bằng giữa Độ chính xác và Tốc độ cao: YOLOv7 cung cấp sự kết hợp mạnh mẽ giữa mAP cao và tốc độ suy luận nhanh, làm cho nó phù hợp với nhiều ứng dụng thời gian thực.
  • Huấn luyện hiệu quả: Mô hình kết hợp các kỹ thuật huấn luyện tiên tiến giúp cải thiện hiệu suất mà không làm tăng đáng kể yêu cầu tính toán trong quá trình suy luận.
  • Đã được thiết lập tốt: Là một mô hình trưởng thành, nó được hưởng lợi từ cơ sở người dùng lớn hơn và nhiều tài nguyên cộng đồng hơn so với các mô hình mới nhất.

Điểm yếu

  • Phụ thuộc NMS: YOLOv7 dựa vào Non-Maximum Suppression (NMS) cho quá trình xử lý hậu kỳ, điều này làm tăng chi phí tính toán và tăng độ trễ suy diễn.
  • Độ phức tạp: Kiến trúc và các chiến lược huấn luyện, mặc dù hiệu quả, có thể phức tạp để hiểu đầy đủ và tinh chỉnh cho các ứng dụng tùy chỉnh.

Các Trường hợp Sử dụng

YOLOv7 rất phù hợp cho các ứng dụng đòi hỏi khắt khe, nơi sự cân bằng giữa tốc độ và độ chính xác là rất quan trọng:

  • Giám sát tiên tiến: Độ chính xác cao của nó rất có giá trị để xác định các đối tượng hoặc mối đe dọa trong hệ thống an ninh.
  • Hệ thống tự động: Nó cung cấp khả năng phát hiện mạnh mẽ cho các ứng dụng như xe tự lái.
  • Tự động hóa công nghiệp: Mô hình có thể được sử dụng để phát hiện lỗi một cách đáng tin cậy trong sản xuất và kiểm soát chất lượng.

Tìm hiểu thêm về YOLOv7

YOLOv10: Phát hiện theo thời gian thực End-to-End

YOLOv10, được giới thiệu vào tháng 5 năm 2024 bởi các nhà nghiên cứu từ Đại học Thanh Hoa, thể hiện một bước tiến đáng kể trong lĩnh vực phát hiện đối tượng theo thời gian thực. Đổi mới chính của nó là tạo ra một giải pháp end-to-end bằng cách loại bỏ sự cần thiết của Non-Maximum Suppression (NMS), giúp giảm độ trễ và cải thiện hiệu quả triển khai.

Chi tiết kỹ thuật:

Kiến trúc và các tính năng chính

YOLOv10 giới thiệu một số cải tiến kiến trúc nhằm tối ưu hóa sự cân bằng giữa tốc độ và độ chính xác:

  • Huấn luyện không NMS: Nó sử dụng gán nhãn kép nhất quán trong quá trình huấn luyện, cho phép hiệu suất cạnh tranh mà không cần bước hậu xử lý NMS. Điều này đơn giản hóa quy trình triển khai và giảm độ trễ suy luận.
  • Thiết kế hướng đến hiệu quả và độ chính xác toàn diện: Mô hình tối ưu hóa các thành phần khác nhau, chẳng hạn như lớp classification head (đầu phân loại) và các lớp giảm tỷ lệ lấy mẫu, để giảm sự dư thừa tính toán và tăng cường khả năng. Điều này bao gồm các kỹ thuật như thiết kế khối được hướng dẫn theo thứ hạng và cơ chế tự chú ý một phần (PSA).
  • Phương Pháp Không Dựa trên Anchor: Giống như các mô hình YOLO hiện đại khác, nó áp dụng thiết kế trình phát hiện không dựa trên anchor, giúp đơn giản hóa phần đầu dò (detection head) và cải thiện khả năng tổng quát hóa.

Điểm mạnh và Điểm yếu

Điểm mạnh

  • Hiệu suất cao: Thiết kế không NMS và các tối ưu hóa kiến trúc khác dẫn đến suy luận nhanh hơn, độ trễ thấp hơn và giảm chi phí tính toán.
  • Độ chính xác Cạnh tranh: Nó duy trì độ chính xác cao đồng thời cải thiện đáng kể tốc độ và giảm kích thước mô hình.
  • Triển khai Đầu cuối (End-to-End): Việc loại bỏ NMS giúp đơn giản hóa quy trình triển khai, giúp tích hợp dễ dàng hơn vào các ứng dụng.

Điểm yếu

  • Tương đối mới: Vì là một mô hình mới hơn, sự hỗ trợ của cộng đồng và số lượng ví dụ thực tế có thể ít mở rộng hơn so với các mô hình đã được thiết lập như YOLOv7 hoặc Ultralytics YOLOv8.
  • Điều chỉnh để có hiệu suất tối ưu: Để đạt được kết quả tốt nhất có thể yêu cầu điều chỉnh cẩn thận các siêu tham số, có khả năng được hưởng lợi từ các tài nguyên như mẹo huấn luyện mô hình.

Các Trường hợp Sử dụng

Việc YOLOv10 tập trung vào hiệu quả thời gian thực khiến nó trở nên lý tưởng cho các môi trường bị hạn chế về tài nguyên:

  • Ứng dụng Edge AI: Hoàn hảo để triển khai trên các thiết bị như NVIDIA Jetson hoặc Raspberry Pi, nơi độ trễ thấp là rất quan trọng.
  • Robot: Cho phép nhận diện nhanh hơn để điều hướng và tương tác, một khía cạnh quan trọng trong vai trò của AI trong ngành robot.
  • Máy bay không người lái tự động: Kiến trúc gọn nhẹ và nhanh chóng của nó phù hợp để phát hiện vật thể nhanh chóng trên máy bay không người lái và các phương tiện bay không người lái khác.

Tìm hiểu thêm về YOLOv10

So sánh hiệu suất trực tiếp

Khi so sánh YOLOv7 và YOLOv10, sự khác biệt đáng kể nhất nằm ở triết lý thiết kế của chúng. YOLOv7 thúc đẩy sự cân bằng giữa độ chính xác và tốc độ cao, làm cho nó trở thành một detector đa năng mạnh mẽ. Ngược lại, YOLOv10 ưu tiên hiệu quả tính toán và độ trễ thấp bằng cách loại bỏ NMS, làm cho nó trở thành một lựa chọn vượt trội cho các ứng dụng thời gian thực trên thiết bị biên.

Bảng dưới đây cho thấy rằng các mô hình YOLOv10 liên tục đạt được độ trễ thấp hơn và yêu cầu ít tham số và FLOP hơn so với các mô hình YOLOv7 ở mức mAP tương tự. Ví dụ: YOLOv10b đạt được 52.7 mAP chỉ với độ trễ 6.54 ms, vượt trội hơn YOLOv7l, có mAP tương tự nhưng độ trễ cao hơn.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4

Kết luận và Đề xuất

Cả YOLOv7 và YOLOv10 đều là những mô hình mạnh mẽ, nhưng chúng phục vụ cho các nhu cầu khác nhau. YOLOv7 là một trình phát hiện mạnh mẽ và chính xác, vẫn là một lựa chọn vững chắc cho các ứng dụng mà việc đạt được mAP cao là ưu tiên. YOLOv10, với kiến trúc không NMS cải tiến, là người chiến thắng rõ ràng cho các ứng dụng đòi hỏi hiệu quả cao nhất và độ trễ thấp nhất, đặc biệt là trong các triển khai end-to-end.

Đối với các nhà phát triển đang tìm kiếm một framework hiện đại, linh hoạt và thân thiện với người dùng, các mô hình từ hệ sinh thái Ultralytics, chẳng hạn như Ultralytics YOLOv8YOLO11 mới nhất, thường đưa ra một lựa chọn hấp dẫn hơn. Các mô hình này cung cấp:

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến các mô hình khác, hãy xem các so sánh bổ sung sau:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận