Chuyển đến nội dung

YOLOv10 so với YOLO11: So sánh kỹ thuật để phát hiện đối tượng

Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định quan trọng, cân bằng giữa độ chính xác, tốc độ và các ràng buộc triển khai. Trang này cung cấp so sánh kỹ thuật toàn diện giữa YOLOv10, một mô hình tập trung vào hiệu quả end-to-end và Ultralytics YOLO11, mô hình hiện đại nhất mới nhất từ Ultralytics, nổi tiếng về tính linh hoạt, hiệu suất và dễ sử dụng. Chúng ta sẽ đi sâu vào sự khác biệt về kiến trúc, điểm chuẩn hiệu suất và các ứng dụng lý tưởng của chúng để giúp bạn đưa ra lựa chọn sáng suốt.

YOLOv10: Đẩy mạnh giới hạn của hiệu suất

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 2024-05-23
Arxiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10
Docs: https://docs.ultralytics.com/models/yolov10/

YOLOv10, được giới thiệu vào tháng 5 năm 2024, là một mô hình phát hiện đối tượng ưu tiên hiệu suất end-to-end theo thời gian thực. Đổi mới chính của nó là loại bỏ Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, vốn thường làm tăng độ trễ suy luận. Điều này đạt được thông qua một chiến lược huấn luyện mới gọi là gán kép nhất quán.

Kiến trúc và các tính năng chính

Thiết kế của YOLOv10 được thúc đẩy bởi cách tiếp cận toàn diện về hiệu quả và độ chính xác. Nó giới thiệu một số tối ưu hóa kiến trúc để giảm thiểu sự dư thừa tính toán và cải thiện khả năng của mô hình. Các tính năng chính bao gồm một lớp phân loại nhẹ và chiến lược giảm mẫu tách rời không gian-kênh để bảo toàn thông tin hiệu quả hơn. Bằng cách loại bỏ bước NMS, YOLOv10 hướng đến đơn giản hóa quy trình triển khai và giảm độ trễ, biến nó thành một trình phát hiện end-to-end thực sự.

Điểm mạnh

  • Hiệu quả Nâng cao: Thể hiện hiệu suất ấn tượng về sự đánh đổi giữa độ trễ-độ chính xác và kích thước-độ chính xác, đặc biệt là trong các môi trường bị hạn chế về tài nguyên.
  • Thiết kế không cần NMS: Việc loại bỏ bước xử lý hậu kỳ NMS giúp đơn giản hóa việc triển khai và giảm thời gian suy diễn từ đầu đến cuối.
  • Nghiên cứu tiên tiến: Thể hiện đóng góp học thuật đáng kể cho lĩnh vực phát hiện đối tượng theo thời gian thực bằng cách giải quyết các tắc nghẽn trong quá trình hậu xử lý.

Điểm yếu

  • Mô hình mới hơn: Là một bản phát hành gần đây từ một nhóm nghiên cứu đại học, nó có một cộng đồng nhỏ hơn và ít tích hợp bên thứ ba hơn so với hệ sinh thái Ultralytics được xây dựng vững chắc.
  • Chuyên biệt hóa tác vụ: YOLOv10 chủ yếu tập trung vào phát hiện đối tượng. Nó thiếu tính linh hoạt tích hợp cho các tác vụ thị giác khác như phân đoạn, phân loại và ước tính tư thế vốn có trong YOLO11.
  • Tích hợp hệ sinh thái: Mặc dù được xây dựng trên framework Ultralytics, nhưng nó có thể đòi hỏi nỗ lực bổ sung để tích hợp vào quy trình làm việc MLOps toàn diện so với các mô hình được phát triển và duy trì trực tiếp bởi Ultralytics.

Các trường hợp sử dụng lý tưởng

YOLOv10 đặc biệt phù hợp cho các ứng dụng mà độ trễ thấp và hiệu quả tính toán là ưu tiên cao nhất:

  • Edge AI: Lý tưởng để triển khai trên các thiết bị có sức mạnh tính toán hạn chế, chẳng hạn như điện thoại di động và các hệ thống nhúng trên NVIDIA Jetson hoặc Raspberry Pi.
  • Xử lý tốc độ cao: Phù hợp cho các ứng dụng yêu cầu suy luận rất nhanh, chẳng hạn như máy bay không người lái tự hành và robot học.
  • Phân tích theo thời gian thực: Hoàn hảo cho các môi trường có nhịp độ nhanh, cần phát hiện đối tượng ngay lập tức, như quản lý giao thông.

Tìm hiểu thêm về YOLOv10

Ultralytics YOLO11: Đỉnh cao của Tính linh hoạt và Hiệu suất

Tác giả: Glenn Jocher, Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 là sự phát triển mới nhất trong dòng YOLO từ Ultralytics, được xây dựng dựa trên thành công của các mô hình rất phổ biến như YOLOv8. Nó được thiết kế để mang lại độ chính xác hiện đại và sự cân bằng hiệu suất vượt trội, đồng thời cực kỳ dễ sử dụng và tích hợp. YOLO11 không chỉ là một công cụ phát hiện đối tượng; nó là một khuôn khổ AI thị giác toàn diện.

Kiến trúc và các tính năng chính

YOLO11 có kiến trúc được tối ưu hóa cao với khả năng trích xuất đặc trưng nâng cao và thiết kế mạng lưới được tinh giản. Điều này mang lại độ chính xác cao hơn, thường với số lượng tham số giảm so với các phiên bản tiền nhiệm. Một ưu điểm chính của YOLO11 là tính linh hoạt. Nó hỗ trợ nguyên bản một loạt các tác vụ, bao gồm nhận diện đối tượng, phân vùng thể hiện, phân loại ảnh, ước tính tư thế và hộp giới hạn theo hướng (OBB).

Sự linh hoạt này được hỗ trợ bởi một hệ sinh thái được duy trì tốt. Ultralytics cung cấp trải nghiệm người dùng đơn giản với Python APICLI đơn giản, tài liệu mở rộng và tích hợp liền mạch với các công cụ như Ultralytics HUB để đào tạo và triển khai không cần mã. Mô hình hưởng lợi từ các quy trình đào tạo hiệu quả, trọng số đã được huấn luyện sẵn có, phát triển tích cực và hỗ trợ mạnh mẽ từ cộng đồng. Hơn nữa, các mô hình YOLO11 được thiết kế cho hiệu quả, yêu cầu bộ nhớ thấp hơn trong quá trình đào tạo và suy luận so với nhiều kiến trúc khác, đặc biệt là các mô hình dựa trên transformer.

Điểm mạnh

  • Hiệu suất vượt trội: Đạt được điểm số mAP hàng đầu với sự cân bằng tuyệt vời giữa tốc độ và độ chính xác.
  • Linh hoạt và đa nhiệm: Một framework mô hình duy nhất có thể xử lý phát hiện, phân đoạn, phân loại, dáng điệu và OBB, mang lại sự linh hoạt vô song cho các dự án phức tạp.
  • Tính dễ sử dụng: API đơn giản, trực quan và tài liệu toàn diện giúp cả người mới bắt đầu và chuyên gia đều có thể tiếp cận.
  • Hệ sinh thái mạnh mẽ: Hưởng lợi từ quá trình phát triển tích cực, cập nhật thường xuyên, hỗ trợ cộng đồng mạnh mẽ và tích hợp liền mạch với các công cụ MLOps như Ultralytics HUB.
  • Hiệu quả đào tạo và triển khai: Cung cấp quy trình đào tạo hiệu quả, yêu cầu bộ nhớ thấp hơn và được tối ưu hóa cho nhiều loại phần cứng, từ thiết bị biên đến máy chủ đám mây.

Điểm yếu

  • Là một detector một giai đoạn, nó có thể gặp khó khăn với các đối tượng cực nhỏ so với một số detector hai giai đoạn chuyên dụng.
  • Các mô hình lớn hơn, mặc dù có độ chính xác cao, đòi hỏi tài nguyên tính toán đáng kể cho quá trình huấn luyện và triển khai.

Các trường hợp sử dụng lý tưởng

Sự kết hợp giữa hiệu suất cao, tính linh hoạt và dễ sử dụng của YOLO11 khiến nó trở thành lựa chọn lý tưởng cho một loạt các ứng dụng thực tế:

  • Tự động hóa công nghiệp: Dành cho kiểm soát chất lượng độ chính xác cao và giám sát quy trình trong sản xuất.
  • Y tế: Trong phân tích hình ảnh y tế cho các tác vụ như phát hiện khối u hoặc phân đoạn tế bào.
  • An ninh và Giám sát: Cung cấp sức mạnh cho hệ thống an ninh tiên tiến với khả năng phát hiện và theo dõi mối đe dọa theo thời gian thực.
  • Phân tích bán lẻ: Cải thiện quản lý hàng tồn kho và phân tích hành vi khách hàng.
  • Dự án đa nhiệm: Hoàn hảo cho các ứng dụng yêu cầu phát hiện đối tượng, phân đoạn và ước tính tư thế đồng thời, chẳng hạn như hệ thống hỗ trợ người lái tiên tiến.

Tìm hiểu thêm về YOLO11

So sánh hiệu năng trực tiếp: YOLOv10 so với YOLO11

Khi so sánh trực tiếp các mô hình, chúng ta quan sát thấy những sự đánh đổi khác biệt. Các mô hình YOLOv10, đặc biệt là các biến thể nhỏ hơn, được thiết kế để có hiệu quả cực cao, thường có ít tham số và FLOPs hơn. Điều này làm cho chúng trở thành những ứng cử viên mạnh mẽ cho các tác vụ quan trọng về độ trễ.

Tuy nhiên, YOLO11 chứng minh hồ sơ hiệu suất mạnh mẽ và cân bằng hơn. Nó đạt được mAP cao hơn một chút ở hầu hết các kích thước mô hình và cho thấy tốc độ suy luận nhanh hơn đáng kể trên cả CPU và GPU (T4 TensorRT). Sự cân bằng tốc độ-độ chính xác vượt trội này, kết hợp với khả năng đa nhiệm vụ và hệ sinh thái trưởng thành, khiến YOLO11 trở thành một lựa chọn thiết thực và mạnh mẽ hơn cho hầu hết các tình huống phát triển và triển khai.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

Kết luận: Bạn nên chọn mô hình nào?

Cả YOLOv10 và YOLO11 đều là những mô hình mạnh mẽ vượt qua các ranh giới của việc phát hiện đối tượng.

YOLOv10 là một lựa chọn tuyệt vời cho các nhà nghiên cứu và nhà phát triển tập trung vào các ứng dụng chuyên biệt, quan trọng về độ trễ, nơi kiến trúc không cần NMS mang lại một lợi thế khác biệt. Thiết kế tinh gọn của nó làm cho nó lý tưởng để triển khai trên các thiết bị biên có tính ràng buộc cao.

Tuy nhiên, đối với phần lớn các nhà phát triển, nhà nghiên cứu và các ứng dụng thương mại, Ultralytics YOLO11 là lựa chọn được khuyến nghị. Ưu thế nhỏ của nó về độ chính xác và tốc độ suy luận vượt trội mang lại sự cân bằng hiệu suất tổng thể tốt hơn. Quan trọng hơn, tính linh hoạt tuyệt vời của YOLO11 trên nhiều tác vụ thị giác, kết hợp với tính dễ sử dụng và hệ sinh thái Ultralytics mạnh mẽ, được duy trì tốt, giúp tăng tốc đáng kể quá trình phát triển và đơn giản hóa việc triển khai. Cộng đồng tích cực, tài liệu phong phú và tích hợp liền mạch với các công cụ như Ultralytics HUB làm cho YOLO11 không chỉ là một mô hình mà còn là một giải pháp hoàn chỉnh để xây dựng các ứng dụng AI thị giác tiên tiến.

Nếu bạn đang khám phá các mô hình khác, hãy xem xét các so sánh giữa YOLOv9 so với YOLO11 hoặc YOLOv8 so với YOLO11 để hiểu rõ hơn về sự phát triển và tìm ra lựa chọn hoàn hảo cho dự án của bạn.



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận