Chuyển đến nội dung

YOLOv10 so với DAMO-YOLO: So sánh kỹ thuật

Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định quan trọng, cân bằng giữa các yếu tố đánh đổi như độ chính xác, tốc độ và chi phí tính toán. Trang này cung cấp so sánh kỹ thuật chi tiết giữa YOLOv10, mô hình hiệu quả cao mới nhất được tích hợp vào hệ sinh thái Ultralytics và DAMO-YOLO, một bộ phát hiện mạnh mẽ từ Alibaba Group. Chúng ta sẽ phân tích kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra lựa chọn sáng suốt cho các dự án thị giác máy tính của mình.

YOLOv10: Phát hiện End-to-End theo thời gian thực

YOLOv10, được giới thiệu bởi các nhà nghiên cứu tại Đại học Thanh Hoa vào tháng 5 năm 2024, đánh dấu một bước tiến đáng kể trong lĩnh vực phát hiện đối tượng thời gian thực. Đổi mới chính của nó là đạt được khả năng phát hiện end-to-end bằng cách loại bỏ nhu cầu Non-Maximum Suppression (NMS), giúp giảm chi phí xử lý hậu kỳ và giảm độ trễ suy luận.

Chi tiết kỹ thuật:

Kiến trúc và các tính năng chính

YOLOv10 được xây dựng dựa trên khung Ultralytics mạnh mẽ, kế thừa tính dễ sử dụng và hệ sinh thái mạnh mẽ của nó. Kiến trúc của nó giới thiệu một số tiến bộ quan trọng để có hiệu quả và hiệu suất vượt trội:

  • Huấn luyện không NMS: YOLOv10 sử dụng gán nhãn kép nhất quán trong quá trình huấn luyện. Điều này cho phép mô hình tạo ra các dự đoán rõ ràng mà không cần bước hậu xử lý NMS, đơn giản hóa quy trình triển khai và làm cho nó thực sự là đầu cuối.
  • Thiết kế toàn diện về hiệu quả và độ chính xác: Kiến trúc mô hình đã được tối ưu hóa toàn diện để giảm sự dư thừa tính toán. Điều này bao gồm một lớp classification head (đầu phân loại) gọn nhẹ và giảm tỷ lệ lấy mẫu không gian-kênh được tách rời, giúp tăng cường cả tốc độ và khả năng.
  • Tích hợp Ultralytics liền mạch: Là một phần của hệ sinh thái Ultralytics, YOLOv10 được hưởng lợi từ trải nghiệm người dùng được sắp xếp hợp lý. Điều này bao gồm Python API đơn giản, tài liệu mở rộng, quy trình đào tạo hiệu quả và trọng số được đào tạo trước có sẵn. Sự tích hợp này giúp các nhà phát triển đặc biệt dễ dàng bắt đầu và triển khai mô hình một cách nhanh chóng.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Hiệu quả vượt trội: YOLOv10 mang lại sự cân bằng vượt trội giữa tốc độ và độ chính xác, thường vượt trội hơn các đối thủ cạnh tranh với ít tham số hơn và độ trễ thấp hơn, như được trình bày chi tiết trong bảng hiệu suất bên dưới.
  • Dễ sử dụng: Mô hình này cực kỳ thân thiện với người dùng nhờ tích hợp với hệ sinh thái Ultralytics, bao gồm Ultralytics HUB để huấn luyện và triển khai không cần code.
  • Triển khai Đầu cuối (End-to-End): Thiết kế không NMS đơn giản hóa toàn bộ quy trình làm việc từ huấn luyện đến suy luận, khiến nó trở nên lý tưởng cho các ứng dụng trong thế giới thực.
  • Yêu cầu bộ nhớ thấp hơn: So với các kiến trúc phức tạp hơn, YOLOv10 hiệu quả trong việc sử dụng bộ nhớ trong cả quá trình huấn luyện và suy luận, giúp người dùng có phần cứng hạn chế có thể truy cập được.

Điểm yếu:

  • Chuyên biệt hóa tác vụ: Mặc dù vượt trội trong việc phát hiện đối tượng, YOLOv10 hiện đang tập trung vào tác vụ duy nhất này, không giống như Ultralytics YOLOv8 đa năng, hỗ trợ phân đoạn, phân loại và ước tính tư thế.

Các trường hợp sử dụng lý tưởng

YOLOv10 là lựa chọn hoàn hảo cho các ứng dụng mà hiệu suất và hiệu quả thời gian thực là tối quan trọng:

  • Edge AI: Kích thước nhỏ gọn và độ trễ thấp khiến nó trở nên lý tưởng để triển khai trên các thiết bị hạn chế về tài nguyên như NVIDIA Jetson hoặc Raspberry Pi.
  • Hệ thống tự động: Phát hiện nhanh chóng và đáng tin cậy là rất quan trọng đối với các ứng dụng như xe tự láirobot.
  • Phân tích video theo thời gian thực: Hoàn hảo cho các hệ thống có thông lượng cao như quản lý giao thông và giám sát an ninh.

Tìm hiểu thêm về YOLOv10

DAMO-YOLO

DAMO-YOLO là một mô hình phát hiện đối tượng nhanh và chính xác được phát triển bởi Alibaba Group. Được phát hành vào tháng 11 năm 2022, nó đã giới thiệu một số kỹ thuật mới để vượt qua các giới hạn hiệu suất của các bộ phát hiện kiểu YOLO.

Chi tiết kỹ thuật:

Kiến trúc và các tính năng chính

DAMO-YOLO là kết quả của việc khám phá các kỹ thuật tiên tiến để cải thiện sự đánh đổi giữa tốc độ và độ chính xác. Kiến trúc của nó được đặc trưng bởi:

  • Tìm kiếm kiến trúc thần kinh (NAS): Backbone của DAMO-YOLO được tạo bằng NAS, cho phép trích xuất các đặc trưng được tối ưu hóa cao.
  • Neck RepGFPN hiệu quả: Nó tích hợp một thiết kế mạng lưới kim tự tháp đặc trưng (FPN) mới vừa hiệu quả vừa mạnh mẽ.
  • ZeroHead và AlignedOTA: Mô hình sử dụng một head đơn giản hóa, không tham số và một chiến lược gán nhãn được cải thiện (AlignedOTA) để tăng cường độ chính xác phát hiện.
  • Chưng cất kiến thức: DAMO-YOLO tận dụng chưng cất để tăng cường hơn nữa hiệu suất của các mô hình nhỏ hơn.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Hiệu suất cao: DAMO-YOLO đạt được độ chính xác và tốc độ cạnh tranh, khiến nó trở thành một đối thủ mạnh trong lĩnh vực phát hiện đối tượng.
  • Công nghệ cải tiến: Nó kết hợp các khái niệm nghiên cứu tiên tiến như NAS và các chiến lược gán nhãn nâng cao.

Điểm yếu:

  • Độ phức tạp cao hơn: Kiến trúc mô hình và quy trình huấn luyện phức tạp hơn so với YOLOv10, có khả năng tạo ra đường cong học tập dốc hơn cho người dùng.
  • Hạn chế của hệ sinh thái: DAMO-YOLO chủ yếu có sẵn trong hộp công cụ MMDetection. Điều này có thể là một rào cản đối với các nhà phát triển không quen thuộc với hệ sinh thái đó và thích một giải pháp tích hợp, thân thiện với người dùng hơn như giải pháp do Ultralytics cung cấp.
  • Cộng đồng và Hỗ trợ: Mặc dù là một đóng góp đáng kể, nhưng nó có thể không có cùng mức độ hỗ trợ tích cực từ cộng đồng, cập nhật thường xuyên và tài nguyên phong phú như các mô hình trong hệ sinh thái Ultralytics.

Các trường hợp sử dụng lý tưởng

DAMO-YOLO rất phù hợp cho các nhà nghiên cứu và nhà phát triển:

  • Ưu tiên các kiến trúc mới: Dành cho những người quan tâm đến việc khám phá các xu hướng nghiên cứu mới nhất như backbones được hỗ trợ bởi NAS.
  • Làm việc trong MMDetection: Người dùng đã quen thuộc với framework MMDetection có thể tích hợp DAMO-YOLO vào quy trình làm việc của họ.
  • Yêu cầu độ chính xác cao: Trong các tình huống mà việc đạt được độ chính xác cao nhất là rất quan trọng và độ phức tạp tăng thêm có thể quản lý được.

Tìm hiểu thêm về DAMO-YOLO

So sánh hiệu năng trực tiếp: YOLOv10 so với DAMO-YOLO

Bảng sau so sánh hiệu suất của các kích thước mô hình YOLOv10 và DAMO-YOLO khác nhau trên bộ dữ liệu COCO. YOLOv10 liên tục thể hiện hiệu suất vượt trội, mang lại độ chính xác cao hơn với độ trễ thấp hơn và ít tham số hơn.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Như dữ liệu cho thấy, các mô hình YOLOv10 liên tục vượt trội hơn so với các đối tác DAMO-YOLO của chúng. Ví dụ: YOLOv10-S đạt được mAP cao hơn (46.7 so với 46.0) so với DAMO-YOLO-S trong khi nhanh hơn đáng kể (2.66 ms so với 3.45 ms) và có ít hơn một nửa số tham số (7.2M so với 16.3M). Xu hướng này đúng với tất cả các kích thước mô hình, đạt đỉnh điểm là YOLOv10-X đạt được mAP cao nhất là 54.4.

Kết luận

Cả YOLOv10 và DAMO-YOLO đều là những mô hình phát hiện đối tượng ấn tượng, nhưng chúng phục vụ cho các nhu cầu khác nhau. DAMO-YOLO là một mô hình nghiên cứu mạnh mẽ thể hiện những ý tưởng kiến trúc sáng tạo.

Tuy nhiên, đối với phần lớn các nhà phát triển, nhà nghiên cứu và doanh nghiệp, YOLOv10 là lựa chọn rõ ràng. Hiệu suất vượt trội của nó, kết hợp với thiết kế không NMS, làm cho nó nhanh hơn và hiệu quả hơn để triển khai trong thế giới thực. Quan trọng hơn, việc tích hợp liền mạch vào hệ sinh thái Ultralytics mang lại trải nghiệm người dùng tuyệt vời với tài liệu phong phú, hỗ trợ cộng đồng tích cực và một bộ công cụ như Ultralytics HUB giúp đơn giản hóa toàn bộ vòng đời MLOps.

Đối với những ai đang tìm kiếm các tùy chọn hiện đại khác, bạn cũng nên khám phá Ultralytics YOLOv8 vì tính linh hoạt của nó trên nhiều tác vụ thị giác hoặc xem các so sánh mô hình khác của chúng tôi để tìm sự phù hợp hoàn hảo cho dự án của bạn.



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận