Chuyển đến nội dung

DAMO- YOLO so với YOLOv10 : Một cái nhìn sâu sắc về sự phát triển của công nghệ phát hiện đối tượng

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định then chốt, ảnh hưởng đến mọi thứ, từ chi phí triển khai đến trải nghiệm người dùng. Bài so sánh kỹ thuật này khám phá sự khác biệt giữa DAMO- YOLO , một mô hình nghiên cứu của Tập đoàn Alibaba, và YOLOv10 , bộ phát hiện đầu cuối thời gian thực mới nhất do các nhà nghiên cứu tại Đại học Thanh Hoa phát triển và tích hợp vào Ultralytics hệ sinh thái.

Mặc dù cả hai mô hình đều hướng đến việc tối ưu hóa sự cân bằng giữa tốc độ và độ chính xác, chúng sử dụng các chiến lược kiến trúc rất khác nhau. Bài phân tích này đi sâu vào các thông số kỹ thuật, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn định hướng trong bối cảnh phức tạp của thị giác máy tính .

Các chỉ số hiệu suất

Bảng dưới đây cung cấp so sánh trực tiếp về hiệu quả và độ chính xác trên tập dữ liệu COCO . Những điểm chính bao gồm hiệu quả tham số và tốc độ suy luận, trong đó YOLOv10 thể hiện những lợi thế đáng kể nhờ NMS -thiết kế miễn phí.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

DAMO- YOLO : Đổi mới dựa trên nghiên cứu

Được phát hành vào cuối năm 2022, DAMO- YOLO thể hiện nỗ lực đáng kể của Tập đoàn Alibaba nhằm mở rộng ranh giới của YOLO -các máy dò theo phong cách thông qua tìm kiếm kiến trúc nơ-ron tiên tiến và các kỹ thuật kết hợp tính năng mới.

Chi tiết kỹ thuật:
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, et al.
Tổ chức: Tập đoàn Alibaba
Ngày: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO- YOLO

Tìm hiểu thêm về DAMO-YOLO

Kiến trúc và các tính năng chính

DAMO- YOLO tích hợp một số khái niệm tiên tiến để đạt được hiệu suất của nó:

  1. Tìm kiếm kiến trúc thần kinh (NAS): Không giống như các mô hình có xương sống được thiết kế thủ công, DAMO- YOLO sử dụng MAE-NAS để tự động khám phá các cấu trúc mạng hiệu quả, tối ưu hóa độ sâu và chiều rộng của mạng cho các hạn chế phần cứng cụ thể.
  2. RepGFPN Neck: Mạng lưới kim tự tháp tính năng này sử dụng tham số hóa lại để quản lý hợp nhất tính năng một cách hiệu quả. Nó cho phép các cấu trúc thời gian đào tạo phức tạp được thu gọn thành các khối thời gian suy luận đơn giản hơn, duy trì độ chính xác đồng thời tăng tốc độ.
  3. ZeroHead & AlignedOTA: Mô hình sử dụng thiết kế "ZeroHead" để giảm độ phức tạp của đầu phát hiện và sử dụng AlignedOTA (Phân công vận chuyển tối ưu) để xử lý việc phân công nhãn trong quá trình đào tạo, giải quyết các vấn đề không khớp giữa các tác vụ phân loại và hồi quy.

Cân nhắc độ phức tạp

Trong khi DAMO- YOLO giới thiệu những cải tiến ấn tượng, sự phụ thuộc vào NAS và các thành phần chuyên dụng có thể khiến quy trình đào tạo trở nên phức tạp hơn và khó tiếp cận hơn đối với các nhà phát triển cần tùy chỉnh hoặc triển khai nhanh chóng trên nhiều phần cứng khác nhau mà không cần điều chỉnh nhiều.

Điểm mạnh và Điểm yếu

  • Điểm mạnh: DAMO- YOLO cung cấp độ chính xác cao, đặc biệt là vào thời điểm phát hành và giới thiệu các khái niệm mới như cải tiến chưng cất cho các mô hình nhỏ hơn.
  • Điểm yếu: Hệ sinh thái xung quanh DAMO- YOLO chủ yếu gắn liền với khuôn khổ MMDetection, có thể có đường cong học tập dốc hơn so với hệ sinh thái Ultralytics thân thiện với người dùng. Ngoài ra, nó yêu cầu NMS hậu xử lý, làm tăng thêm độ trễ.

YOLOv10 : Kỷ nguyên phát hiện thời gian thực toàn diện

YOLOv10 , được phát hành vào tháng 5 năm 2024 bởi các nhà nghiên cứu tại Đại học Thanh Hoa, đại diện cho một sự thay đổi mô hình trong YOLO dòng dõi. Bằng cách loại bỏ nhu cầu về sự ức chế không tối đa ( NMS ), nó đạt được hiệu suất thực sự từ đầu đến cuối, giảm đáng kể độ trễ suy luận.

Chi tiết kỹ thuật:
Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 23-05-2024
Arxiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10
Tài liệu: https://docs. ultralytics .com/models/yolov10/


Tìm hiểu thêm về YOLOv10

Kiến trúc và các cải tiến

YOLOv10 tập trung vào hiệu quả toàn diện, nhắm vào cả kiến trúc và quy trình xử lý hậu kỳ:

  1. Thiết kế không có NMS : Thông qua một chiến lược được gọi là Phân công kép nhất quán , YOLOv10 Các huấn luyện với cả gán nhãn một-nhiều và một-một. Điều này cho phép mô hình dự đoán một hộp tốt nhất duy nhất cho mỗi đối tượng trong quá trình suy luận, hiển thị NMS lỗi thời. Đây là một lợi thế quan trọng cho suy luận thời gian thực khi hậu xử lý thường có thể trở thành nút thắt cổ chai.
  2. Thiết kế Hiệu quả-Độ chính xác Toàn diện: Kiến trúc này có đầu phân loại nhẹ và kỹ thuật lấy mẫu giảm tách biệt kênh không gian. Những tối ưu hóa này giúp giảm thiểu sự dư thừa tính toán, dẫn đến số lượng FLOP và số lượng tham số thấp hơn so với các thế hệ trước.
  3. Thiết kế khối theo thứ hạng: Mô hình điều chỉnh thiết kế khối bên trong dựa trên sự dư thừa của các giai đoạn khác nhau, sử dụng các khối đảo ngược nhỏ gọn (CIB) khi cần hiệu quả và tự chú ý một phần (PSA) khi cần cải tiến tính năng.

Dễ sử dụng với Ultralytics

Một trong những lợi thế quan trọng nhất của YOLOv10 là sự tích hợp liền mạch của nó vào hệ sinh thái Ultralytics . Các nhà phát triển có thể đào tạo, xác thực và triển khai YOLOv10 sử dụng cùng một API đơn giản được sử dụng cho YOLOv8YOLO11 .

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Phân tích so sánh

Khi so sánh DAMO- YOLO Và YOLOv10 sự khác biệt nằm ở cách tiếp cận hiệu quả và hệ sinh thái hoạt động của họ.

Tốc độ và độ trễ

YOLOv10 có một lợi thế rõ rệt về độ trễ trong thế giới thực. Tiêu chuẩn YOLO các mô hình (và DAMO- YOLO ) yêu cầu NMS (Non-Maximum Suppression) để lọc các hộp giới hạn chồng lấn. NMS thời gian thực hiện thay đổi tùy theo số lượng đối tượng được phát hiện, gây ra độ trễ không thể đoán trước. YOLOv10 Thiết kế đầu cuối cung cấp độ trễ xác định , giúp nó trở nên vượt trội đối với các ứng dụng quan trọng về thời gian như lái xe tự động hoặc robot công nghiệp tốc độ cao.

Hiệu quả sử dụng tài nguyên

Như thể hiện trong bảng hiệu suất, YOLOv10s đạt được hiệu suất cao hơn mAP (46,7%) so với DAMO- YOLO -S (46,0%) trong khi sử dụng ít hơn một nửa số tham số (7,2M so với 16,3M). Việc giảm thiểu dung lượng bộ nhớ này rất quan trọng đối với việc triển khai ở biên. Ultralytics Các mô hình này nổi tiếng vì yêu cầu bộ nhớ thấp hơn trong quá trình đào tạo và suy luận, cho phép đào tạo trên GPU dành cho người tiêu dùng trong khi các kiến trúc khác có thể gặp khó khăn với lỗi Hết bộ nhớ (OOM).

Hệ sinh thái và hỗ trợ

Trong khi DAMO- YOLO là một đóng góp học thuật mạnh mẽ, YOLOv10 được hưởng lợi từ hệ sinh thái Ultralytics được duy trì tốt . Điều này bao gồm:

  • Phát triển tích cực: Cập nhật thường xuyên và sửa lỗi.
  • Hỗ trợ cộng đồng: Cộng đồng các nhà phát triển lớn trên GitHub và Discord.
  • Tài liệu: Tài liệu mở rộng bao gồm mọi thứ từ tăng cường dữ liệu đến triển khai.
  • Hiệu quả đào tạo: Các thói quen hợp lý hỗ trợ các tính năng như độ chính xác hỗn hợp tự động (AMP) và đa GPU đào tạo ngay lập tức.

Vượt ra ngoài sự phát hiện

Nếu dự án của bạn yêu cầu tính linh hoạt vượt ra ngoài các hộp giới hạn—chẳng hạn như phân đoạn thể hiện , ước tính tư thế hoặc phát hiện đối tượng theo hướng (OBB) —hãy cân nhắc khám phá YOLO11 hoặc YOLOv8 . Trong khi YOLOv10 vượt trội trong việc phát hiện thuần túy, rộng hơn Ultralytics gia đình cung cấp các giải pháp tiên tiến cho những nhu cầu đa nhiệm phức tạp này.

Các trường hợp sử dụng lý tưởng

Khi nào nên chọn YOLOv10

  • Edge AI & IoT: Số lượng tham số thấp (ví dụ: YOLOv10n ở mức 2,3 triệu tham số) khiến nó trở nên hoàn hảo cho các thiết bị như Raspberry Pi hoặc NVIDIA Jetson .
  • Phân tích video thời gian thực: Loại bỏ NMS đảm bảo tốc độ khung hình ổn định, cần thiết cho việc giám sát lưu lượng truy cập hoặc nguồn cấp dữ liệu an ninh.
  • Phát triển nhanh chóng: Các nhóm cần chuyển từ dữ liệu sang triển khai nhanh chóng sẽ được hưởng lợi từ tính trực quan ultralytics Python API và Ultralytics HUB.

Khi nào nên cân nhắc DAMO-YOLO

  • Nghiên cứu học thuật: Các nhà nghiên cứu nghiên cứu Tìm kiếm kiến trúc thần kinh (NAS) hoặc tối ưu hóa kim tự tháp tính năng có thể tìm thấy DAMO- YOLO Kiến trúc của 'là một tài liệu tham khảo có giá trị.
  • Các đường ống kế thừa: Các dự án đã được tích hợp sâu vào khuôn khổ MMDetection có thể thấy việc áp dụng DAMO- dễ dàng hơn YOLO hơn là chuyển đổi khung.

Kết luận

Cả hai mô hình đều đại diện cho những cột mốc quan trọng trong lĩnh vực thị giác máy tính. DAMO- YOLO đã giới thiệu sức mạnh của NAS và tính năng kết hợp nâng cao vào năm 2022. Tuy nhiên, đối với các ứng dụng hiện đại vào năm 2024 trở đi, YOLOv10 cung cấp một gói hấp dẫn hơn. NMS -Kiến trúc đầu cuối miễn phí giải quyết được tình trạng tắc nghẽn lâu nay trong việc phát hiện đối tượng, trong khi việc tích hợp nó vào Ultralytics hệ sinh thái đảm bảo tính dễ tiếp cận, dễ bảo trì và dễ triển khai.

Đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa tốc độ, độ chính xác và tính dễ sử dụng, YOLOv10 —cùng với YOLO11 đa năng —là lựa chọn vượt trội để xây dựng các giải pháp AI mạnh mẽ.


Bình luận