Chuyển đến nội dung

DAMO- YOLO so với YOLOv8 : Một cuộc lặn sâu về mặt kỹ thuật

Bối cảnh phát hiện đối tượng không ngừng phát triển, với các nhà nghiên cứu và kỹ sư nỗ lực cân bằng các yêu cầu cạnh tranh về tốc độ, độ chính xác và hiệu quả tính toán. Hai kiến trúc nổi bật đã tạo nên làn sóng đáng kể trong cộng đồng thị giác máy tính là DAMO- YOLO , do Tập đoàn Alibaba phát triển, và YOLOv8 , do Ultralytics tạo ra.

So sánh kỹ thuật này khám phá những cải tiến về kiến trúc, số liệu hiệu suất và khả năng sử dụng thực tế của cả hai mô hình. Trong khi DAMO- YOLO giới thiệu các khái niệm nghiên cứu mới như Tìm kiếm Kiến trúc Thần kinh (NAS), Ultralytics YOLOv8 tập trung vào việc cung cấp một hệ sinh thái mạnh mẽ, thân thiện với người dùng , giúp hợp lý hóa quy trình làm việc từ đào tạo đến triển khai.

Phân tích hiệu năng: Tốc độ và độ chính xác

Để hiểu cách các mô hình này so sánh trong các tình huống thực tế, chúng tôi phân tích hiệu suất của chúng trên tập dữ liệu COCO tiêu chuẩn. Các số liệu dưới đây nêu bật sự đánh đổi giữa Độ chính xác trung bình ( mAP ), tốc độ suy luận trên các phần cứng khác nhau và độ phức tạp của mô hình.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Những Điểm Chính

Dữ liệu cho thấy những lợi thế riêng biệt tùy thuộc vào mục tiêu triển khai:

  • Hiệu suất biên: Mô hình YOLOv8n (Nano) là giải pháp hàng đầu không thể tranh cãi cho các môi trường hạn chế tài nguyên. Với chỉ 3,2 triệu tham số8,7 tỷ FLOP , nó đạt tốc độ suy luận nhanh nhất trên cả hai hệ thống. CPU Và GPU . Điều này làm cho nó trở nên lý tưởng cho các ứng dụng di động hoặc thiết bị IoT nơi bộ nhớ và nguồn điện khan hiếm.
  • Độ chính xác cao nhất: Đối với các ứng dụng đòi hỏi độ chính xác cao nhất, YOLOv8x đạt được độ chính xác cao nhất mAP của 53,9% . Trong khi DAMO- YOLO các mô hình hoạt động tốt, lớn nhất YOLOv8 biến thể đẩy ranh giới của độ chính xác phát hiện xa hơn.
  • Sự đánh đổi về độ trễ: DAMO- YOLO thể hiện thông lượng ấn tượng trên GPU chuyên dụng (như T4), được điều khiển bởi xương sống được tối ưu hóa cho NAS. Tuy nhiên, Ultralytics YOLOv8 duy trì sự cân bằng vượt trội trên nhiều loại phần cứng hơn, bao gồm cả CPU, đảm bảo tính linh hoạt triển khai rộng hơn.

DAMO- YOLO : Đổi mới dựa trên nghiên cứu

DAMO- YOLO là sản phẩm của các sáng kiến nghiên cứu của Tập đoàn Alibaba. Tên gọi này là viết tắt của "Khám phá, Phiêu lưu, Động lực và Triển vọng", thể hiện sự tập trung vào việc khám phá những ranh giới kiến trúc mới.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO- YOLO

Điểm nổi bật về kiến trúc

DAMO- YOLO tích hợp một số công nghệ tiên tiến để tối ưu hóa sự cân bằng giữa độ trễ và độ chính xác:

  1. Xương sống MAE-NAS: Sử dụng Tìm kiếm kiến trúc nơ-ron (NAS) để tự động khám phá các cấu trúc mạng hiệu quả, cụ thể là sử dụng phương pháp gọi là MAE-NAS.
  2. RepGFPN Neck: Mạng kim tự tháp tính năng tổng quát (GFPN) có nhiều tham số được sử dụng để tối đa hóa luồng thông tin giữa các mức tỷ lệ khác nhau, cải thiện khả năng phát hiện các đối tượng ở nhiều khoảng cách khác nhau.
  3. ZeroHead: Để cân bằng với phần cổ nặng, mô hình sử dụng "ZeroHead" nhẹ, giúp giảm gánh nặng tính toán ở giai đoạn phát hiện cuối cùng.
  4. AlignedOTA: Chiến lược gán nhãn động giúp sắp xếp các tác vụ phân loại và hồi quy trong quá trình đào tạo, giúp mô hình hội tụ hiệu quả hơn.

Tìm hiểu thêm về DAMO-YOLO

Ultralytics YOLOv8 : Tiêu chuẩn hệ sinh thái

YOLOv8 đại diện cho sự tinh tế của YOLO kiến trúc tập trung vào khả năng sử dụng, tính linh hoạt và hiệu suất tiên tiến. Không giống như các mô hình nghiên cứu thuần túy, YOLOv8 được thiết kế như một sản phẩm dành cho các nhà phát triển, nhấn mạnh vào hệ sinh thái được duy trì tốt và dễ dàng tích hợp.

Tác giả: Glenn Jocher, Ayush Chaurasia và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2023-01-10
Tài liệu: Ultralytics YOLOv8

Điểm mạnh về kiến trúc

  • Phát hiện không có neo: YOLOv8 loại bỏ các hộp neo, giảm số lượng siêu tham số mà nhà phát triển cần điều chỉnh và đơn giản hóa quá trình đào tạo.
  • Mô-đun C2f: Kiến trúc này thay thế mô-đun C3 bằng C2f, cung cấp thông tin luồng gradient phong phú hơn trong khi vẫn duy trì kích thước nhỏ gọn.
  • Đầu tách rời: Bằng cách tách nhiệm vụ phân loại và hồi quy trong đầu, mô hình đạt được độ chính xác định vị cao hơn.
  • Unified Framework: Có lẽ tính năng kiến trúc mạnh nhất của nó là khả năng hỗ trợ gốc cho nhiều tác vụ thị giác— phân đoạn thể hiện , ước tính tư thế , phân loạiphát hiện đối tượng theo hướng (OBB) —tất cả đều nằm trong một cơ sở mã duy nhất.

Bạn có biết không?

Ultralytics cung cấp một đường dẫn liền mạch để xuất mô hình sang các định dạng được tối ưu hóa như ONNX , TensorRT , CoreMLOpenVINO . Khả năng xuất này đảm bảo các mô hình đã được đào tạo của bạn có thể chạy hiệu quả trên hầu hết mọi nền tảng phần cứng.

Tìm hiểu thêm về YOLOv8

Khả năng sử dụng và trải nghiệm của nhà phát triển

Sự khác biệt đáng kể nhất giữa hai mô hình nằm ở tính dễ sử dụng và hệ sinh thái xung quanh.

Các mô hình YOLO Ultralytics nổi tiếng với trải nghiệm "từ con số không đến anh hùng". Chỉ cần cài đặt PIP đơn giản, các nhà phát triển có thể truy cập vào một nền tảng mạnh mẽ CLI Và Python API. Điều này làm giảm đáng kể rào cản gia nhập so với các kho lưu trữ nghiên cứu thường yêu cầu thiết lập môi trường phức tạp.

Hiệu quả đào tạo

Ultralytics Các mô hình được thiết kế để đào tạo hiệu quả . Chúng sử dụng hiệu quả CUDA bộ nhớ, cho phép xử lý các lô dữ liệu lớn hơn hoặc đào tạo trên GPU dành cho người dùng phổ thông. Hơn nữa, việc cung cấp các trọng số được đào tạo trước chất lượng cao giúp tăng tốc độ hội tụ, tiết kiệm thời gian và năng lượng tính toán đáng kể.

Đây là một ví dụ hoàn chỉnh, có thể chạy được về cách tải và dự đoán bằng YOLOv8 mô hình chỉ trong ba dòng Python :

from ultralytics import YOLO

# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")

# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
for result in results:
    result.show()

Ngược lại, trong khi DAMO- YOLO mang lại hiệu suất mạnh mẽ, nhưng nhìn chung đòi hỏi phải cấu hình thủ công nhiều hơn và quen thuộc với các khuôn khổ hướng đến nghiên cứu, khiến nó khó tiếp cận hơn đối với việc tạo mẫu nhanh hoặc tích hợp thương mại.

Kết luận: Chọn đúng công cụ

Cả DAMO- YOLO Và YOLOv8 là những thành tựu đặc biệt trong lĩnh vực thị giác máy tính.

DAMO- YOLO là lựa chọn tuyệt vời cho các nhà nghiên cứu quan tâm đến Tìm kiếm kiến trúc thần kinh và những người triển khai cụ thể trên phần cứng có xương sống tùy chỉnh được tối ưu hóa hoàn toàn.

Tuy nhiên, đối với hầu hết các nhà phát triển, nhà nghiên cứu và doanh nghiệp, Ultralytics YOLOv8 (và YOLO11 mới hơn) mang lại giá trị vượt trội:

  1. Tính linh hoạt: Có khả năng xử lý Phát hiện, Phân đoạn, Tư thế và OBB trong một khuôn khổ.
  2. Dễ sử dụng: Tài liệu vô song, API đơn giản và cộng đồng hỗ trợ mạnh mẽ.
  3. Triển khai: Hỗ trợ rộng rãi cho các chế độ xuất , bao gồm mọi thứ từ điện thoại di động đến máy chủ đám mây.
  4. Cân bằng hiệu suất: Tỷ lệ độ chính xác/tốc độ tuyệt vời, đặc biệt là trên CPU và các thiết bị Edge.

Đối với những người muốn luôn đi đầu, chúng tôi cũng khuyên bạn nên xem YOLO11 , được xây dựng dựa trên thế mạnh của YOLOv8 với hiệu quả và độ chính xác thậm chí còn cao hơn.

Khám Phá Các So Sánh Mô Hình Khác

Để giúp bạn đưa ra quyết định sáng suốt nhất cho các dự án thị giác máy tính của mình, hãy khám phá những so sánh chi tiết sau:


Bình luận