Chuyển đến nội dung

YOLOv6 -3.0 so với DAMO- YOLO : So sánh kỹ thuật để phát hiện đối tượng

Việc lựa chọn kiến trúc thị giác máy tính phù hợp là một quyết định then chốt đối với các kỹ sư và nhà nghiên cứu. Thị trường phát hiện đối tượng rất cạnh tranh, với các ông lớn công nghiệp liên tục mở rộng ranh giới về tốc độ và độ chính xác. Trang này cung cấp so sánh kỹ thuật toàn diện giữa YOLOv6 , một mô hình hiệu quả về phần cứng của Meituan, và DAMO- YOLO , một kiến trúc tích hợp công nghệ của Tập đoàn Alibaba.

YOLOv6 -3.0 Tổng quan

YOLOv6 -3.0 là một nền tảng mạnh mẽ được thiết kế riêng cho các ứng dụng công nghiệp. Được phát hành bởi Bộ phận AI Thị giác của Meituan, YOLOv6 -3.0 ưu tiên hiệu quả thực tế, hướng đến mục tiêu mang lại hiệu suất cao trên các hạn chế phần cứng tiêu chuẩn thường gặp trong sản xuất và tự động hóa.

Kiến trúc và các cải tiến chính

YOLOv6 Phiên bản 3.0 cải tiến mô hình máy dò một giai đoạn, tập trung vào việc tham số hóa lại . Kỹ thuật này cho phép mô hình có cấu trúc phức tạp trong quá trình huấn luyện để học tốt hơn, nhưng lại thu gọn thành cấu trúc đơn giản hơn, nhanh hơn trong quá trình suy luận .

  • EfficientRep Backbone: Xương sống sử dụng các khối riêng biệt cho các kích thước mô hình khác nhau (EfficientRep cho các mô hình nhỏ và CPSStackRep cho các mô hình lớn hơn), tối ưu hóa việc sử dụng GPU khả năng phần cứng.
  • Cổ Rep-PAN: Cổ sử dụng cấu trúc Rep-PAN, tăng cường khả năng hợp nhất tính năng trong khi vẫn duy trì tốc độ suy luận cao.
  • Tự chưng cất: Một phương pháp đào tạo quan trọng trong đó mô hình học hỏi từ các dự đoán của chính nó (cụ thể là một nhánh giáo viên trong cùng một mạng) để cải thiện độ chính xác mà không cần tốn chi phí tính toán của một mô hình giáo viên riêng biệt trong quá trình triển khai.

Tối ưu hóa công nghiệp

YOLOv6 được thiết kế rõ ràng với mục tiêu lượng tử hóa . Kiến trúc của nó thân thiện với Lượng tử hóa Sau Huấn luyện (PTQ) và Huấn luyện Nhận biết Lượng tử hóa (QAT), khiến nó trở thành ứng cử viên sáng giá cho việc triển khai trên các thiết bị biên, nơi độ chính xác INT8 được ưu tiên vì tốc độ.

Tìm hiểu thêm về YOLOv6

Tổng quan về DAMO-YOLO

DAMO- YOLO , do Tập đoàn Alibaba phát triển, giới thiệu một bộ công nghệ mới nhằm tối ưu hóa sự cân bằng giữa hiệu suất và độ trễ. Sản phẩm nổi bật nhờ tích hợp Tìm kiếm Kiến trúc Nơ-ron (NAS) và các kỹ thuật kết hợp tính năng tiên tiến.

Kiến trúc và các cải tiến chính

DAMO- YOLO tránh xa các kiến trúc hoàn toàn thủ công, một phần dựa vào các chiến lược tìm kiếm tự động để tìm ra các cấu trúc hiệu quả.

  • Xương sống hỗ trợ NAS (MazeNet): Xương sống được tạo ra bằng cách sử dụng MAE-NAS (Tìm kiếm kiến trúc thần kinh), tạo ra một cấu trúc có tên là MazeNet được tối ưu hóa cao cho nhiều ngân sách tính toán khác nhau.
  • RepGFPN hiệu quả: Phương pháp này sử dụng Mạng Kim tự tháp Đặc trưng Tổng quát (GFPN) kết hợp với tham số hóa lại. Điều này cho phép hợp nhất các đặc trưng đa thang đo phong phú, rất quan trọng để phát hiện các đối tượng có kích thước khác nhau.
  • ZeroHead: Thiết kế đầu phát hiện đơn giản giúp giảm số lượng tham số và độ phức tạp tính toán ở giai đoạn cuối của mạng.
  • AlignedOTA: Một chiến lược gán nhãn động giúp giải quyết tình trạng không khớp giữa các tác vụ phân loại và hồi quy trong quá trình đào tạo .

Hợp nhất tính năng nâng cao

Cổ RepGFPN trong DAMO- YOLO đặc biệt hiệu quả trong việc xử lý các cảnh phức tạp với các đối tượng chồng chéo. Bằng cách cho phép bỏ qua các kết nối giữa các mức tỷ lệ khác nhau, nó bảo toàn thông tin ngữ nghĩa tốt hơn so với các cấu trúc FPN tiêu chuẩn.

Tìm hiểu thêm về DAMO-YOLO

Phân tích hiệu năng: Tốc độ so với độ chính xác

So sánh sau đây sử dụng dữ liệu từ bộ dữ liệu COCO val2017 . Các số liệu này làm nổi bật sự đánh đổi giữa hai mô hình trên các quy mô khác nhau.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv6 -3.0n64037.5-1.174.711.4
YOLOv6 -3.0 giây64045.0-2.6618.545.3
YOLOv6 -3,0m64050.0-5.2834.985.8
YOLOv6 -3.0l64052.8-8.9559.6150.7
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Những Điểm Chính

  1. Người dẫn đầu về độ trễ: YOLOv6 -3.0n là mô hình nhanh nhất trong phép so sánh này, đạt tốc độ 1,17 ms trên T4 GPU . Điều này làm cho nó đặc biệt phù hợp với các yêu cầu FPS cao trong các tình huống suy luận thời gian thực .
  2. Độ chính xác đỉnh: YOLOv6 -3.0l đạt độ chính xác cao nhất với mAP là 52,8, chứng minh tính hiệu quả của xương sống nặng và chiến lược tự chưng cất, mặc dù phải trả giá bằng các thông số và FLOP cao hơn so với DAMO- YOLO .
  3. Điểm mạnh về hiệu quả: DAMO-YOLOs vượt trội YOLOv6 -3,0 giây về độ chính xác (46,0 so với 45,0 mAP ) trong khi có ít tham số hơn (16,3M so với 18,5M). Điều này làm nổi bật hiệu quả của xương sống được tìm kiếm bằng NAS trong chế độ mô hình nhỏ.
  4. Hiệu quả tham số: Nói chung, DAMO- YOLO các mô hình thể hiện FLOP và số lượng tham số thấp hơn để có độ chính xác tương đương trong phạm vi trung bình đến lớn, xác nhận tính hiệu quả của thiết kế ZeroHead.

Các Ultralytics Lợi thế

Trong khi YOLOv6 -3.0 và DAMO- YOLO cung cấp các tính năng hấp dẫn cho các phân khúc cụ thể, Ultralytics YOLO11 cung cấp giải pháp toàn diện hơn cho phát triển AI hiện đại. Lựa chọn một Ultralytics mô hình mở ra một hệ sinh thái toàn diện được thiết kế để hợp lý hóa toàn bộ vòng đời học máy.

Tại sao chọn Ultralytics YOLO ?

  • Sự dễ sử dụng vô song: Không giống như các kho lưu trữ nghiên cứu thường yêu cầu thiết lập môi trường phức tạp và biên dịch các toán tử C++ tùy chỉnh, Ultralytics các mô hình có thể được cài đặt thông qua một cách đơn giản pip install ultralytics. Trực giác Python API cho phép bạn đào tạo và triển khai các mô hình chỉ bằng một vài dòng mã.
  • Cân bằng hiệu suất: YOLO11 được thiết kế để cung cấp sự cân bằng tối ưu giữa tốc độ suy luận và độ chính xác, thường vượt trội hơn đối thủ cạnh tranh trong các tiêu chuẩn thực tế trong khi vẫn duy trì yêu cầu bộ nhớ thấp hơn trong quá trình đào tạo.
  • Tính linh hoạt của nhiệm vụ: Trong khi YOLOv6 và DAMO- YOLO chủ yếu là các máy dò vật thể, Ultralytics YOLO hỗ trợ nhiều tác vụ gốc, bao gồm Phân đoạn trường hợp , Ước tính tư thế , Phân loại và Phát hiện hộp giới hạn định hướng (OBB) .
  • Hệ sinh thái được duy trì tốt: Ultralytics cung cấp một hệ sinh thái sống động với các bản cập nhật thường xuyên, tài liệu hướng dẫn chi tiết và hỗ trợ cộng đồng thông qua Discord và GitHub. Điều này đảm bảo dự án của bạn luôn sẵn sàng cho tương lai và tương thích với các thư viện phần cứng và phần mềm mới nhất.
  • Tính linh hoạt khi triển khai: Dễ dàng xuất các mô hình đã đào tạo của bạn sang nhiều định dạng khác nhau như ONNX , TensorRT , CoreML , Và OpenVINO sử dụng chế độ xuất tích hợp, tạo điều kiện triển khai trên mọi thứ, từ máy chủ đám mây đến thiết bị Raspberry Pi .

Ví dụ: Chạy phát hiện đối tượng với YOLO11

Bắt đầu với công nghệ phát hiện tiên tiến cực kỳ đơn giản với Ultralytics :

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Kết luận

Cả YOLOv6 -3.0DAMO- YOLO đều là những cột mốc quan trọng trong quá trình phát triển của công nghệ phát hiện đối tượng. YOLOv6 -3.0 hoạt động vượt trội trong môi trường công nghiệp, nơi tốc độ thô và hỗ trợ lượng tử hóa là tối quan trọng, đặc biệt là với phiên bản Nano. DAMO- YOLO thể hiện sức mạnh của Tìm kiếm Kiến trúc Nơ-ron và tính năng kết hợp sáng tạo, mang lại hiệu quả và độ chính xác cao trong phạm vi mô hình từ nhỏ đến trung bình.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm một giải pháp sẵn sàng cho sản xuất, kết hợp hiệu suất tiên tiến với tính linh hoạt và dễ sử dụng, Ultralytics YOLO11 vẫn là lựa chọn được đề xuất. Hệ sinh thái mạnh mẽ, khả năng đa nhiệm và khả năng tích hợp liền mạch vào quy trình làm việc MLOps hiện đại mang lại lợi thế rõ rệt để đảm bảo thành công của dự án.

Khám phá các Mô hình Khác

Để mở rộng hiểu biết của bạn về bối cảnh phát hiện đối tượng, hãy cân nhắc khám phá những so sánh mô hình liên quan sau:


Bình luận