Chuyển đến nội dung

DAMO- YOLO so với YOLOv5 So sánh kỹ thuật về kiến ​​trúc và hiệu năng

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn kiến ​​trúc phát hiện đối tượng phù hợp là rất quan trọng để cân bằng độ chính xác, tốc độ và hiệu quả tài nguyên. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa DAMO- YOLO , một mô hình dựa trên Tìm kiếm Kiến trúc Mạng thần kinh (NAS) từ Tập đoàn Alibaba, và YOLOv5 , mô hình huyền thoại được sử dụng rộng rãi từ... Ultralytics .

Tóm tắt điều hành

Trong khi DAMO- YOLO giới thiệu các khái niệm đột phá như Tìm kiếm Kiến trúc Mạng thần kinh (NAS) và tái tham số hóa mạnh mẽ để đạt được độ chính xác cao hơn trên... COCO Với bộ dữ liệu YOLOv5 , nó vẫn là tiêu chuẩn ngành về khả năng sử dụng, tính sẵn sàng triển khai và hỗ trợ hệ sinh thái.

Đối với các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất vào năm 2026, YOLO26 là lựa chọn nâng cấp được khuyến nghị. Nó kết hợp sự dễ sử dụng của... YOLOv5 với những đột phá về kiến ​​trúc như một giải pháp toàn diện từ đầu đến cuối NMS - Thiết kế không cần cấu hình đặc biệt và trình tối ưu hóa MuSGD, vượt trội hơn cả hai mẫu cũ về hiệu quả và tốc độ.

DAMO- YOLO Kiến trúc và Đổi mới

Được phát triển bởi các nhà nghiên cứu tại Tập đoàn Alibaba, DAMO- YOLO Tập trung vào việc vượt qua giới hạn về tốc độ và độ chính xác thông qua thiết kế kiến ​​trúc tự động.

  • Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
  • Tổ chức: Alibaba Group
  • Ngày: 23 tháng 11 năm 2022
  • Liên kết: Arxiv , GitHub

Các tính năng kiến trúc chính

  1. Tìm kiếm kiến ​​trúc mạng nơ-ron (NAS): Không giống như các kiến ​​trúc mạng được thiết kế thủ công, DAMO- YOLO Sử dụng MAE-NAS (Phương pháp dừng sớm phụ trợ) để tự động phát hiện các đường trục hiệu quả được thiết kế riêng cho các ràng buộc độ trễ khác nhau.
  2. RepGFPN (Efficient Rep-parameterized Generalized FPN): Nó sử dụng một cơ chế kết hợp đặc trưng mới giúp tối ưu hóa luồng thông tin trên các thang đo khác nhau, tận dụng việc tái tham số hóa để duy trì tốc độ suy luận nhanh đồng thời tối đa hóa độ phong phú của đặc trưng.
  3. ZeroHead: Một đầu dò nhẹ giúp giảm đáng kể gánh nặng tính toán so với các đầu dò tách rời truyền thống.
  4. AlignedOTA: Một chiến lược gán nhãn động giúp giải quyết các vấn đề không khớp giữa nhiệm vụ phân loại và hồi quy trong quá trình huấn luyện.

Điểm mạnh và Điểm yếu

DAMO- YOLO Xuất sắc trong các bài kiểm tra học tập, thường thể hiện năng lực vượt trội. mAP điểm số cho một số tham số nhất định so với các phiên bản cũ hơn. YOLO các phiên bản. Tuy nhiên, việc phụ thuộc vào cấu trúc NAS phức tạp có thể khiến việc sửa đổi hoặc tinh chỉnh cho phần cứng tùy chỉnh trở nên khó khăn hơn. Công thức huấn luyện "ưu tiên chưng cất" - thường yêu cầu một mô hình giáo viên phức tạp - cũng có thể làm phức tạp quy trình huấn luyện đối với người dùng có nguồn lực hạn chế.

Tìm hiểu thêm về DAMO-YOLO

YOLOv5 Tiêu chuẩn ngành

Được phát hành bởi Ultralytics vào năm 2020, YOLOv5 Nó đã định nghĩa lại trải nghiệm người dùng cho việc phát hiện đối tượng. Nó không chỉ là một mô hình; nó là một khung phần mềm hoàn chỉnh, sẵn sàng cho sản xuất.

Các tính năng kiến trúc chính

  1. Mạng trục CSP-Darknet: Sử dụng các mạng con đa tầng để tăng cường luồng gradient và giảm thiểu tính toán, một thiết kế thủ công mạnh mẽ cân bằng hiệu quả giữa chiều sâu và chiều rộng.
  2. PANet Neck: Mạng tổng hợp đường dẫn (Path Aggregation Network) cải thiện đáng kể luồng thông tin, giúp mô hình định vị đối tượng tốt hơn bằng cách kết hợp các đặc điểm từ các cấp độ xương sống khác nhau.
  3. Tăng cường dữ liệu bằng kỹ thuật ghép ảnh (Mosaic Augmentation): Một kỹ thuật tăng cường dữ liệu tiên phong kết hợp bốn hình ảnh huấn luyện thành một, cho phép mô hình học cách... detect có thể nhận diện và xử lý hiệu quả các đối tượng ở các quy mô và bối cảnh khác nhau.
  4. Tự động neo: Tự động tính toán các hộp neo tốt nhất cho tập dữ liệu cụ thể của bạn, đơn giản hóa quá trình thiết lập cho dữ liệu tùy chỉnh.

Điểm mạnh và Điểm yếu

YOLOv5 Điểm mạnh lớn nhất của nó là tính phổ quát . Nó hoạt động trên mọi thiết bị, từ máy chủ đám mây đến Raspberry Pi và iPhone. CoreML Chiến lược đào tạo "túi quà tặng miễn phí" của nó đảm bảo hiệu suất cao mà không cần thiết lập phức tạp. Trong khi đó, yếu tố cơ bản của nó... mAP TRÊN COCO thấp hơn so với các mô hình nghiên cứu mới hơn như DAMO- YOLO Nhờ độ tin cậy thực tế, khả năng xuất khẩu và sự hỗ trợ mạnh mẽ từ cộng đồng, nó luôn giữ được tính актуальность cao.

Tìm hiểu thêm về YOLOv5

Điểm chuẩn hiệu suất

Bảng sau đây so sánh hiệu năng của cả hai mô hình. Lưu ý rằng DAMO- YOLO ưu tiên mAP thông qua việc tối ưu hóa NAS chuyên sâu, trong khi YOLOv5 Cân bằng giữa tốc độ và sự dễ dàng xuất khẩu.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Bối cảnh Hiệu suất

Trong khi DAMO- YOLO cho thấy mức độ cao hơn mAP Đối với các mô hình có kích thước tương tự, tốc độ suy luận thực tế thường phụ thuộc vào khả năng hỗ trợ phần cứng cho các lớp cụ thể (như các khối RepVGG), điều này có thể yêu cầu các bước xuất cụ thể để gấp gọn đúng cách. YOLOv5 Các thao tác tiêu chuẩn của 's được tối ưu hóa đồng bộ trên hầu hết các công cụ suy luận.

Đề xuất Trường hợp Sử dụng

Khi lựa chọn giữa hai kiến ​​trúc này, hãy xem xét các nhu cầu cụ thể của môi trường triển khai của bạn.

Các kịch bản lý tưởng cho DAMO-YOLO

  • Nghiên cứu học thuật: Nếu mục tiêu của bạn là nghiên cứu NAS hoặc muốn tối ưu hóa đến từng 0,1% cuối cùng. mAP cho một cuộc thi, DAMO- YOLO Kiến trúc độc đáo của nơi này tạo ra một môi trường thuận lợi cho việc thử nghiệm.
  • Triển khai GPU cao cấp: Nơi các ràng buộc về bộ nhớ và sức mạnh tính toán không quá khắt khe, và tiêu chí chính là độ chính xác trên các bài kiểm tra hiệu năng phức tạp.

Các kịch bản lý tưởng cho Ultralytics YOLOv5

  • Triển khai tại biên: Dành cho các thiết bị như... NVIDIA Jetson hoặc Raspberry Pi, YOLOv5 Kiến trúc đơn giản của nó cho phép xuất khẩu liền mạch sang TensorRTTFLite .
  • Tạo mẫu nhanh: Trải nghiệm "từ con số không đến thành công" cho phép bạn huấn luyện trên tập dữ liệu tùy chỉnh và xem kết quả chỉ trong vài phút.
  • Hệ thống sản xuất: Tính ổn định là yếu tố then chốt. YOLOv5 Đã được kiểm chứng qua hàng triệu lần triển khai, giúp giảm thiểu rủi ro xảy ra sự cố bất ngờ trong quy trình sản xuất.

Lợi thế của Ultralytics

Trong khi DAMO- YOLO trình bày những đóng góp nghiên cứu thú vị, Ultralytics Hệ sinh thái này mang lại những lợi thế riêng biệt cho các nhà phát triển xây dựng ứng dụng thực tế.

1. Dễ sử dụng & Hệ sinh thái

Nền tảng Ultralytics hợp nhất toàn bộ quy trình làm việc. Bạn có thể quản lý tập dữ liệu, huấn luyện mô hình trên đám mây và triển khai đến nhiều điểm cuối khác nhau mà không cần rời khỏi hệ sinh thái. Tài liệu hướng dẫn rất đầy đủ và cộng đồng người dùng năng động, đảm bảo bạn sẽ không bao giờ bị mắc kẹt với lỗi nào quá lâu.

2. Tính linh hoạt vượt trội

DAMO- YOLO Về cơ bản, nó là một thiết bị phát hiện đối tượng. Ngược lại, Ultralytics Các mô hình hỗ trợ nhiều nhiệm vụ đa dạng hơn, vốn rất cần thiết cho các ứng dụng trí tuệ nhân tạo hiện đại:

3. Hiệu quả bộ nhớ và tài nguyên

Ultralytics YOLO Các mô hình này nổi tiếng về khả năng sử dụng bộ nhớ hiệu quả. Không giống như các kiến ​​trúc nặng về bộ biến đổi hoặc các đường ống chưng cất phức tạp ngốn nhiều VRAM, các mô hình như... YOLOv5 Và YOLO26 thường có thể được huấn luyện trên các GPU dành cho người tiêu dùng (như RTX 3060), giúp dân chủ hóa việc tiếp cận huấn luyện AI cao cấp.

4. Hiệu quả đào tạo

Đào tạo một DAMO- YOLO Mô hình này thường bao gồm một giai đoạn "chắt lọc" phức tạp, đòi hỏi một mô hình giáo viên đã được đào tạo trước. Ultralytics Các mô hình sử dụng phương pháp "túi quà tặng miễn phí" được đơn giản hóa. Bạn tải các trọng số đã được huấn luyện trước, trỏ đến cấu hình dữ liệu của mình và quá trình huấn luyện bắt đầu ngay lập tức với các siêu tham số được tối ưu hóa.

Hướng tới tương lai: YOLO26

Nếu bạn đang bắt đầu một dự án mới vào năm 2026, thì không phải lựa chọn nào trong số những lựa chọn trên là tối ưu nhất. YOLO26 đại diện cho đỉnh cao của hiệu quả.

  • NMS từ đầu đến cuối - Miễn phí: Bằng cách loại bỏ Non-Maximum Suppression ( NMS ), YOLO26 đơn giản hóa logic triển khai và giảm sự biến thiên độ trễ suy luận.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ huấn luyện LLM, bộ tối ưu hóa này đảm bảo hội tụ ổn định và thời gian huấn luyện nhanh hơn.
  • Tối ưu hóa tại biên: Với việc loại bỏ tổn hao tiêu điểm phân tán (DFL) và các khối được tối ưu hóa, YOLO26 đạt được tốc độ suy luận nhanh hơn tới 43% trên CPU so với các thế hệ trước, trở thành lựa chọn vượt trội cho các ứng dụng di động và IoT.

Tìm hiểu thêm về YOLO26

Ví dụ mã: Suy luận với Ultralytics

Sự đơn giản của Ultralytics API cho phép bạn chuyển đổi giữa các thế hệ mô hình một cách dễ dàng.

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize and save the results
for result in results:
    result.show()  # Display to screen
    result.save(filename="output.jpg")  # Save image to disk

Kết luận

Cả DAMO- YOLO Và YOLOv5 đã đóng vai trò quan trọng trong lịch sử phát hiện đối tượng. DAMO- YOLO đã thể hiện tiềm năng của Tìm kiếm Kiến trúc Mạng thần kinh, trong khi YOLOv5 Ultralytics YOLO26 là sự lựa chọn tối ưu cho các ứng dụng thị giác máy tính hiện đại.

Để tìm hiểu sâu hơn, hãy xem xét so sánh với các kiến ​​trúc khác như YOLO11 so với EfficientDet hoặc RT-DETR so với YOLOv8 .


Bình luận