Chuyển đến nội dung

YOLOv10 vs. DAMO- YOLO Sự phát triển của các kiến ​​trúc phát hiện đối tượng thời gian thực

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc tìm kiếm sự cân bằng tối ưu giữa độ trễ và độ chính xác thúc đẩy sự đổi mới không ngừng. Hai cột mốc quan trọng trong hành trình này là YOLOv10 , nổi tiếng với những cải tiến đột phá. NMS - huấn luyện miễn phí, và DAMO- YOLO , tận dụng Tìm kiếm Kiến trúc Thần kinh (NAS) để đẩy giới hạn hiệu quả. Bài so sánh này khám phá những điểm khác biệt về kiến ​​trúc, các chỉ số hiệu suất và sự phù hợp của chúng đối với các ứng dụng AI hiện đại.

Phân tích các chỉ số hiệu suất

Bảng sau đây trình bày so sánh chi tiết các chỉ số hiệu năng chính. YOLOv10 thể hiện hiệu quả vượt trội trong việc sử dụng tham số và tốc độ suy luận trên các GPU hiện đại, đặc biệt là đối với các biến thể mô hình lớn hơn.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOv10: Tiên phong End-to-End

Được các nhà nghiên cứu từ Đại học Thanh Hoa công bố vào tháng 5 năm 2024, YOLOv10 đã tạo ra một sự thay đổi mang tính đột phá bằng cách loại bỏ nhu cầu về phương pháp ức chế không tối đa (Non-Maximum Suppression). NMS Kiến trúc này giải quyết sự biến thiên độ trễ thường do các bước xử lý hậu kỳ trong các bộ dò truyền thống gây ra.

Các tính năng kiến trúc chính

  • NMS - Đào tạo miễn phí: Sử dụng các bài tập kép nhất quán cho NMS - Không cần huấn luyện, cho phép mô hình dự đoán trực tiếp một hộp giới hạn duy nhất cho mỗi đối tượng. Điều này rất quan trọng đối với các ứng dụng yêu cầu độ trễ có thể dự đoán được, chẳng hạn như xe tự hành hoặc robot công nghiệp.
  • Thiết kế hiệu quả-chính xác toàn diện: Các tác giả, Ao Wang và cộng sự, đã tối ưu hóa nhiều thành phần bao gồm cả trục chính và đầu đọc để giảm sự dư thừa về mặt tính toán.
  • Đầu phân loại trọng lượng nhẹ: Giảm thiểu chi phí hoạt động của nhánh phân loại, vốn thường là điểm nghẽn trong các bộ dò không cần neo.

Bạn có thể chạy YOLOv10 trực tiếp thông qua Ultralytics Python API được hưởng lợi từ giao diện tiêu chuẩn hóa.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")
results[0].show()

Tìm hiểu thêm về YOLOv10

DAMO- YOLO Tìm kiếm kiến ​​trúc mạng nơ-ron ở quy mô lớn

DAMO- YOLO , được phát triển bởi Tập đoàn Alibaba và ra mắt vào tháng 11 năm 2022, tập trung vào việc tự động tìm kiếm các kiến ​​trúc hiệu quả. Bằng cách sử dụng Tìm kiếm Kiến trúc Thần kinh (NAS), nhóm nghiên cứu đặt mục tiêu tìm ra độ sâu và chiều rộng tối ưu cho các mạng xương sống phát hiện trong điều kiện ngân sách tính toán nghiêm ngặt.

Các tính năng kiến trúc chính

  • Kiến trúc xương sống MAE-NAS: Sử dụng thuật toán tìm kiếm tiến hóa đa mục tiêu để tìm ra các kiến ​​trúc xương sống cân bằng giữa độ chính xác phát hiện và tốc độ suy luận.
  • RepGFPN hiệu quả: Thiết kế cổ dày giúp cải thiện khả năng kết hợp các đặc điểm, rất quan trọng để phát hiện các đối tượng ở nhiều tỷ lệ khác nhau, chẳng hạn như trong phân tích ảnh chụp từ trên không .
  • ZeroHead: Một đầu detect được đơn giản hóa giúp giảm độ phức tạp của các lớp dự đoán cuối cùng.

Trong khi DAMO- YOLO Mặc dù mang lại hiệu năng mạnh mẽ, nhưng việc phụ thuộc vào các quy trình NAS phức tạp có thể gây khó khăn cho các nhà phát triển thông thường trong việc đào tạo lại hoặc sửa đổi kiến ​​trúc cho các tập dữ liệu tùy chỉnh so với cấu hình thân thiện với người dùng của các mô hình Ultralytics .

Lợi thế của Ultralytics: Giới thiệu YOLO26

Trong khi YOLOv10 và DAMO- YOLO Đã thể hiện những bước tiến đáng kể, lĩnh vực này vẫn tiếp tục phát triển. Ultralytics YOLO26 được xây dựng dựa trên nền tảng đó. NMS -di sản miễn phí của YOLOv10 nhưng tích hợp nó vào một hệ sinh thái mạnh mẽ hơn, sẵn sàng cho sản xuất.

Tại sao chọn Ultralytics?

Ultralytics Cung cấp một hệ sinh thái được duy trì tốt , đảm bảo các mô hình của bạn không chỉ hoạt động tốt hiện tại mà còn tiếp tục hoạt động khi các thư viện phần cứng và phần mềm phát triển. Không giống như nhiều kho lưu trữ học thuật khác, Ultralytics Cung cấp các bản cập nhật thường xuyên, tài liệu đầy đủ và tích hợp liền mạch với các công cụ triển khai như TensorRT và... OpenVINO .

Những đổi mới của YOLO26

Đối với các nhà phát triển đang tìm kiếm tốc độ và độ chính xác tốt nhất tuyệt đối, YOLO26 mang đến một số cải tiến quan trọng so với các phiên bản trước đó:

  1. NMS từ đầu đến cuối - Miễn phí: Giống như YOLOv10 YOLO26 vốn dĩ là một hệ thống end-to-end. Tuy nhiên, nó còn tinh chỉnh thêm điều này bằng cách loại bỏ hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL), giúp đơn giản hóa đồ thị mô hình để tương thích tốt hơn với các thiết bị biên và chip công suất thấp.
  2. Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM (cụ thể là Kimi K2 của Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa MuSGD . Sự kết hợp này của... SGD và Muon mang lại sự ổn định chưa từng có cho quá trình huấn luyện, cho phép hội tụ nhanh hơn và giảm thiểu... GPU giờ.
  3. Tối ưu hóa CPU : YOLO26 được tối ưu hóa đặc biệt cho điện toán biên, mang lại khả năng suy luận nhanh hơn tới 43% trên CPU . Điều này làm cho nó trở thành lựa chọn lý tưởng cho các ứng dụng IoT trong trường hợp không có GPU.
  4. Các hàm mất mát được cải tiến: Việc giới thiệu ProgLossSTAL (Học neo tự học) giúp cải thiện đáng kể hiệu suất trên các đối tượng nhỏ và nền phức tạp.

Tìm hiểu thêm về YOLO26

Các trường hợp sử dụng so sánh

Việc lựa chọn mô hình phù hợp phụ thuộc rất nhiều vào các ràng buộc triển khai cụ thể và yêu cầu quy trình làm việc của bạn.

Khi nào nên sử dụng DAMO-YOLO

DAMO- YOLO Đây là một ứng cử viên sáng giá cho các kịch bản nghiên cứu liên quan đến Tìm kiếm Kiến trúc Mạng thần kinh (NAS) . Nếu dự án của bạn yêu cầu nghiên cứu cách các chiến lược tìm kiếm tự động ảnh hưởng đến việc trích xuất đặc trưng, ​​hoặc nếu bạn đang tích hợp sâu vào hệ sinh thái Alibaba, mô hình này sẽ cung cấp những hiểu biết có giá trị. Mô-đun RepGFPN của nó cũng là một tài liệu tham khảo tuyệt vời cho các nghiên cứu về kết hợp đặc trưng.

Khi nào nên sử dụng YOLOv10

YOLOv10 Nó rất phù hợp cho các ứng dụng mà độ trễ biến thiên thấp là yếu tố quan trọng. NMS Thiết kế không phụ thuộc vào bộ nhớ đảm bảo thời gian suy luận vẫn ổn định bất kể số lượng đối tượng được phát hiện, điều này rất quan trọng đối với các hệ thống an toàn thời gian thực.

  • Giám sát thời gian thực: Tốc độ khung hình ổn định ngay cả trong những cảnh đông người.
  • Robot học: Thời gian điều khiển có thể dự đoán được.

Vì sao YOLO26 là sự lựa chọn vượt trội?

Đối với phần lớn các nhà phát triển và ứng dụng thương mại, Ultralytics YOLO26 cung cấp gói giải pháp hấp dẫn nhất. Nó kết hợp... NMS - các lợi ích miễn phí của YOLOv10 Với hiệu quả đào tạo vượt trội và hỗ trợ phần cứng rộng rãi.

  • Dễ sử dụng: Huấn luyện, xác thực và triển khai chỉ với một API Python duy nhất.
  • Tính linh hoạt: Không giống như DAMO- YOLO YOLO26 hỗ trợ đầy đủ các tác vụ bao gồm Phân đoạn đối tượng , Ước tính tư thế , Phân loạiHộp giới hạn định hướng (OBB) .
  • Hiệu quả bộ nhớ: YOLO26 yêu cầu ít bộ nhớ hơn đáng kể. CUDA So với các mô hình lai Transformer, bộ nhớ trong quá trình huấn luyện cho phép huấn luyện trên các GPU cấp người tiêu dùng.
  • Tích hợp nền tảng: Xuất dữ liệu liền mạch sang ONNX , CoreML , Và TFLite Thông qua nền tảng Ultralytics , giúp đơn giản hóa quy trình từ nguyên mẫu đến sản phẩm hoàn chỉnh.

Ví dụ mã: Quy trình làm việc YOLO26

Việc chuyển đổi sang công nghệ mới nhất trở nên dễ dàng hơn bao giờ hết với Ultralytics Đoạn mã sau đây minh họa cách tải mô hình YOLO26 hiện đại nhất, chạy suy luận và xuất mô hình để triển khai.

from ultralytics import YOLO

# Load the YOLO26s model (Small version)
model = YOLO("yolo26s.pt")

# Train on COCO8 dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for simplified deployment
model.export(format="onnx", opset=13)

Kết luận

Cả hai YOLOv10 và DAMO- YOLO đã đóng góp những cải tiến có giá trị cho lĩnh vực thị giác máy tính. YOLOv10 đã chứng minh tính khả thi của NMS - Phát hiện miễn phí, trong khi DAMO- YOLO thể hiện sức mạnh của NAS. Tuy nhiên, Ultralytics YOLO26 tổng hợp những tiến bộ này thành một công cụ toàn diện, thân thiện với người dùng và hiệu suất cao. Với tốc độ vượt trội, tính linh hoạt trong tác vụ và sự hỗ trợ của một hệ sinh thái mạnh mẽ, YOLO26 là giải pháp được khuyến nghị cho các nhà phát triển xây dựng thế hệ ứng dụng AI tiếp theo.

Để tìm hiểu thêm, hãy xem xét tài liệu YOLO11 hoặc RT-DETR dựa trên transformer để tham khảo các phương pháp kiến ​​trúc thay thế.


Bình luận