Chuyển đến nội dung

DAMO-YOLO vs. YOLOv5: Phân tích chuyên sâu về Phát hiện đối tượng thời gian thực

Sự phát triển của thị giác máy tính được đánh dấu bằng những đổi mới liên tục trong việc phát hiện đối tượng theo thời gian thực. Ngày nay, các nhà phát triển và nhà nghiên cứu phải đối mặt với vô số lựa chọn kiến ​​trúc khi thiết kế các hệ thống xử lý hình ảnh. Bài so sánh kỹ thuật toàn diện này sẽ khám phá những điểm khác biệt giữa DAMO YOLOUltralytics YOLOv5 , làm nổi bật kiến ​​trúc, phương pháp huấn luyện, chỉ số hiệu suất và kịch bản triển khai lý tưởng của chúng.

Giới thiệu về DAMO- YOLO

Được phát hành bởi Tập đoàn Alibaba, DAMO- YOLO Đã giới thiệu một số kỹ thuật mới nhằm mục đích đẩy mạnh giới hạn về tốc độ và độ chính xác phát hiện.

Tìm hiểu thêm về DAMO-YOLO

Đổi mới Kiến trúc

DAMO-YOLO được xây dựng trên nền tảng Neural Architecture Search (NAS). Các tác giả đã sử dụng MAE-NAS để tự động thiết kế các kiến trúc xương sống (backbone) cân bằng giữa độ trễ và độ chính xác. Mô hình giới thiệu một RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả giúp cải thiện hợp nhất đặc trưng (feature fusion) trên các tỷ lệ khác nhau. Hơn nữa, DAMO-YOLO tích hợp thiết kế "ZeroHead", loại bỏ các đầu dự đoán đa nhánh phức tạp để ưu tiên một cấu trúc đơn giản, hiệu quả hơn, phụ thuộc nhiều vào rep-parameterization trong quá trình suy luận.

Để cải thiện quá trình huấn luyện, mô hình sử dụng AlignedOTA để gán nhãn và quy trình tăng cường chưng cất mạnh, trong đó một mô hình "giáo viên" lớn hơn hướng dẫn mô hình "học sinh" nhỏ hơn để đạt được độ chính xác cao hơn.

Giới thiệu về Ultralytics YOLOv5

Ultralytics YOLOv5 Đây là một trong những kiến ​​trúc thị giác được áp dụng rộng rãi nhất trên thế giới, nổi tiếng về tính ổn định, dễ sử dụng và hệ sinh thái triển khai rộng lớn.

Tìm hiểu thêm về YOLOv5

Tiêu chuẩn hệ sinh thái

YOLOv5 Đã định nghĩa lại tiêu chuẩn ngành về khả năng sử dụng. Được xây dựng nguyên bản bằng PyTorch , nó sử dụng kiến ​​trúc xương sống CSPNet được tối ưu hóa cao và phần cổ PANet để tổng hợp các đặc trưng mạnh mẽ. Mặc dù nó ra đời trước xu hướng không sử dụng anchor được thấy trong các mô hình sau này, nhưng phương pháp dựa trên anchor được tinh chỉnh cao, kết hợp với việc học anchor tự động, đảm bảo hiệu suất tuyệt vời ngay từ đầu.

Sức mạnh thực sự của YOLOv5 Điểm mạnh của nó nằm ở hệ sinh thái được duy trì tốt . Nó tích hợp liền mạch với các công cụ theo dõi như CometWeights & Biases , đồng thời hỗ trợ xuất dữ liệu chỉ bằng một cú nhấp chuột sang các định dạng như ONNX , TensorRTCoreML .

Bắt đầu với YOLOv5

YOLOv5 Nó cực kỳ dễ huấn luyện trên các tập dữ liệu tùy chỉnh. API được tối ưu hóa giúp giảm thiểu khó khăn từ giai đoạn nguyên mẫu đến sản xuất, khiến nó trở thành lựa chọn ưa thích của các nhóm kỹ thuật theo phương pháp Agile.

So sánh hiệu năng và số liệu

Khi so sánh các mô hình này, điều quan trọng là phải xem xét sự cân bằng của độ chính xác trung bình (Average Precision) ( mAP ), tốc độ suy luận và số lượng tham số.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Phân tích các đánh đổi

DAMO-YOLO đạt được điểm mAP ấn tượng đối với kích thước tham số của nó, hưởng lợi rất nhiều từ giai đoạn đào tạo chưng cất. Tuy nhiên, điều này phải trả giá bằng Hiệu quả đào tạo. Quá trình chưng cất đa giai đoạn yêu cầu đào tạo một mô hình teacher nặng trước, điều này làm tăng đáng kể thời gian tính toán GPU cần thiết và VRAM.

Ngược lại, YOLOv5 cung cấp Yêu cầu Bộ nhớ tuyệt vời. Các mô hình Ultralytics YOLO nổi tiếng với việc sử dụng bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận so với các pipeline chưng cất phức tạp hoặc các mô hình dựa trên transformer như RT-DETR. Điều này cho phép YOLOv5 được huấn luyện hiệu quả trên phần cứng cấp người tiêu dùng hoặc các môi trường đám mây dễ tiếp cận như Google Colab.

Ứng dụng thực tế và tính linh hoạt

Việc lựa chọn kiến trúc phù hợp thường phụ thuộc vào môi trường triển khai.

Điểm mạnh của DAMO-YOLO

DAMO-YOLO là một mô hình object detection thuần túy. Đây là một lựa chọn tuyệt vời cho nghiên cứu học thuật, đặc biệt đối với các nhóm nghiên cứu Neural Architecture Search hoặc những người muốn tái tạo các kỹ thuật rep-parameterization được trình bày chi tiết trong bài báo. Nếu một dự án có nguồn lực tính toán lớn để thực hiện giai đoạn huấn luyện chưng cất (distillation training) và chỉ tập trung vào việc tối ưu hóa từng phần nhỏ độ chính xác cho các hộp giới hạn 2D, DAMO-YOLO là một ứng cử viên mạnh mẽ.

Lợi thế của Ultralytics

Đối với sản xuất thực tế, tính dễ sử dụngtính linh hoạt của Ultralytics Các mẫu mã khiến chúng trở thành sự lựa chọn ưu tiên. Trong khi đó, YOLOv5 vẫn là một công cụ thiết yếu cho việc phát hiện và phân loại hình ảnh , rộng hơn Ultralytics Hệ sinh thái này cho phép các nhà phát triển dễ dàng chuyển đổi giữa các tác vụ.

Ví dụ, các phiên bản mới hơn trong Ultralytics Hệ thống này hỗ trợ sẵn phân đoạn đối tượng, ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) . Khả năng đa nhiệm này đảm bảo các nhóm có thể sử dụng một hệ thống duy nhất, thống nhất. Python API dành cho các quy trình phức tạp, chẳng hạn như kết hợp nhận dạng biển số xe tự động với phân đoạn phương tiện.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa DAMO-YOLO và YOLOv5 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO là một lựa chọn mạnh mẽ cho:

  • Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên chọn YOLOv5

YOLOv5 được khuyến nghị cho:

  • Hệ thống sản xuất đã được chứng minh: Các triển khai hiện có nơi hồ sơ track ổn định lâu dài, tài liệu phong phú và sự hỗ trợ cộng đồng lớn của YOLOv5 được đánh giá cao.
  • Huấn luyện hạn chế tài nguyên: Môi trường có tài nguyên GPU hạn chế, nơi quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 là một lợi thế.
  • Hỗ trợ định dạng xuất rộng rãi: Các dự án yêu cầu triển khai trên nhiều định dạng, bao gồm ONNX, TensorRT, CoreMLTFLite.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
  • Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Tương lai: Chuyển sang YOLO26

Trong khi YOLOv5 là huyền thoại và DAMO- YOLO Cung cấp những hiểu biết học thuật thú vị, công nghệ tiên tiến đã phát triển. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho một bước tiến vượt bậc đối với cộng đồng thị giác máy tính.

Tìm hiểu thêm về YOLO26

YOLO26 giải quyết các vấn đề tắc nghẽn truyền thống trong triển khai và đào tạo thiết bị biên:

  • Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 tự nhiên loại bỏ hậu xử lý Non-Maximum Suppression. Bước đột phá này đơn giản hóa logic triển khai và giảm đáng kể sự biến động độ trễ, làm cho nó lý tưởng cho robotics tốc độ cao và các hệ thống tự hành.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện LLM (như Kimi K2 của Moonshot AI), YOLO26 sử dụng trình tối ưu hóa MuSGD (một sự kết hợp giữa SGD và Muon). Điều này đảm bảo các lần huấn luyện rất ổn định và khả năng hội tụ nhanh hơn đáng kể.
  • Tăng tốc suy luận trên CPU lên đến 43%: Bằng cách loại bỏ chiến lược Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ vượt trội đáng kể trên CPU và các thiết bị biên so với các phiên bản tiền nhiệm như YOLO11YOLOv8.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải thiện đáng kể trong nhận diện vật thể nhỏ, điều này rất quan trọng để phân tích hình ảnh máy bay không người lái từ trên không và dữ liệu từ cảm biến IoT.

Ví dụ Mã nguồn: Sự Đơn giản trong Thực tế

Cái Ultralytics Gói này cho phép bạn huấn luyện và triển khai các mô hình chỉ với một vài dòng mã. Cho dù bạn đang sử dụng YOLOv5 Cho dù bạn nâng cấp lên YOLO26 được khuyến nghị, giao diện vẫn nhất quán và trực quan.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

Kết luận

Cả DAMO-YOLO và YOLOv5 đều đã đóng góp đáng kể vào bức tranh toàn cảnh của thị giác máy tính. DAMO-YOLO thể hiện sức mạnh của Tìm kiếm Kiến trúc Mạng thần kinh (Neural Architecture Search) và chưng cất (distillation), biến nó thành một nghiên cứu thú vị cho các nhà khoa học. Tuy nhiên, YOLOv5 vẫn là một công cụ mạnh mẽ và thực tiễn nhờ vào Sự cân bằng hiệu suất, yêu cầu bộ nhớ thấp và tính dễ sử dụng vượt trội.

Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, lời khuyên là nên tận dụng Nền tảng Ultralytics và sử dụng YOLO26 . Nó kết hợp hệ sinh thái thân thiện với người dùng được yêu thích của... YOLOv5 Với những tiến bộ kiến ​​trúc đột phá, đảm bảo độ chính xác hàng đầu và tốc độ suy luận cực nhanh cho cả ứng dụng AI trên đám mây và thiết bị biên. Các nhà phát triển cũng có thể muốn khám phá các mô hình hiệu quả khác như YOLOv6 hoặc YOLOX tùy thuộc vào các hạn chế phần cứng cũ cụ thể.


Bình luận