Chuyển đến nội dung

DAMO- YOLO so với YOLOv5 Khám phá chuyên sâu về phát hiện đối tượng trong thời gian thực

Sự phát triển của thị giác máy tính được đánh dấu bằng những đổi mới liên tục trong việc phát hiện đối tượng theo thời gian thực. Ngày nay, các nhà phát triển và nhà nghiên cứu phải đối mặt với vô số lựa chọn kiến ​​trúc khi thiết kế các hệ thống xử lý hình ảnh. Bài so sánh kỹ thuật toàn diện này sẽ khám phá những điểm khác biệt giữa DAMO YOLOUltralytics YOLOv5 , làm nổi bật kiến ​​trúc, phương pháp huấn luyện, chỉ số hiệu suất và kịch bản triển khai lý tưởng của chúng.

Giới thiệu về DAMO- YOLO

Được phát hành bởi Tập đoàn Alibaba, DAMO- YOLO Đã giới thiệu một số kỹ thuật mới nhằm mục đích đẩy mạnh giới hạn về tốc độ và độ chính xác phát hiện.

Tìm hiểu thêm về DAMO-YOLO

Đổi mới Kiến trúc

DAMO- YOLO được xây dựng trên nền tảng Tìm kiếm Kiến trúc Mạng thần kinh (NAS). Các tác giả đã sử dụng MAE-NAS để tự động thiết kế các mạng xương sống cân bằng giữa độ trễ và độ chính xác. Mô hình giới thiệu một RepGFPN (Mạng kim tự tháp đặc trưng tổng quát được tham số hóa lại) hiệu quả, giúp cải thiện sự kết hợp đặc trưng trên các quy mô khác nhau. Hơn nữa, DAMO- YOLO Nó tích hợp thiết kế "ZeroHead", loại bỏ các đầu dự đoán đa nhánh phức tạp để thay thế bằng một cấu trúc đơn giản hơn, hiệu quả hơn, dựa nhiều vào tham số hóa biểu diễn trong quá trình suy luận.

Để cải thiện quá trình huấn luyện, mô hình sử dụng AlignedOTA để gán nhãn và quy trình tăng cường chưng cất mạnh, trong đó một mô hình "giáo viên" lớn hơn hướng dẫn mô hình "học sinh" nhỏ hơn để đạt được độ chính xác cao hơn.

Giới thiệu về Ultralytics YOLOv5

Ultralytics YOLOv5 Đây là một trong những kiến ​​trúc thị giác được áp dụng rộng rãi nhất trên thế giới, nổi tiếng về tính ổn định, dễ sử dụng và hệ sinh thái triển khai rộng lớn.

Tìm hiểu thêm về YOLOv5

Tiêu chuẩn hệ sinh thái

YOLOv5 Đã định nghĩa lại tiêu chuẩn ngành về khả năng sử dụng. Được xây dựng nguyên bản bằng PyTorch , nó sử dụng kiến ​​trúc xương sống CSPNet được tối ưu hóa cao và phần cổ PANet để tổng hợp các đặc trưng mạnh mẽ. Mặc dù nó ra đời trước xu hướng không sử dụng anchor được thấy trong các mô hình sau này, nhưng phương pháp dựa trên anchor được tinh chỉnh cao, kết hợp với việc học anchor tự động, đảm bảo hiệu suất tuyệt vời ngay từ đầu.

Sức mạnh thực sự của YOLOv5 Điểm mạnh của nó nằm ở hệ sinh thái được duy trì tốt . Nó tích hợp liền mạch với các công cụ theo dõi như CometWeights & Biases , đồng thời hỗ trợ xuất dữ liệu chỉ bằng một cú nhấp chuột sang các định dạng như ONNX , TensorRTCoreML .

Bắt đầu với YOLOv5

YOLOv5 Nó cực kỳ dễ huấn luyện trên các tập dữ liệu tùy chỉnh. API được tối ưu hóa giúp giảm thiểu khó khăn từ giai đoạn nguyên mẫu đến sản xuất, khiến nó trở thành lựa chọn ưa thích của các nhóm kỹ thuật theo phương pháp Agile.

So sánh hiệu năng và số liệu

Khi so sánh các mô hình này, điều quan trọng là phải xem xét sự cân bằng của độ chính xác trung bình (Average Precision) ( mAP ), tốc độ suy luận và số lượng tham số.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Phân tích các đánh đổi

DAMO- YOLO đạt được ấn tượng mAP Điểm số của nó phụ thuộc vào kích thước tham số, hưởng lợi rất nhiều từ giai đoạn huấn luyện chưng cất. Tuy nhiên, điều này lại làm giảm hiệu quả huấn luyện . Quá trình chưng cất nhiều giai đoạn yêu cầu huấn luyện một mô hình giáo viên nặng ký trước, điều này làm tăng đáng kể thời gian tính toán GPU và VRAM cần thiết.

Ngược lại, YOLOv5 lại có yêu cầu bộ nhớ rất tốt. Ultralytics YOLO Các mô hình này được biết đến với mức sử dụng bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận so với các quy trình chưng cất phức tạp hoặc các mô hình dựa trên transformer như RT-DETR . Điều này cho phép YOLOv5 Được đào tạo hiệu quả trên phần cứng dành cho người tiêu dùng hoặc môi trường đám mây dễ tiếp cận như Google Colab .

Ứng dụng thực tế và tính linh hoạt

Việc lựa chọn kiến ​​trúc phù hợp thường phụ thuộc vào môi trường triển khai.

Điểm mạnh của DAMO-YOLO

DAMO- YOLO DAMO- là một mô hình chuyên dụng để phát hiện đối tượng . Đây là lựa chọn tuyệt vời cho nghiên cứu học thuật, đặc biệt là đối với các nhóm nghiên cứu về Tìm kiếm Kiến trúc Mạng nơ-ron hoặc những nhóm muốn tái tạo các kỹ thuật tham số hóa được mô tả chi tiết trong bài báo. Nếu một dự án có nguồn tài nguyên tính toán dồi dào để thực hiện giai đoạn huấn luyện chưng cất và chỉ tập trung vào việc tối ưu hóa độ chính xác cho các hộp giới hạn 2D, thì DAMO- là một lựa chọn phù hợp. YOLO là một ứng cử viên nặng ký.

Lợi thế của Ultralytics

Đối với sản xuất thực tế, tính dễ sử dụngtính linh hoạt của Ultralytics Các mẫu mã khiến chúng trở thành sự lựa chọn ưu tiên. Trong khi đó, YOLOv5 vẫn là một công cụ thiết yếu cho việc phát hiện và phân loại hình ảnh , rộng hơn Ultralytics Hệ sinh thái này cho phép các nhà phát triển dễ dàng chuyển đổi giữa các tác vụ.

Ví dụ, các phiên bản mới hơn trong Ultralytics Hệ thống này hỗ trợ sẵn phân đoạn đối tượng, ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) . Khả năng đa nhiệm này đảm bảo các nhóm có thể sử dụng một hệ thống duy nhất, thống nhất. Python API dành cho các quy trình phức tạp, chẳng hạn như kết hợp nhận dạng biển số xe tự động với phân đoạn phương tiện.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa DAMO- YOLO Và YOLOv5 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn DAMO-YOLO

DAMO- YOLO là một lựa chọn tốt cho:

  • Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu tìm kiếm kiến ​​trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến ​​trúc tự động (MAE-NAS) và các kiến ​​trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.

Khi nào nên chọn YOLOv5

YOLOv5 được khuyến nghị cho:

  • Hệ thống sản xuất đã được chứng minh: Các triển khai hiện có trong đó YOLOv5 Dài track Lịch sử hoạt động ổn định, hệ thống tài liệu đầy đủ và sự ủng hộ mạnh mẽ từ cộng đồng được đánh giá cao.
  • Đào tạo trong điều kiện nguồn lực hạn chế: Môi trường có nguồn lực hạn chế GPU nguồn lực ở đâu YOLOv5 Quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn là những lợi thế của nó.
  • Hỗ trợ định dạng xuất khẩu đa dạng: Các dự án yêu cầu triển khai trên nhiều định dạng khác nhau, bao gồm ONNX , TensorRT , CoreMLTFLite .

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Tương lai: Chuyển sang YOLO26

Trong khi YOLOv5 là huyền thoại và DAMO- YOLO Cung cấp những hiểu biết học thuật thú vị, công nghệ tiên tiến đã phát triển. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho một bước tiến vượt bậc đối với cộng đồng thị giác máy tính.

Tìm hiểu thêm về YOLO26

YOLO26 giải quyết các vấn đề tắc nghẽn truyền thống trong triển khai và đào tạo thiết bị biên:

  • Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression. Bước đột phá này giúp đơn giản hóa logic triển khai và giảm đáng kể sự biến động độ trễ, lý tưởng cho robot tốc độ cao và hệ thống tự hành.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM (như Kimi K2 của Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa MuSGD (một sự kết hợp giữa...). SGD và Muon). Điều này đảm bảo các lần chạy huấn luyện cực kỳ ổn định và sự hội tụ nhanh hơn đáng kể.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ một cách chiến lược hàm mất mát tiêu điểm phân phối (DFL), YOLO26 đạt được tốc độ vượt trội hơn hẳn trên CPU và các thiết bị biên so với các phiên bản tiền nhiệm như YOLO11YOLOv8 .
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, điều rất quan trọng để phân tích ảnh chụp từ máy bay không người lái và dữ liệu cảm biến IoT.

Ví dụ Mã nguồn: Sự Đơn giản trong Thực tế

Cái Ultralytics Gói này cho phép bạn huấn luyện và triển khai các mô hình chỉ với một vài dòng mã. Cho dù bạn đang sử dụng YOLOv5 Cho dù bạn nâng cấp lên YOLO26 được khuyến nghị, giao diện vẫn nhất quán và trực quan.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

Kết luận

Cả DAMO- YOLO Và YOLOv5 đã đóng góp đáng kể vào lĩnh vực thị giác máy tính. DAMO- YOLO Nó thể hiện sức mạnh của tìm kiếm và chắt lọc kiến ​​trúc mạng thần kinh, khiến nó trở thành một nghiên cứu thú vị cho các nhà nghiên cứu. Tuy nhiên, YOLOv5 vẫn là một công cụ mạnh mẽ và thiết thực nhờ sự cân bằng hiệu năng , yêu cầu bộ nhớ thấp và khả năng sử dụng dễ dàng vượt trội.

Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, lời khuyên là nên tận dụng Nền tảng Ultralytics và sử dụng YOLO26 . Nó kết hợp hệ sinh thái thân thiện với người dùng được yêu thích của... YOLOv5 Với những tiến bộ kiến ​​trúc đột phá, đảm bảo độ chính xác hàng đầu và tốc độ suy luận cực nhanh cho cả ứng dụng AI trên đám mây và thiết bị biên. Các nhà phát triển cũng có thể muốn khám phá các mô hình hiệu quả khác như YOLOv6 hoặc YOLOX tùy thuộc vào các hạn chế phần cứng cũ cụ thể.


Bình luận