Chuyển đến nội dung

YOLOv6 -3.0 so với DAMO- YOLO Cuộc đối đầu kỹ thuật trong phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính đang không ngừng phát triển, với các kiến ​​trúc mới liên tục mở rộng giới hạn của những gì có thể thực hiện được trong phát hiện đối tượng thời gian thực. Hai ứng cử viên đáng chú ý trong lĩnh vực này là YOLOv6 -3.0 và DAMO- YOLO Cả hai mô hình đều giới thiệu những cải tiến kiến ​​trúc độc đáo được thiết kế để tối đa hóa hiệu suất trên phần cứng công nghiệp. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa hai mô hình này, khám phá kiến ​​trúc, phương pháp đào tạo và các trường hợp sử dụng lý tưởng của chúng, đồng thời giới thiệu những lợi thế thế hệ tiếp theo của... Ultralytics Các mẫu như YOLO26.

Hồ sơ mô hình

YOLOv6 -3.0: Thông lượng cấp công nghiệp

Được phát triển bởi bộ phận Trí tuệ nhân tạo thị giác tại Meituan , YOLOv6 -3.0 được thiết kế đặc biệt cho các ứng dụng công nghiệp có thông lượng cao. Nó tập trung mạnh vào việc tối đa hóa hiệu năng trên các bộ tăng tốc phần cứng như... NVIDIA GPU.

YOLOv6 -3.0 giới thiệu mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC) để cải thiện việc kết hợp đặc trưng và sử dụng chiến lược Huấn luyện hỗ trợ neo (Anchor-Aided Training - AAT). Chiến lược này kết hợp những lợi ích của bộ dò dựa trên neo và không dựa trên neo trong quá trình huấn luyện, đồng thời giữ cho quá trình suy luận hoàn toàn không dựa trên neo. Kiến trúc EfficientRep của nó giúp nó thân thiện hơn với phần cứng. GPU Xử lý theo lô, lý tưởng để xử lý lượng lớn dữ liệu phân tích video .

Tìm hiểu thêm về YOLOv6

DAMO- YOLO Nhanh chóng và chính xác thông qua NAS

Được tạo bởi Tập đoàn Alibaba , DAMO- YOLO Sử dụng công nghệ Tìm kiếm Kiến trúc Mạng thần kinh (NAS) để tự động phát hiện các cấu trúc xương sống hiệu quả nhất cho quá trình suy luận thời gian thực.

DAMO- YOLO Nó nổi bật với RepGFPN (Reparameterized Generalized Feature Pyramid Network) để kết hợp các đặc trưng đa tỷ lệ hiệu quả và thiết kế ZeroHead, giúp giảm đáng kể chi phí tính toán trong đầu phát hiện. Nó cũng tích hợp việc gán nhãn AlignedOTA và các kỹ thuật chưng cất kiến ​​thức mạnh mẽ để tăng độ chính xác mà không làm tăng số lượng tham số của mô hình.

Tìm hiểu thêm về DAMO-YOLO

Phần trên của quá trình chưng cất

Trong khi DAMO- YOLO Mặc dù đạt được độ chính xác tuyệt vời, nhưng việc phụ thuộc nhiều vào quá trình chắt lọc kiến ​​thức trong quá trình huấn luyện đòi hỏi một mô hình "giáo viên" lớn hơn nhiều. Điều này làm tăng đáng kể lượng bộ nhớ CUDA cần thiết trong giai đoạn huấn luyện so với các kiến ​​trúc đơn giản hơn.

So sánh hiệu suất

Khi đánh giá các mô hình phát hiện đối tượng, sự cân bằng giữa độ chính xác trung bình ( mAP ) và tốc độ suy luận là rất quan trọng. Dưới đây là bảng so sánh chi tiết về... YOLOv6 -3.0 và DAMO- YOLO trên các quy mô mô hình khác nhau.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOv6 -3.0 thể hiện tốc độ vượt trội trên NVIDIA GPU sử dụng các tối ưu hóa TensorRT , đặc biệt là trong các biến thể nano và small của nó. Tuy nhiên, DAMO- YOLO Các hệ thống xương sống được tối ưu hóa cho NAS của hãng này thường yêu cầu ít phép tính FLOP hơn ở quy mô vừa và lớn, dẫn đến lợi thế nhỏ về độ trễ đối với các triển khai quy mô lớn hơn.

Lợi thế của Ultralytics: Giới thiệu YOLO26

Trong khi YOLOv6 -3.0 và DAMO- YOLO Mặc dù Ultralytics là những công cụ mạnh mẽ, các nhà phát triển thường gặp khó khăn với các quy trình triển khai phức tạp, yêu cầu bộ nhớ cao trong quá trình huấn luyện và kiến ​​trúc cứng nhắc, đơn nhiệm. Hệ sinh thái Ultralytics cung cấp trải nghiệm phát triển được tối ưu hóa hơn đáng kể.

Với sự ra mắt của YOLO26 , Ultralytics Ultralytics YOLO26 đã định nghĩa lại trí tuệ nhân tạo thị giác tiên tiến nhất. Được phát hành vào tháng 1 năm 2026, YOLO26 đẩy mạnh giới hạn về hiệu quả và tính linh hoạt.

Những cải tiến quan trọng trong YOLO26

  • Thiết kế không cần NMS từ đầu đến cuối: Dựa trên các khái niệm tiên phong trong YOLOv10 , YOLO26 loại bỏ hoàn toàn hiện tượng Non-Maximum Suppression (NMS) ( NMS ) xử lý hậu kỳ. Điều này làm giảm đáng kể sự biến động độ trễ và đơn giản hóa việc triển khai trên các thiết bị biên thông qua CoreML hoặc TFLite .
  • Loại bỏ DFL: Bằng cách loại bỏ hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL), YOLO26 đơn giản hóa quy trình xuất dữ liệu và tăng cường đáng kể khả năng tương thích với các bộ vi điều khiển công suất thấp và phần cứng biên.
  • Suy luận CPU nhanh hơn tới 43%: Dành cho các ứng dụng không có bộ xử lý chuyên dụng. GPU phần cứng, của YOLO26 CPU Các tối ưu hóa mang lại tốc độ vượt trội, hiệu năng vượt xa mong đợi. GPU -các mô hình phụ thuộc như YOLOv6 .
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM như Kimi K2 của Moonshot AI, YOLO26 sử dụng bộ tối ưu hóa MuSGD (một sự kết hợp giữa...) SGD và Muon) để đảm bảo quá trình huấn luyện ổn định và hội tụ nhanh chóng.
  • ProgLoss + STAL: Các hàm suy giảm tiên tiến cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, giúp YOLO26 trở nên hoàn hảo cho các hoạt động máy bay không người lái và theo dõi mục tiêu ở xa.
  • Tính linh hoạt đa nhiệm: Không giống như DAMO- YOLO YOLO26, vốn chỉ là một công cụ phát hiện đối tượng, cung cấp hỗ trợ sẵn có cho Phân đoạn đối tượng ( Instance Segmentation ), Ước tính tư thế (Pose Estimation - thông qua Ước tính logarit xác suất dư - Residual Log-Likelihood Estimation) và Hộp giới hạn định hướng (Oriented Bounding Boxes - OBB) trong một API thống nhất duy nhất.

Tìm hiểu thêm về YOLO26

Huấn luyện trí nhớ hiệu quả

Không giống như các kiến ​​trúc máy biến áp phức tạp như RT-DETR hoặc các đường ống nặng về chưng cất của DAMO- YOLO , Ultralytics Các mô hình này nổi tiếng với dung lượng VRAM sử dụng thấp. Bạn có thể dễ dàng huấn luyện một mô hình YOLO26 trên phần cứng cấp độ người tiêu dùng.

Được tinh giản Python Quy trình làm việc

Việc huấn luyện và triển khai các mô hình tiên tiến không nên đòi hỏi hàng trăm dòng mã lặp đi lặp lại. Ultralytics Python Gói phần mềm này đơn giản hóa vòng đời của máy học .

from ultralytics import YOLO

# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with built-in data handling
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast inference and display results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export seamlessly to ONNX or TensorRT
model.export(format="onnx")

Các trường hợp sử dụng lý tưởng

Việc lựa chọn kiến ​​trúc phù hợp hoàn toàn phụ thuộc vào các ràng buộc triển khai của bạn:

Khi nào nên sử dụng YOLOv6 -3.0

  • Phân tích video khối lượng lớn: Tuyệt vời để xử lý các luồng video dày đặc trong môi trường doanh nghiệp. GPU máy chủ nơi TensorRT có thể được tận dụng tối đa.
  • Tự động hóa công nghiệp: Dây chuyền sản xuất tốc độ cao thực hiện kiểm soát chất lượng và phát hiện lỗi.

Khi nào nên sử dụng DAMO-YOLO

  • Silicon tùy chỉnh: Nghiên cứu kiến ​​trúc mạng thần kinh. Tìm kiếm bản đồ lập bản đồ cho phần cứng NPU độc quyền, chuyên dụng.
  • Nghiên cứu học thuật: So sánh hiệu suất các kỹ thuật chắt lọc tri thức mới cho mạng thời gian thực.

Khi nào nên sử dụng Ultralytics YOLO26

  • Triển khai thiết bị biên và thiết bị di động: NMS - Thiết kế miễn phí, loại bỏ DFL và 43% CPU Khả năng tăng tốc giúp nó trở thành nhà vô địch không thể tranh cãi. iOS , Android và tích hợp với Raspberry Pi .
  • Từ nguyên mẫu nhanh đến sản xuất hàng loạt: Sự tích hợp liền mạch với Nền tảng Ultralytics cho phép các nhóm chuyển từ việc chú thích dữ liệu đến triển khai trên đám mây toàn cầu chỉ trong vài ngày, thay vì vài tháng.
  • Các quy trình xử lý hình ảnh phức tạp: Khi một dự án yêu cầu phát hiện đồng thời các hộp giới hạn, các điểm mấu chốt về tư thế người và mặt nạ phân đoạn chính xác.

Kết luận

Cả hai YOLOv6 -3.0 và DAMO- YOLO đã đóng góp đáng kể cho khoa học về phát hiện đối tượng trong thời gian thực. YOLOv6 tinh chế GPU tối đa hóa, trong khi DAMO- YOLO Đã chứng minh sức mạnh của việc tìm kiếm kiến ​​trúc tự động.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự kết hợp tối ưu giữa độ chính xác, tốc độ suy luận và khả năng duy trì hệ sinh thái, dòng sản phẩm Ultralytics YOLO vẫn là lựa chọn hàng đầu. Với những tối ưu hóa đột phá được giới thiệu trong YOLO26 , rào cản gia nhập thị giác máy tính cấp doanh nghiệp chưa bao giờ thấp đến thế.

Để tìm hiểu sâu hơn, bạn cũng có thể tham khảo việc so sánh các mô hình này với các kiến ​​trúc khác trong tài liệu của chúng tôi, chẳng hạn như YOLO11 hoặc các phương pháp dựa trên transformer như RT-DETR .


Bình luận