DAMO-YOLO so với YOLOv6-3.0: Một cuộc đối đầu kỹ thuật cho phát hiện vật thể thời gian thực

Lĩnh vực phát hiện đối tượng thời gian thực được đặc trưng bởi sự đổi mới nhanh chóng, trong đó hiệu quả kiến trúc và tốc độ suy luận là tối quan trọng. Hai ứng cử viên đáng chú ý trong lĩnh vực này là DAMO- YOLO , được phát triển bởi Tập đoàn Alibaba, và YOLOv6 , một khung phần mềm mạnh mẽ từ Meituan. Cả hai mô hình đều hướng đến sự cân bằng hoàn hảo giữa độ trễ và độ chính xác, nhưng chúng đạt được điều này thông qua các phương pháp khác nhau.

Hướng dẫn toàn diện này phân tích chi tiết các khía cạnh kỹ thuật của cả hai kiến trúc, cung cấp cho các nhà phát triển và nhà nghiên cứu những hiểu biết cần thiết để lựa chọn công cụ phù hợp cho các ứng dụng thị giác máy tính của họ. Cho dù bạn đang xây dựng cho các thiết bị biên hay máy chủ đám mây có thông lượng cao, việc hiểu rõ những khác biệt này là vô cùng quan trọng.

Điểm chuẩn hiệu suất

Bảng sau minh họa các chỉ số hiệu suất trên tập dữ liệu COCO . YOLOv6 -3.0 nhìn chung cung cấp thông lượng vượt trội hơn. GPU phần cứng do nó TensorRT - Thiết kế thân thiện với người dùng, đồng thời DAMO- YOLO thể hiện hiệu quả tham số mạnh mẽ.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

DAMO-YOLO: Tìm kiếm kiến trúc mạng thần kinh gặp gỡ hiệu quả

DAMO- YOLO giới thiệu một phương pháp tiếp cận mới bằng cách tích hợp trực tiếp Tìm kiếm Kiến trúc Mạng thần kinh (NAS) vào thiết kế mạng trục chính. Được phát triển bởi Tập đoàn Alibaba, công nghệ này tập trung vào việc tối đa hóa hiệu năng trong điều kiện độ trễ nghiêm ngặt.

Các tính năng kiến trúc chính

Kiến trúc mạng xương sống MAE-NAS: Nó sử dụng thuật toán tìm kiếm kiến trúc mạng thần kinh tự mã hóa đa nhánh (MAE-NAS) để khám phá các cấu trúc mạng tối ưu. Điều này tạo ra một kiến trúc mạng xương sống trích xuất các đặc trưng hiệu quả hơn so với các kiến trúc được xây dựng thủ công như CSPDarknet.
RepGFPN hiệu quả: Mô hình này thay thế Mạng Kim tự tháp Đặc trưng (FPN) tiêu chuẩn bằng FPN tổng quát được tham số hóa lại (RepGFPN). Điều này cải thiện khả năng kết hợp đặc trưng trên các quy mô khác nhau trong khi vẫn duy trì tốc độ suy luận, vì các nhánh phức tạp được hợp nhất thành một đường dẫn duy nhất trong quá trình triển khai.
ZeroHead: Để giảm chi phí tính toán hơn nữa, DAMO- YOLO Sử dụng thiết kế "ZeroHead" trọng lượng nhẹ, giúp đơn giản hóa thiết kế đầu dò mà không làm giảm đáng kể độ chính xác.
AlignedOTA: Quá trình huấn luyện sử dụng phương pháp gán nhãn Aligned One-to-Many (AlignedOTA), phương pháp này tự động gán nhãn để cải thiện tốc độ hội tụ và xử lý sự mơ hồ trong các cảnh phức tạp.

Thông tin chi tiết về DAMO- YOLO :
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23/11/2022
Arxiv | GitHub | Tài liệu

YOLOv6 -3.0: Tiêu chuẩn công nghiệp cho GPU

YOLOv6 -3.0 , thường được gọi là "bản nâng cấp toàn diện" của khung phần mềm, được thiết kế đặc biệt cho các ứng dụng công nghiệp, nơi mà... GPU Suy luận dựa trên TensorRT là điều bình thường.

Các tính năng kiến trúc chính

Hợp nhất hai chiều (BiFusion): YOLOv6 -3.0 tăng cường khả năng xử lý vùng cổ bằng BiFusion, cải thiện cách thức truyền tải thông tin ngữ nghĩa giữa các cấp độ tính năng khác nhau.
Huấn luyện có hỗ trợ neo (AAT): Không giống như các bộ dò hoàn toàn không có neo , YOLOv6 - Phiên bản 3.0 giới thiệu một nhánh phụ trợ dựa trên điểm neo trong quá trình huấn luyện. Điều này giúp ổn định quá trình học tập và tăng cường khả năng nhớ lại, trong khi quá trình suy luận vẫn không sử dụng điểm neo để tăng tốc độ.
RepOptimizer: Mô hình tận dụng các kỹ thuật tái tham số hóa không chỉ trong kiến trúc (các khối RepVGG) mà còn trong chính quá trình tối ưu hóa, đảm bảo các bước giảm độ dốc hiệu quả hơn đối với các cấu trúc được tái tham số hóa cụ thể.
Huấn luyện nhận biết lượng tử hóa (QAT): Một điểm mạnh chính là khả năng hỗ trợ QAT gốc, cho phép mô hình duy trì độ chính xác cao ngay cả khi được nén xuống độ chính xác INT8 để triển khai trên GPU biên.

Thông tin chi tiết về YOLOv6 -3.0:
Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 13/01/2023
Arxiv | GitHub | Tài liệu

Tìm hiểu thêm về YOLOv6

Cái Ultralytics Ưu điểm: Tại sao nên chọn phong cách hiện đại? YOLO Mô hình?

Trong khi DAMO- YOLO Và YOLOv6 - Với các thế mạnh riêng biệt, hệ sinh thái Ultralytics - 3.0 cung cấp một giải pháp thống nhất đáp ứng nhu cầu rộng lớn hơn của sự phát triển AI hiện đại. Việc lựa chọn một giải pháp phù hợp là rất quan trọng. Ultralytics Mô hình này đảm bảo bạn không chỉ nhận được một kiến trúc, mà còn là một quy trình làm việc hoàn chỉnh, được hỗ trợ đầy đủ.

1. Dễ sử dụng vượt trội

Ultralytics Ưu tiên trải nghiệm của nhà phát triển ("từ con số không đến anh hùng"). Các quy trình phức tạp như tăng cường dữ liệu , điều chỉnh siêu tham số và xuất mô hình được trừu tượng hóa đằng sau một giao diện đơn giản. Python API.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)

2. Tính Linh Hoạt Trong Các Tác Vụ

Không giống như DAMO- YOLO Và YOLOv6 , chủ yếu tập trung vào việc phát hiện khung bao quanh, Ultralytics Các mô hình vốn dĩ mang tính đa phương thức. Một cơ sở mã duy nhất hỗ trợ:

Phát hiện đối tượng : Xác định các đối tượng và vị trí của chúng.
Phân đoạn đối tượng : Xác định chính xác ranh giới pixel của các đối tượng.
Ước lượng tư thế : Phát hiện các điểm mấu chốt để theo dõi người hoặc động vật.
Phân loại : Gán nhãn toàn cầu cho hình ảnh.
Hộp giới hạn định hướng (OBB) : Phát hiện các đối tượng xoay, rất quan trọng đối với ảnh chụp từ trên không và việc xác định vị trí văn bản.

3. Hiệu quả đào tạo và sử dụng bộ nhớ

Ultralytics Các kiến trúc được tối ưu hóa để giảm thiểu việc sử dụng VRAM trong quá trình huấn luyện. Hiệu quả này cho phép các nhà nghiên cứu và người dùng nghiệp dư huấn luyện các mô hình tiên tiến nhất trên GPU cấp độ người tiêu dùng, một lợi thế đáng kể so với các mô hình lai transformer ngốn bộ nhớ như RT-DETR .

4. Hệ sinh thái được duy trì tốt

Cái Ultralytics Kho lưu trữ này là một trong những kho hoạt động tích cực nhất trong cộng đồng thị giác máy tính. Việc cập nhật thường xuyên đảm bảo khả năng tương thích với các phiên bản PyTorch mới nhất. CUDA , Và Python , giúp ngăn ngừa tình trạng "mã nguồn bị lỗi thời" thường thấy trong các kho lưu trữ nghiên cứu tĩnh.

Tương lai của Trí tuệ nhân tạo thị giác: YOLO26

Đối với các nhà phát triển đang tìm kiếm hiệu năng tối ưu và khả năng triển khai dễ dàng, Ultralytics YOLO26 đại diện cho thế hệ trí tuệ nhân tạo thị giác tiếp theo.

Tại sao nên nâng cấp lên YOLO26?

YOLO26 tích hợp các tính năng tiên tiến giúp đơn giản hóa quá trình triển khai đồng thời tăng tốc độ và độ chính xác:

Giải pháp NMS từ đầu đến cuối - Không cần xử lý hậu kỳ: Loại bỏ quá trình loại bỏ các giá trị không tối đa ( NMS ) , giúp đơn giản hóa việc xuất dữ liệu sang CoreML và TFLite .
Tối ưu hóa CPU : Tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, mở khóa hiệu năng thời gian thực trên các thiết bị biên thiếu GPU mạnh mẽ.
MuSGD Optimizer: Một thuật toán tối ưu hóa lai kết hợp những cải tiến từ quá trình huấn luyện LLM (lấy cảm hứng từ Kimi K2 của Moonshot AI) để đạt được tốc độ hội tụ và tính ổn định nhanh hơn.
Phát hiện vật thể nhỏ được cải tiến: Cái mới ProgLoss và STAL Các hàm mất mát giúp cải thiện đáng kể khả năng phát hiện các mục tiêu nhỏ, khó nhận biết, điều này rất quan trọng đối với ứng dụng máy bay không người lái.

Tìm hiểu thêm về YOLO26

Đề xuất Trường hợp Sử dụng

Khi lựa chọn giữa các kiến trúc này, hãy xem xét môi trường triển khai cụ thể của bạn:

Thích hợp nhất cho DAMO- YOLO

Nghiên cứu & Phát triển: Tuyệt vời để nghiên cứu tác động của Tìm kiếm Kiến trúc Mạng thần kinh (NAS) lên các hệ thống xử lý hình ảnh.
Phần cứng tùy chỉnh: Cấu trúc này có thể mang lại lợi thế cho các NPU cụ thể, phù hợp với thiết kế RepGFPN.
Yêu cầu độ trễ thấp: Thiết kế ZeroHead giúp giảm thiểu mili giây trong các môi trường có giới hạn thời gian nghiêm ngặt.

Lý tưởng cho YOLOv6-3.0

Máy chủ GPU công nghiệp: Việc tập trung mạnh vào tối ưu hóa TensorRT biến nó thành một cỗ máy mạnh mẽ. NVIDIA Các thẻ T4 và A100.
Nhu cầu lượng tử hóa: Nếu quy trình xử lý dữ liệu của bạn phụ thuộc nhiều vào huấn luyện nhận biết lượng tử hóa (Quantization Aware Training - QAT) để triển khai INT8, YOLOv6 Cung cấp các công cụ gốc.
Phân tích thông lượng cao: Các trường hợp như xử lý nhiều luồng video cùng lúc, trong đó thông lượng theo lô là yếu tố then chốt.

Thích hợp nhất cho Ultralytics ( YOLO11 / YOLO26)

Triển khai đa năng: Khả năng xuất sang ONNX , OpenVINO , TensorRT , CoreML , Và TFLite Chỉ với một lệnh duy nhất, bạn có thể giải quyết mọi vấn đề.
CPU dành cho thiết bị di động và thiết bị biên: Thông số kỹ thuật riêng của YOLO26. CPU tối ưu hóa và NMS - Thiết kế miễn phí khiến nó trở thành sự lựa chọn ưu việt nhất. iOS , Android và các triển khai trên Raspberry Pi.
Các tác vụ phức tạp: Khi dự án của bạn yêu cầu nhiều hơn chỉ là các hình hộp đơn thuần—chẳng hạn như mặt nạ phân đoạn hoặc các điểm mấu chốt của tư thế— Ultralytics Đây là khuôn khổ thống nhất duy nhất đáp ứng được yêu cầu.
Tạo mẫu nhanh: Nền tảng Ultralytics cho phép quản lý, đào tạo và triển khai tập dữ liệu nhanh chóng mà không cần quản lý cơ sở hạ tầng phức tạp.

Kết luận

Cả DAMO- YOLO và YOLOv6 đều là những đóng góp ấn tượng cho lĩnh vực thị giác máy tính. DAMO- YOLO đẩy mạnh giới hạn của việc tìm kiếm kiến trúc tự động, trong khi YOLOv6 trau dồi nghệ thuật của GPU - Suy luận tối ưu.

Tuy nhiên, đối với phần lớn các ứng dụng thực tế, các mô hình Ultralytics YOLO cung cấp một giải pháp cân bằng, linh hoạt và dễ bảo trì hơn. Với sự ra mắt của YOLO26 , khoảng cách này càng được nới rộng, mang lại hiệu quả toàn diện và CPU Tốc độ mà các mô hình cạnh tranh vẫn chưa thể sánh kịp. Cho dù bạn là một công ty khởi nghiệp đang xây dựng sản phẩm AI đầu tiên hay một doanh nghiệp đang mở rộng quy mô lên hàng triệu người dùng, sự ổn định và hiệu năng của... Ultralytics Hệ sinh thái tạo nền tảng vững chắc cho sự thành công.

Đọc thêm

Khám phá các mô hình và công cụ tiên tiến khác trong... Ultralytics tài liệu:

YOLOv8 - Mẫu SOTA kinh điển nổi tiếng về độ ổn định.
RT-DETR - Bộ chuyển đổi phát hiện thời gian thực cho các tác vụ đòi hỏi độ chính xác cao.
YOLOv9 - Tích hợp tính năng Thông tin độ dốc có thể lập trình (PGI).
YOLOv10 - Người tiên phong của NMS - Đào tạo miễn phí.
YOLO11 - Một phiên bản tiền nhiệm mạnh mẽ của thế hệ hiện tại.

DAMO-YOLO so với YOLOv6-3.0: Một cuộc đối đầu kỹ thuật cho phát hiện vật thể thời gian thực

Điểm chuẩn hiệu suất

DAMO-YOLO: Tìm kiếm kiến trúc mạng thần kinh gặp gỡ hiệu quả

Các tính năng kiến trúc chính

YOLOv6 -3.0: Tiêu chuẩn công nghiệp cho GPU

Các tính năng kiến trúc chính

Cái Ultralytics Ưu điểm: Tại sao nên chọn phong cách hiện đại? YOLO Mô hình?

1. Dễ sử dụng vượt trội

2. Tính Linh Hoạt Trong Các Tác Vụ

3. Hiệu quả đào tạo và sử dụng bộ nhớ

4. Hệ sinh thái được duy trì tốt

Tương lai của Trí tuệ nhân tạo thị giác: YOLO26

Đề xuất Trường hợp Sử dụng

Thích hợp nhất cho DAMO- YOLO

Lý tưởng cho YOLOv6-3.0

Thích hợp nhất cho Ultralytics ( YOLO11 / YOLO26)

Kết luận

Đọc thêm

Bình luận