YOLO11 vs. DAMO- YOLO Sự phát triển của các kiến trúc phát hiện đối tượng thời gian thực

Nghiên cứu về thị giác máy tính đang phát triển với tốc độ chóng mặt, với các kiến trúc mới liên tục định nghĩa lại giới hạn về tốc độ và độ chính xác. Hai đóng góp quan trọng cho lĩnh vực này là YOLO11 của Ultralytics và DAMO- YOLO của Tập đoàn Alibaba. Mặc dù cả hai mô hình đều hướng đến giải quyết vấn đề phát hiện đối tượng trong thời gian thực, nhưng chúng tiếp cận vấn đề này với những triết lý khác nhau—một tập trung vào khả năng sử dụng và triển khai liền mạch, còn mô hình kia tập trung vào tìm kiếm kiến trúc mạng thần kinh (NAS) nghiêm ngặt và khám phá học thuật.

Hướng dẫn này cung cấp sự so sánh kỹ thuật chuyên sâu để giúp các nhà phát triển, nhà nghiên cứu và kỹ sư lựa chọn công cụ phù hợp cho các ứng dụng thị giác máy tính cụ thể của họ.

Tổng quan về mô hình

YOLO11

YOLO11 đại diện cho đỉnh cao của nhiều năm tinh chỉnh lặp đi lặp lại trong lĩnh vực này. YOLO (You Only Look Once) family. Phát hành vào cuối năm 2024 bởi Ultralytics Nó được xây dựng dựa trên sự thành công của YOLOv8 bằng cách giới thiệu những cải tiến về kiến trúc giúp tăng hiệu quả trích xuất đặc trưng trong khi vẫn duy trì triết lý "túi quà tặng miễn phí" - mang lại hiệu suất cao mà không yêu cầu thiết lập huấn luyện phức tạp.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 27 tháng 9 năm 2024
GitHub:ultralytics/ultralytics
Tài liệu:Tài liệu YOLO11

Tìm hiểu thêm về YOLO11

DAMO-YOLO

DAMO- YOLO là một mô hình định hướng nghiên cứu được phát triển bởi Học viện DAMO (Tập đoàn Alibaba). Nó giới thiệu một số công nghệ mới, bao gồm Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) để tối ưu hóa mạng xương sống, Mạng nơ-ron đa thức tham số hóa lại hiệu quả (RepGFPN) và khung huấn luyện dựa trên phương pháp chưng cất. Nó tập trung mạnh vào việc tối đa hóa sự cân bằng giữa độ trễ và độ chính xác thông qua tìm kiếm thiết kế tự động.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, et al.
Tổ chức: Alibaba Group
Ngày: 23 tháng 11 năm 2022
Arxiv:DAMO-YOLO: Báo cáo về Thiết kế detect Đối tượng theo Thời gian Thực
GitHub:tinyvision/DAMO-YOLO

So sánh kỹ thuật

Kiến trúc và Triết lý Thiết kế

Sự khác biệt cốt lõi giữa hai mẫu này nằm ở nguồn gốc thiết kế của chúng. YOLO11 được chế tạo thủ công để mang lại tính linh hoạt và dễ sử dụng. Nó sử dụng cấu trúc xương sống C3k2 (Cross Stage Partial) được tinh chỉnh và cải tiến. detect Thiết kế này cân bằng giữa số lượng tham số và khả năng biểu diễn đặc trưng. Điều này đảm bảo mô hình hoạt động mạnh mẽ trên nhiều nhiệm vụ khác nhau—không chỉ phát hiện đối tượng , mà còn cả phân đoạn đối tượng , ước lượng tư thế , phân loại và các nhiệm vụ Hộp giới hạn định hướng (OBB) .

Ngược lại, DAMO- YOLO sử dụng MAE-NAS (Phương pháp tìm kiếm kiến trúc mạng nơ-ron hiệu quả tự động) để khám phá cấu trúc xương sống của nó. Điều này dẫn đến một cấu trúc mạng về mặt lý thuyết là tối ưu cho các ràng buộc phần cứng cụ thể nhưng có thể khó hiểu và khó sửa đổi thủ công. Ngoài ra, DAMO- YOLO Nó phụ thuộc rất nhiều vào một quy trình huấn luyện phức tạp bao gồm thiết kế "ZeroHead" và việc chắt lọc từ các mô hình giáo viên lớn hơn, điều này làm tăng độ phức tạp của việc huấn luyện trên các tập dữ liệu tùy chỉnh.

Các chỉ số hiệu suất

Bảng dưới đây so sánh hiệu suất của các mô hình có kích thước khác nhau. YOLO11 Thể hiện hiệu quả vượt trội, đặc biệt trong các kịch bản độ trễ thấp (mô hình N/S/M), đồng thời duy trì độ chính xác hàng đầu.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Phân tích hiệu suất

YOLO11 luôn đạt được kết quả cao hơn. mAP điểm số với ít tham số hơn so với DAMO- tương đương. YOLO các biến thể. Ví dụ, YOLO11s có hiệu suất cao hơn DAMO-YOLOs 1.0. mAP Trong khi sử dụng ít hơn gần 40% tham số (9,4 triệu so với 16,3 triệu). Hiệu quả này trực tiếp dẫn đến việc sử dụng bộ nhớ thấp hơn và suy luận nhanh hơn trên các thiết bị biên.

Hiệu quả và tính khả dụng của đào tạo

YOLO11 Nổi bật nhờ tính dễ tiếp cận. Được tích hợp vào... ultralytics Python Với gói phần mềm này, việc huấn luyện mô hình trở nên đơn giản như việc định nghĩa một tệp YAML tập dữ liệu và chạy một lệnh duy nhất. Hệ sinh thái sẽ xử lý việc điều chỉnh siêu tham số, tăng cường dữ liệu, và... theo dõi thí nghiệm Tự động.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Ngược lại, DAMO- YOLO sử dụng quy trình huấn luyện nhiều giai đoạn. Nó thường yêu cầu huấn luyện một mô hình "giáo viên" phức tạp trước để chắt lọc kiến thức cho mô hình "học sinh" nhỏ hơn. Điều này làm tăng đáng kể thời gian tính toán GPU và VRAM cần thiết cho quá trình huấn luyện. Mặc dù hiệu quả trong việc tối ưu hóa độ chính xác cho các bài kiểm tra học thuật, sự phức tạp này có thể là nút thắt cổ chai đối với các nhóm kỹ thuật linh hoạt.

Các trường hợp sử dụng lý tưởng

Tại sao chọn Mô hình Ultralytics?

Đối với phần lớn các ứng dụng thực tế, YOLO11 (và YOLO26 mới hơn) mang lại sự cân bằng tốt nhất giữa hiệu năng và tính thực tiễn.

Dễ sử dụng: Ultralytics API được thiết kế để mang lại sự hài lòng cho nhà phát triển. Hướng dẫn chi tiết và một hệ thống thống nhất. CLI Giúp việc chuyển đổi từ nguyên mẫu sang sản phẩm hoàn chỉnh trở nên dễ dàng hơn.
Hệ sinh thái được duy trì tốt: Không giống như nhiều kho lưu trữ nghiên cứu trở nên không hoạt động sau khi công bố, Ultralytics Các mô hình được bảo trì thường xuyên. Các bản cập nhật định kỳ đảm bảo khả năng tương thích với các phiên bản PyTorch mới nhất. CUDA trình điều khiển và các định dạng xuất như OpenVINO và CoreML .
Tính linh hoạt: Trong khi DAMO- YOLO Đây hoàn toàn là một thiết bị phát hiện đối tượng. YOLO11 Hỗ trợ ước lượng tư thế (điểm mấu chốt) và phân đoạn đối tượng một cách tự nhiên. Điều này cho phép một họ kiến trúc duy nhất xử lý các tác vụ thị giác đa dạng trong các quy trình phức tạp.
Hiệu quả bộ nhớ: Ultralytics YOLO Các mô hình được tối ưu hóa để sử dụng ít VRAM. Chúng tránh được tình trạng tốn nhiều bộ nhớ thường gặp ở các kiến trúc dựa trên Transformer hoặc các đường ống xử lý phức tạp, giúp chúng có thể được huấn luyện trên phần cứng cấp độ người tiêu dùng.

Khi nào nên sử dụng DAMO-YOLO

Nghiên cứu học thuật: Nếu mục tiêu của bạn là nghiên cứu Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) hoặc tái tạo các kỹ thuật tham số hóa biểu diễn cụ thể được trình bày trong bài báo DAMO- YOLO .
Các ràng buộc phần cứng cụ thể: Nếu bạn có đủ nguồn lực để thực hiện tìm kiếm NAS chuyên sâu nhằm tìm ra một hệ thống xương sống được thiết kế hoàn hảo cho một bộ tăng tốc phần cứng rất cụ thể, không tiêu chuẩn.

Các ứng dụng thực tế

YOLO11 được triển khai rộng rãi trong nhiều ngành công nghiệp nhờ tính ổn định của nó:

Bán lẻ thông minh: Phân tích hành vi khách hàng và quản lý kho tự động bằng công nghệ nhận diện đối tượng.
Chăm sóc sức khỏe: Phát hiện khối u trong chẩn đoán hình ảnh y tế, nơi tốc độ cho phép sàng lọc nhanh chóng.
Sản xuất: Hệ thống kiểm soát chất lượng yêu cầu suy luận tốc độ cao trên các thiết bị biên để detect Các lỗi trên dây chuyền lắp ráp.

Tiến bước về phía trước: Lợi thế của YOLO26

Trong khi YOLO11 Đây là một mô hình xuất sắc, và lĩnh vực này vẫn tiếp tục phát triển. Đối với các dự án mới bắt đầu vào năm 2026, YOLO26 là lựa chọn được khuyến nghị.

Tìm hiểu thêm về YOLO26

YOLO26 giới thiệu một số tính năng đột phá:

Giải pháp NMS từ đầu đến cuối - Không cần: Bằng cách loại bỏ hiện tượng ức chế tối đa không cần thiết (Non-Maximum Suppression) NMS ), YOLO26 đơn giản hóa logic triển khai và giảm sự biến động về độ trễ, một khái niệm được tiên phong trong YOLOv10 .
Bộ tối ưu hóa MuSGD: Một bộ tối ưu hóa lai lấy cảm hứng từ quá trình huấn luyện LLM, đảm bảo sự hội tụ ổn định.
Cải thiện khả năng phát hiện vật thể nhỏ: Các hàm mất mát như ProgLoss và STAL cải thiện đáng kể hiệu suất trên các mục tiêu nhỏ, điều này rất quan trọng đối với hình ảnh từ máy bay không người lái và cảm biến IoT.

Kết luận

Cả YOLO11 và DAMO- YOLO đều đã đóng góp đáng kể vào sự phát triển của công nghệ phát hiện đối tượng. DAMO- YOLO Điều này đã thể hiện tiềm năng của việc tìm kiếm kiến trúc tự động. Tuy nhiên, YOLO11 vẫn là lựa chọn vượt trội hơn cho các ứng dụng thực tế nhờ quy trình làm việc đơn giản, hỗ trợ nhiều tác vụ và sử dụng tham số hiệu quả.

Đối với các nhà phát triển muốn luôn dẫn đầu về công nghệ, việc chuyển sang YOLO26 mang lại tốc độ và sự đơn giản cao hơn nữa, đảm bảo các dự án thị giác máy tính của bạn luôn có khả năng đáp ứng nhu cầu trong tương lai.

Bắt đầu dự án của bạn

Sẵn sàng bắt đầu huấn luyện? Hãy truy cập Nền tảng Ultralytics để chú thích, huấn luyện và triển khai mô hình của bạn chỉ trong vài phút mà không cần quản lý cơ sở hạ tầng phức tạp.

YOLO11 vs. DAMO- YOLO Sự phát triển của các kiến ​​trúc phát hiện đối tượng thời gian thực