DAMO-YOLO so với YOLO11: So sánh kỹ thuật toàn diện

Khi lựa chọn kiến trúc phát hiện đối tượng thời gian thực cho dự án thị giác máy tính tiếp theo của bạn, việc hiểu rõ những điểm khác biệt giữa các mô hình hàng đầu là rất quan trọng. Hướng dẫn toàn diện này cung cấp phân tích kỹ thuật chuyên sâu so sánh DAMO- YOLO Và Ultralytics YOLO11 , nghiên cứu kiến trúc, các chỉ số hiệu suất, phương pháp đào tạo và các kịch bản triển khai thực tế lý tưởng của chúng.

Chi tiết DAMO-YOLO:
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Tổ chức: Alibaba Group Ngày: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO
Docs: Tài liệu DAMO-YOLO

Thông tin chi tiết YOLO11:
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2024-09-27
GitHub: ultralytics/ultralytics
Tài liệu: Tài liệu YOLO11

Triết lý thiết kế kiến trúc

Kiến trúc nền tảng của mô hình phát hiện đối tượng quyết định tốc độ suy luận, độ chính xác và khả năng thích ứng của nó trên nhiều môi trường phần cứng khác nhau.

DAMO-YOLO giới thiệu một số đổi mới học thuật, phụ thuộc nhiều vào Tìm kiếm Kiến trúc Nơ-ron (NAS) để tự động thiết kế backbone của nó. Nó sử dụng một RepGFPN (Mạng Kim tự tháp Đặc trưng Tổng quát được tham số hóa lại) hiệu quả để tăng cường hợp nhất đặc trưng và một thiết kế ZeroHead giúp giảm đáng kể phần đầu dự đoán nặng nề thường thấy trong các kiến trúc trước đây. Mặc dù cách tiếp cận dựa trên NAS này cho phép DAMO-YOLO đạt được hiệu quả cụ thể trên các GPU được chọn, các kiến trúc thu được đôi khi thiếu tính linh hoạt cần thiết để tổng quát hóa một cách liền mạch trên các thiết bị biên đa dạng.

Ngược lại, YOLO11 được xây dựng dựa trên nhiều năm nghiên cứu nền tảng để mang đến một kiến trúc được tối ưu hóa cao và được thiết kế thủ công. Nó tập trung vào một hệ thống xương sống được tinh gọn và một phần cổ hiệu quả cao giúp giảm thiểu các phép tính dư thừa. Một trong những ưu điểm chính của YOLO11 Điểm mạnh của nó là hiệu quả tham số được tinh chỉnh; nó đạt được khả năng biểu diễn đặc trưng cao mà không cần yêu cầu VRAM lớn như các mô hình dựa trên transformer như RT-DETR . Điều này làm cho YOLO11 Vô cùng linh hoạt, có khả năng hoạt động mượt mà trên GPU dành cho người tiêu dùng, thiết bị di động và các bộ tăng tốc biên chuyên dụng.

Hiệu suất và số liệu

Việc đánh giá hiệu năng đòi hỏi phải xem xét nhiều yếu tố hơn là chỉ độ chính xác tổng thể, bao gồm sự cân bằng giữa tốc độ, kích thước mô hình và tải tính toán (FLOPs).

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Như bảng minh họa, YOLO11 đạt được cân bằng hiệu suất rất thuận lợi. Các YOLO11s Ví dụ, biến thể này vượt trội hơn DAMO-YOLOs về độ chính xác trong khi vẫn duy trì số lượng tham số nhỏ hơn đáng kể. Việc giảm yêu cầu bộ nhớ này trực tiếp dẫn đến chi phí triển khai thấp hơn và hiệu năng linh hoạt hơn trên các thiết bị biên.

Tìm hiểu thêm về YOLO11

Phương pháp luận đào tạo và Tính khả dụng

Quy trình đào tạo là nơi các nhà phát triển dành phần lớn thời gian, do đó hiệu quả đào tạo là mối quan tâm hàng đầu.

DAMO-YOLO sử dụng một quy trình đào tạo đa giai đoạn phụ thuộc rất nhiều vào chưng cất tri thức. Nó sử dụng AlignedOTA (Gán vận chuyển tối ưu) để gán nhãn và thường yêu cầu đào tạo một mô hình "teacher" lớn hơn để chưng cất tri thức vào các mô hình "student" nhỏ hơn. Phương pháp này làm tăng đáng kể mức tiêu thụ bộ nhớ CUDA và tổng thời gian tính toán cần thiết để đạt được hội tụ tối ưu.

Ngược lại, hệ sinh thái Ultralytics trừu tượng hóa sự phức tạp của việc huấn luyện mô hình. YOLO11 được thiết kế để dễ sử dụng vượt trội, với API Python được sắp xếp hợp lý và các giao diện CLI toàn diện cho phép các kỹ sư bắt đầu huấn luyện trên các tập dữ liệu tùy chỉnh chỉ với một lệnh duy nhất. Quy trình huấn luyện vốn dĩ hiệu quả về tài nguyên, giảm thiểu các đỉnh bộ nhớ để ngay cả các mô hình lớn hơn cũng có thể được huấn luyện trên phần cứng tiêu chuẩn.

Đào tạo được tối ưu hóa với Ultralytics

Đào tạo một Ultralytics Mô hình này không yêu cầu bất kỳ đoạn mã lặp lại nào. Các quy trình tải dữ liệu, tăng cường dữ liệu và tính toán tổn thất được tích hợp sẵn đã được tối ưu hóa hoàn toàn ngay từ đầu.

Dưới đây là một ví dụ đơn giản minh họa cách huấn luyện và triển khai một hệ thống dễ dàng như thế nào. Ultralytics người mẫu:

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Export the trained model to ONNX for seamless deployment
model.export(format="onnx")

Tìm hiểu thêm về YOLO11

Ứng dụng thực tế và tính linh hoạt

Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào phạm vi các tác vụ mà môi trường triển khai của bạn yêu cầu.

Vị trí của DAMO-YOLO

DAMO-YOLO là một framework object detection thuần túy. Nó vượt trội trong môi trường nghiên cứu học thuật, nơi các nhóm đang khám phá rep-parameterization hoặc tái tạo các thử nghiệm Neural Architecture Search cụ thể. Nó cũng có thể được triển khai trong các môi trường công nghiệp bị hạn chế chặt chẽ, nơi một bộ tăng tốc GPU rất cụ thể hoàn toàn phù hợp với kiến trúc xương sống (backbone) được tạo ra bởi NAS.

Lợi thế của Ultralytics

Ultralytics các mô hình, bao gồm YOLO11 Chúng tỏa sáng trong các ứng dụng thương mại thực tế nhờ tính linh hoạt vượt trội và hệ sinh thái được duy trì tốt. Không giống như DAMO- YOLO , cái Ultralytics Khung phần mềm hỗ trợ các tác vụ đa phương thức một cách tự nhiên. Từ phân đoạn đối tượng trong hình ảnh y tế đến ước lượng tư thế cho phân tích cơ sinh học trong thể thao, một mã nguồn thống nhất duy nhất xử lý tất cả.

Các ngành công nghiệp tận dụng YOLO11 bao gồm:

Nông nghiệp thông minh: Sử dụng detect đối tượng để giám sát sức khỏe cây trồng và tự động hóa máy móc thu hoạch.
Phân tích bán lẻ: Triển khai giám sát thông minh để phân tích lưu lượng khách hàng và tự động hóa quản lý kho hàng.
Logistics và Chuỗi cung ứng: Phát hiện mã vạch và gói hàng tốc độ cao sử dụng Oriented Bounding Boxes (OBB) trên các băng chuyền di chuyển nhanh.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa DAMO-YOLO và YOLO11 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO là một lựa chọn mạnh mẽ cho:

Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên chọn YOLO11

YOLO11 Được khuyến nghị cho:

Triển khai biên sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và việc bảo trì tích cực là tối quan trọng.
Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu detect, segmentation, ước tính tư thế, và OBB trong một framework thống nhất duy nhất.
Tạo mẫu và triển khai nhanh: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python của Ultralytics được tối ưu hóa.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Thế hệ tiếp theo: Giới thiệu YOLO26

Trong khi YOLO11 Mặc dù YOLO26 vẫn là một lựa chọn mạnh mẽ và đáng tin cậy, nhưng lĩnh vực thị giác máy tính đang phát triển rất nhanh. Đối với các nhà phát triển bắt đầu các dự án mới, mẫu YOLO26 mới nhất đại diện cho công nghệ tiên tiến nhất hiện nay.

Ra mắt vào tháng 1 năm 2026, YOLO26 giới thiệu một số cải tiến đột phá:

Thiết kế đầu cuối không NMS: Bằng cách loại bỏ hậu xử lý Non-Maximum Suppression, YOLO26 đảm bảo thời gian suy luận nhanh hơn, có tính xác định và đơn giản hóa đáng kể các quy trình triển khai.
Tăng tốc suy luận trên CPU lên đến 43%: Thông qua việc loại bỏ Distribution Focal Loss (DFL), mô hình đặc biệt phù hợp cho các thiết bị biên và thiết bị tiêu thụ ít điện năng thiếu GPU chuyên dụng.
Trình tối ưu hóa MuSGD: Tích hợp những đổi mới trong huấn luyện LLM (lấy cảm hứng từ Moonshot AI), trình tối ưu hóa lai này đảm bảo sự hội tụ ổn định, nhanh chóng trong quá trình huấn luyện.
Hàm mất mát nâng cao: Sử dụng ProgLoss + STAL, YOLO26 thể hiện những cải tiến đáng kể trong khả năng nhận diện vật thể nhỏ, điều này rất quan trọng đối với hình ảnh trên không và robot học.

Tìm hiểu thêm về YOLO26

Kết luận

Cả DAMO-YOLO và YOLO11 đều đã đóng góp đáng kể vào sự phát triển của thị giác máy tính nhanh và chính xác. Trong khi DAMO-YOLO mang đến những hiểu biết học thuật thú vị về tìm kiếm kiến trúc và chưng cất, Ultralytics YOLO11 (và YOLO26 đột phá) cung cấp trải nghiệm phát triển vượt trội.

Với yêu cầu bộ nhớ thấp hơn, tài liệu hướng dẫn đầy đủ, khả năng đa nhiệm và tích hợp với nền tảng Ultralytics mạnh mẽ, Ultralytics Các mô hình này vẫn là lựa chọn hàng đầu cho các nhà nghiên cứu và kỹ sư doanh nghiệp đang tìm cách xây dựng các giải pháp AI mạnh mẽ và có khả năng mở rộng. Đối với những người đang khám phá các kiến trúc tiên tiến khác, việc so sánh YOLO26 với RT-DETR sẽ cung cấp thêm thông tin chi tiết về các giải pháp thay thế dựa trên transformer.