DAMO- YOLO so với YOLO11 So sánh kỹ thuật toàn diện
Khi lựa chọn kiến trúc phát hiện đối tượng thời gian thực cho dự án thị giác máy tính tiếp theo của bạn, việc hiểu rõ những điểm khác biệt giữa các mô hình hàng đầu là rất quan trọng. Hướng dẫn toàn diện này cung cấp phân tích kỹ thuật chuyên sâu so sánh DAMO- YOLO Và Ultralytics YOLO11 , nghiên cứu kiến trúc, các chỉ số hiệu suất, phương pháp đào tạo và các kịch bản triển khai thực tế lý tưởng của chúng.
Thông tin chi tiết về DAMO- YOLO :
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba Ngày: 23/11/2022
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO- YOLO
Tài liệu: Tài liệu hướng dẫn DAMO- YOLO
Thông tin chi tiết về YOLO11 :
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 27/09/2024
GitHub: ultralytics / ultralytics
Tài liệu: Tài liệu hướng dẫn sử dụng YOLO11
Triết lý thiết kế kiến trúc
Kiến trúc nền tảng của mô hình phát hiện đối tượng quyết định tốc độ suy luận, độ chính xác và khả năng thích ứng của nó trên nhiều môi trường phần cứng khác nhau.
DAMO- YOLO giới thiệu một số cải tiến mang tính học thuật, dựa nhiều vào Tìm kiếm Kiến trúc Mạng thần kinh (Neural Architecture Search - NAS) để tự động thiết kế cấu trúc xương sống của nó. Nó sử dụng RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả để tăng cường sự kết hợp đặc trưng và thiết kế ZeroHead giúp giảm đáng kể kích thước phần đầu dự đoán nặng nề thường thấy trong các kiến trúc trước đây. Trong khi phương pháp dựa trên NAS này cho phép DAMO- YOLO Để đạt được hiệu quả cụ thể trên các GPU đã chọn, các kiến trúc thu được đôi khi thiếu tính linh hoạt cần thiết để có thể áp dụng liền mạch trên nhiều thiết bị biên khác nhau.
Ngược lại, YOLO11 được xây dựng dựa trên nhiều năm nghiên cứu nền tảng để mang đến một kiến trúc được tối ưu hóa cao và được thiết kế thủ công. Nó tập trung vào một hệ thống xương sống được tinh gọn và một phần cổ hiệu quả cao giúp giảm thiểu các phép tính dư thừa. Một trong những ưu điểm chính của YOLO11 Điểm mạnh của nó là hiệu quả tham số được tinh chỉnh; nó đạt được khả năng biểu diễn đặc trưng cao mà không cần yêu cầu VRAM lớn như các mô hình dựa trên transformer như RT-DETR . Điều này làm cho YOLO11 Vô cùng linh hoạt, có khả năng hoạt động mượt mà trên GPU dành cho người tiêu dùng, thiết bị di động và các bộ tăng tốc biên chuyên dụng.
Hiệu suất và số liệu
Việc đánh giá hiệu năng đòi hỏi phải xem xét nhiều yếu tố hơn là chỉ độ chính xác tổng thể, bao gồm sự cân bằng giữa tốc độ, kích thước mô hình và tải tính toán (FLOPs).
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Như bảng dưới đây minh họa, YOLO11 Đạt được sự cân bằng hiệu suất rất thuận lợi. YOLO11s Ví dụ, biến thể này vượt trội hơn DAMO-YOLOs về độ chính xác trong khi vẫn duy trì số lượng tham số nhỏ hơn đáng kể. Việc giảm yêu cầu bộ nhớ này trực tiếp dẫn đến chi phí triển khai thấp hơn và hiệu năng linh hoạt hơn trên các thiết bị biên.
Phương pháp luận đào tạo và Tính khả dụng
Quy trình đào tạo là nơi các nhà phát triển dành phần lớn thời gian, do đó hiệu quả đào tạo là mối quan tâm hàng đầu.
DAMO- YOLO Phương pháp này sử dụng quy trình huấn luyện nhiều giai đoạn phụ thuộc rất nhiều vào việc chắt lọc kiến thức. Nó sử dụng AlignedOTA (Optimal Transport Assignment) để gán nhãn và thường yêu cầu huấn luyện một mô hình "giáo viên" lớn hơn để chắt lọc kiến thức cho các mô hình "học sinh" nhỏ hơn. Phương pháp này làm tăng đáng kể lượng bộ nhớ CUDA cần thiết và thời gian tính toán tổng thể để đạt được sự hội tụ tối ưu.
Ngược lại, Ultralytics Hệ sinh thái giúp đơn giản hóa quá trình huấn luyện mô hình. YOLO11 Được thiết kế để mang lại sự dễ sử dụng vượt trội, với giao diện được tối giản hóa. Python Giao diện lập trình ứng dụng (API) và giao diện dòng CLI toàn diện cho phép các kỹ sư bắt đầu huấn luyện trên các tập dữ liệu tùy chỉnh chỉ bằng một lệnh duy nhất. Quy trình huấn luyện vốn dĩ tiết kiệm tài nguyên, giảm thiểu tối đa tình trạng quá tải bộ nhớ, nhờ đó ngay cả các mô hình lớn hơn cũng có thể được huấn luyện trên phần cứng tiêu chuẩn.
Đào tạo được tối ưu hóa với Ultralytics
Đào tạo một Ultralytics Mô hình này không yêu cầu bất kỳ đoạn mã lặp lại nào. Các quy trình tải dữ liệu, tăng cường dữ liệu và tính toán tổn thất được tích hợp sẵn đã được tối ưu hóa hoàn toàn ngay từ đầu.
Dưới đây là một ví dụ đơn giản minh họa cách huấn luyện và triển khai một hệ thống dễ dàng như thế nào. Ultralytics người mẫu:
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the trained model to ONNX for seamless deployment
model.export(format="onnx")
Ứng dụng thực tế và tính linh hoạt
Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào phạm vi các tác vụ mà môi trường triển khai của bạn yêu cầu.
Vị trí của DAMO-YOLO
DAMO- YOLO Đây là một framework chuyên về phát hiện đối tượng. Nó hoạt động xuất sắc trong môi trường nghiên cứu học thuật, nơi các nhóm đang khám phá việc tham số hóa biểu diễn hoặc tái tạo các thí nghiệm Tìm kiếm Kiến trúc Mạng thần kinh cụ thể. Nó cũng có thể được triển khai trong các môi trường công nghiệp bị hạn chế nghiêm ngặt, nơi cần một yêu cầu rất cụ thể. GPU Bộ tăng tốc hoàn toàn phù hợp với kiến trúc mạng do NAS tạo ra.
Lợi thế của Ultralytics
Ultralytics các mô hình, bao gồm YOLO11 Chúng tỏa sáng trong các ứng dụng thương mại thực tế nhờ tính linh hoạt vượt trội và hệ sinh thái được duy trì tốt. Không giống như DAMO- YOLO , cái Ultralytics Khung phần mềm hỗ trợ các tác vụ đa phương thức một cách tự nhiên. Từ phân đoạn đối tượng trong hình ảnh y tế đến ước lượng tư thế cho phân tích cơ sinh học trong thể thao, một mã nguồn thống nhất duy nhất xử lý tất cả.
Các ngành công nghiệp tận dụng YOLO11 bao gồm:
- Nông nghiệp thông minh: Sử dụng công nghệ nhận diện vật thể để theo dõi sức khỏe cây trồng và tự động hóa máy móc thu hoạch.
- Phân tích bán lẻ: Triển khai hệ thống giám sát thông minh để phân tích lưu lượng khách hàng và tự động hóa quản lý hàng tồn kho.
- Logistics và Chuỗi cung ứng: Phát hiện mã vạch và bao bì tốc độ cao bằng cách sử dụng hộp giới hạn định hướng (OBB) trên băng chuyền tốc độ cao.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa DAMO- YOLO Và YOLO11 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn DAMO-YOLO
DAMO- YOLO là một lựa chọn tốt cho:
- Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các kiến trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.
Khi nào nên chọn YOLO11
YOLO11 Được khuyến nghị cho:
- Triển khai tại biên môi trường sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson , nơi độ tin cậy và bảo trì thường xuyên là yếu tố tối quan trọng.
- Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu phát hiện , phân đoạn , ước lượng tư thế và OBB trong một khung thống nhất duy nhất.
- Tạo mẫu và triển khai nhanh chóng: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python Ultralytics được tối ưu hóa.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Thế hệ tiếp theo: Giới thiệu YOLO26
Trong khi YOLO11 Mặc dù YOLO26 vẫn là một lựa chọn mạnh mẽ và đáng tin cậy, nhưng lĩnh vực thị giác máy tính đang phát triển rất nhanh. Đối với các nhà phát triển bắt đầu các dự án mới, mẫu YOLO26 mới nhất đại diện cho công nghệ tiên tiến nhất hiện nay.
Ra mắt vào tháng 1 năm 2026, YOLO26 giới thiệu một số cải tiến đột phá:
- Thiết kế không cần NMS từ đầu đến cuối: Bằng cách loại bỏ quá trình xử lý hậu kỳ loại bỏ cực đại cục bộ (Non-Maximum Suppression), YOLO26 đảm bảo thời gian suy luận nhanh hơn, mang tính xác định và đơn giản hóa đáng kể quy trình triển khai.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Nhờ loại bỏ hàm mất mát tiêu điểm phân phối (DFL), mô hình này đặc biệt phù hợp với các thiết bị biên và thiết bị công suất thấp không có GPU chuyên dụng.
- Bộ tối ưu hóa MuSGD: Tích hợp những cải tiến trong huấn luyện LLM (lấy cảm hứng từ Moonshot AI), bộ tối ưu hóa lai này đảm bảo sự hội tụ ổn định và nhanh chóng trong quá trình huấn luyện.
- Các hàm mất mát nâng cao: Sử dụng ProgLoss + STAL, YOLO26 thể hiện những cải tiến đáng kể trong nhận dạng vật thể nhỏ, điều rất quan trọng đối với ảnh chụp từ trên không và robot.
Kết luận
Cả DAMO- YOLO Và YOLO11 đã đóng góp đáng kể vào sự phát triển của thị giác máy tính nhanh và chính xác. Trong khi DAMO- YOLO Cung cấp những hiểu biết học thuật thú vị về quá trình tìm kiếm và chắt lọc kiến trúc. Ultralytics YOLO11 (và YOLO26 đột phá) mang đến trải nghiệm phát triển vượt trội.
Với yêu cầu bộ nhớ thấp hơn, tài liệu hướng dẫn đầy đủ, khả năng đa nhiệm và tích hợp với nền tảng Ultralytics mạnh mẽ, Ultralytics Các mô hình này vẫn là lựa chọn hàng đầu cho các nhà nghiên cứu và kỹ sư doanh nghiệp đang tìm cách xây dựng các giải pháp AI mạnh mẽ và có khả năng mở rộng. Đối với những người đang khám phá các kiến trúc tiên tiến khác, việc so sánh YOLO26 với RT-DETR sẽ cung cấp thêm thông tin chi tiết về các giải pháp thay thế dựa trên transformer.