Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO so với YOLO11: So sánh kỹ thuật toàn diện#

Khi lựa chọn kiến trúc phát hiện vật thể thời gian thực cho dự án thị giác máy tính tiếp theo, việc hiểu rõ những điểm khác biệt giữa các mô hình hàng đầu là rất quan trọng. Hướng dẫn toàn diện này cung cấp phân tích kỹ thuật chuyên sâu so sánh DAMO-YOLO và Ultralytics YOLO11, khám phá kiến trúc, chỉ số hiệu năng, phương pháp huấn luyện và các kịch bản triển khai thực tế lý tưởng.

Thông tin chi tiết về DAMO-YOLO: Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun Tổ chức: Alibaba Group Ngày: 2022-11-23 Arxiv: 2211.15444v2 GitHub: tinyvision/DAMO-YOLO Tài liệu: Tài liệu DAMO-YOLO

Thông tin chi tiết về YOLO11: Tác giả: Glenn Jocher và Jing Qiu Tổ chức: Ultralytics Ngày: 2024-09-27 GitHub: ultralytics/ultralytics Tài liệu: Tài liệu YOLO11

Link to this sectionTriết lý thiết kế kiến trúc#

Kiến trúc nền tảng của một mô hình phát hiện vật thể quyết định tốc độ suy luận, độ chính xác và khả năng thích ứng trên nhiều môi trường phần cứng khác nhau.

DAMO-YOLO giới thiệu một số cải tiến học thuật, phụ thuộc nhiều vào Neural Architecture Search (NAS) để tự động thiết kế backbone của nó. Nó sử dụng RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả để tăng cường khả năng kết hợp đặc trưng và thiết kế ZeroHead giúp thu nhỏ đáng kể phần head dự đoán cồng kềnh thường thấy trong các kiến trúc trước đây. Mặc dù phương pháp dựa trên NAS này cho phép DAMO-YOLO đạt được hiệu quả cụ thể trên các GPU được chọn, nhưng các kiến trúc tạo ra đôi khi thiếu sự linh hoạt cần thiết để khái quát hóa liền mạch trên các thiết bị biên đa dạng.

Ngược lại, YOLO11 được xây dựng dựa trên nhiều năm nghiên cứu nền tảng để cung cấp một kiến trúc thủ công được tối ưu hóa cao. Nó tập trung vào một backbone tinh giản và một neck cực kỳ hiệu quả giúp giảm thiểu các tính toán dư thừa. Một trong những ưu điểm chính của YOLO11 là hiệu quả tham số tinh tế; nó đạt được khả năng biểu diễn đặc trưng cao mà không cần yêu cầu VRAM lớn như các mô hình dựa trên Transformer như RT-DETR. Điều này làm cho YOLO11 trở nên linh hoạt đặc biệt, có khả năng chạy mượt mà trên GPU tiêu dùng, thiết bị di động và các bộ tăng tốc biên chuyên dụng.

Link to this sectionHiệu suất và chỉ số#

Đánh giá hiệu năng đòi hỏi phải nhìn xa hơn độ chính xác hàng đầu để xem xét sự cân bằng giữa tốc độ, kích thước mô hình và tải tính toán (FLOPs).

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Như bảng minh họa, YOLO11 đạt được sự cân bằng hiệu năng rất thuận lợi. Ví dụ, biến thể YOLO11s vượt qua DAMO-YOLOs về độ chính xác trong khi vẫn duy trì dấu ấn tham số nhỏ hơn đáng kể. Việc giảm yêu cầu bộ nhớ này chuyển đổi trực tiếp thành chi phí triển khai thấp hơn và hiệu năng linh hoạt hơn trên các thiết bị biên.

Tìm hiểu thêm về YOLO11

Link to this sectionPhương pháp đào tạo và khả năng sử dụng#

Quy trình huấn luyện là nơi các nhà phát triển dành phần lớn thời gian, khiến hiệu quả huấn luyện trở thành mối quan tâm hàng đầu.

DAMO-YOLO sử dụng quy trình huấn luyện nhiều giai đoạn phụ thuộc nhiều vào chưng cất tri thức (knowledge distillation). Nó sử dụng AlignedOTA (Optimal Transport Assignment) để gán nhãn và thường yêu cầu huấn luyện một mô hình "giáo viên" lớn hơn để chưng cất tri thức vào các mô hình "học sinh" nhỏ hơn. Phương pháp này làm tăng đáng kể mức sử dụng CUDA memory và tổng thời gian tính toán cần thiết để đạt được sự hội tụ tối ưu.

Ngược lại, hệ sinh thái Ultralytics trừu tượng hóa sự phức tạp của việc huấn luyện mô hình. YOLO11 được thiết kế để dễ sử dụng đặc biệt, có API Python tinh giản và các CLI interfaces toàn diện cho phép các kỹ sư bắt đầu huấn luyện trên tập dữ liệu tùy chỉnh chỉ với một lệnh. Quy trình huấn luyện vốn dĩ hiệu quả về tài nguyên, giảm thiểu các đỉnh bộ nhớ để ngay cả các mô hình lớn hơn cũng có thể được huấn luyện trên phần cứng tiêu chuẩn.

Huấn luyện tinh giản với Ultralytics

Huấn luyện một mô hình Ultralytics không yêu cầu mã boilerplate. Các quy trình tải dữ liệu, tăng cường và tính toán mất mát tích hợp sẵn đã được tối ưu hóa hoàn toàn ngay từ đầu.

Dưới đây là một ví dụ nhanh về việc huấn luyện và triển khai một mô hình Ultralytics đơn giản như thế nào:

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Export the trained model to ONNX for seamless deployment
model.export(format="onnx")

Tìm hiểu thêm về YOLO11

Link to this sectionCác ứng dụng thực tế và tính linh hoạt#

Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào phạm vi nhiệm vụ được yêu cầu bởi môi trường triển khai của bạn.

Link to this sectionDAMO-YOLO phù hợp ở đâu#

DAMO-YOLO hoàn toàn là một khung phát hiện vật thể. Nó vượt trội trong môi trường nghiên cứu học thuật nơi các nhóm đang khám phá việc tái tham số hóa hoặc tái tạo các thí nghiệm Neural Architecture Search cụ thể. Nó cũng có thể được triển khai trong các môi trường công nghiệp bị hạn chế chặt chẽ, nơi một bộ tăng tốc GPU rất cụ thể khớp hoàn hảo với backbone do NAS tạo ra.

Link to this sectionLợi thế từ Ultralytics#

Các mô hình Ultralytics, bao gồm YOLO11, tỏa sáng trong các ứng dụng thương mại thực tế nhờ tính linh hoạt vô song và hệ sinh thái được duy trì tốt. Không giống như DAMO-YOLO, khung làm việc Ultralytics hỗ trợ các nhiệm vụ đa phương thức một cách tự nhiên. Từ Phân đoạn đối tượng (Instance Segmentation) trong chẩn đoán hình ảnh y tế đến Ước tính tư thế (Pose Estimation) để phân tích cơ sinh học trong thể thao, một cơ sở mã hợp nhất duy nhất xử lý tất cả.

Các ngành công nghiệp tận dụng YOLO11 bao gồm:

  • Nông nghiệp thông minh: Sử dụng phát hiện vật thể để theo dõi sức khỏe cây trồng và tự động hóa máy móc thu hoạch.
  • Phân tích bán lẻ: Triển khai giám sát thông minh để phân tích lưu lượng khách hàng và tự động hóa quản lý hàng tồn kho.
  • Logistics và chuỗi cung ứng: Phát hiện mã vạch và gói hàng tốc độ cao sử dụng Hộp bao định hướng (OBB) trên các băng tải di chuyển nhanh.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Lựa chọn giữa DAMO-YOLO và YOLO11 phụ thuộc vào yêu cầu dự án cụ thể, các hạn chế triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn DAMO-YOLO#

DAMO-YOLO là một lựa chọn mạnh mẽ cho:

  • Phân tích video thông lượng cao: Xử lý luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với hạn chế độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone tái tham số hóa hiệu quả đối với hiệu năng phát hiện.

Link to this sectionKhi nào nên chọn YOLO11#

YOLO11 được khuyến nghị cho:

  • Triển khai Edge trong sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và sự bảo trì tích cực là tối quan trọng.
  • Các ứng dụng thị giác đa tác vụ: Các dự án yêu cầu phát hiện, phân đoạn, ước tính tư thế, và OBB trong một khung duy nhất.
  • Tạo mẫu và triển khai nhanh: Các nhóm cần di chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng Ultralytics Python API được tinh giản.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionThế hệ tiếp theo: Giới thiệu YOLO26#

Trong khi YOLO11 vẫn là một lựa chọn mạnh mẽ và đáng tin cậy, bối cảnh thị giác máy tính thay đổi rất nhanh. Đối với các nhà phát triển bắt đầu các dự án mới, mô hình YOLO26 mới nhất đại diện cho trạng thái tiên tiến mới.

Ra mắt vào tháng 1 năm 2026, YOLO26 giới thiệu một số tiến bộ đột phá:

  • Thiết kế không NMS từ đầu đến cuối (End-to-End NMS-Free): Bằng cách loại bỏ xử lý hậu kỳ Non-Maximum Suppression, YOLO26 đảm bảo thời gian suy luận nhanh hơn, mang tính quyết định và đơn giản hóa đáng kể quy trình triển khai.
  • Suy luận CPU nhanh hơn tới 43%: Thông qua việc loại bỏ Distribution Focal Loss (DFL), mô hình đặc biệt phù hợp với các thiết bị biên và thiết bị năng lượng thấp thiếu GPU chuyên dụng.
  • Trình tối ưu hóa MuSGD: Tích hợp các cải tiến huấn luyện LLM (lấy cảm hứng từ Moonshot AI), trình tối ưu hóa lai này đảm bảo sự hội tụ ổn định, nhanh chóng trong quá trình huấn luyện.
  • Các hàm mất mát tiên tiến: Sử dụng ProgLoss + STAL, YOLO26 thể hiện những cải tiến đáng kể trong nhận dạng vật thể nhỏ, rất quan trọng đối với hình ảnh trên không và robot.

Tìm hiểu thêm về YOLO26

Link to this sectionKết luận#

Cả DAMO-YOLO và YOLO11 đều đóng góp đáng kể vào sự tiến bộ của thị giác máy tính nhanh, chính xác. Trong khi DAMO-YOLO cung cấp những hiểu biết học thuật thú vị về tìm kiếm kiến trúc và chưng cất, Ultralytics YOLO11 (và YOLO26 đột phá) cung cấp trải nghiệm nhà phát triển vượt trội hơn.

Với yêu cầu bộ nhớ thấp hơn, tài liệu mở rộng, khả năng đa nhiệm và tích hợp với Ultralytics Platform mạnh mẽ, các mô hình Ultralytics vẫn là khuyến nghị hàng đầu cho các nhà nghiên cứu và kỹ sư doanh nghiệp muốn xây dựng các giải pháp AI mạnh mẽ, có khả năng mở rộng. Đối với những người đang khám phá các kiến trúc tiên tiến khác, việc so sánh YOLO26 vs RT-DETR cung cấp thêm những hiểu biết sâu sắc về các giải pháp thay thế dựa trên Transformer.

Người đóng góp

Bình luận