Chuyển đến nội dung

DAMO- YOLO So sánh với YOLO26: Phân tích các kiến ​​trúc phát hiện đối tượng thời gian thực thế hệ tiếp theo

Lĩnh vực thị giác máy tính không ngừng phát triển, được thúc đẩy bởi nhu cầu về các kiến ​​trúc cân bằng giữa độ chính xác cao và độ trễ suy luận thấp. Bài so sánh này đi sâu vào các chi tiết kỹ thuật của DAMO- YOLOUltralytics YOLO26 , khám phá những đổi mới về kiến ​​trúc, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng của chúng.

Cho dù bạn đang triển khai các mô hình thị giác máy tính lên các thiết bị biên hay xây dựng các hệ thống xử lý dữ liệu đám mây hiệu suất cao, việc hiểu rõ những điểm khác biệt tinh tế giữa các mô hình này là rất quan trọng để đưa ra các quyết định kiến ​​trúc sáng suốt trong quá trình phát triển AI hiện đại.

DAMO- YOLO Tìm kiếm kiến ​​trúc mạng nơ-ron ở quy mô lớn

DAMO- YOLO , được phát triển bởi Tập đoàn Alibaba , đã được ra mắt vào ngày 23 tháng 11 năm 2022. Được thiết kế bởi Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun, mô hình này tập trung mạnh vào việc tự động phát hiện các kiến ​​trúc hiệu quả bằng cách sử dụng Tìm kiếm Kiến trúc Thần kinh (NAS).

Bạn có thể xem lại nghiên cứu gốc trong bài báo trên ArXiv hoặc khám phá mã nguồn trên kho lưu trữ GitHub của DAMO- YOLO .

Các tính năng kiến trúc chính

DAMO- YOLO Giới thiệu một số cải tiến kỹ thuật được thiết kế để vượt qua giới hạn của việc phát hiện đối tượng trong thời gian thực:

  • Hệ thống xương sống MAE-NAS: DAMO- YOLO Phương pháp này sử dụng thuật toán tìm kiếm tiến hóa đa mục tiêu để tìm ra các kiến ​​trúc mạng tối ưu. Cách tiếp cận NAS này khám phá ra các kiến ​​trúc cân bằng nghiêm ngặt giữa độ chính xác phát hiện và tốc độ suy luận trên phần cứng cụ thể.
  • RepGFPN hiệu quả: Thiết kế cổ dày giúp cải thiện đáng kể khả năng kết hợp các đặc điểm, mang lại lợi ích rất lớn khi phân tích các cảnh phức tạp như trong ảnh chụp từ trên không .
  • Thiết kế ZeroHead: Một đầu dò được đơn giản hóa tối đa nhằm giảm thiểu độ phức tạp tính toán của các lớp dự đoán cuối cùng.
  • AlignedOTA và Chưng cất: DAMO- YOLO Phương pháp này sử dụng Aligned Optimal Transport Assignment (AlignedOTA) để giải quyết sự mơ hồ trong việc gán nhãn, kết hợp với chiến lược nâng cao khả năng chắt lọc kiến ​​thức mạnh mẽ nhằm tăng độ chính xác của các mô hình học sinh nhỏ hơn sử dụng các mạng lưới giáo viên lớn hơn.

Tìm hiểu thêm về DAMO-YOLO

Lợi thế của Ultralytics: YOLO26

Được Glenn Jocher và Jing Qiu tại Ultralytics phát hành vào ngày 14 tháng 1 năm 2026, YOLO26 đại diện cho đỉnh cao của trí tuệ nhân tạo thị giác hiệu năng cao, dễ tiếp cận. Dựa trên nền tảng của YOLO11YOLOv10 , YOLO26 được thiết kế từ đầu với ưu tiên triển khai trên thiết bị biên, tính linh hoạt đa phương thức và sự dễ sử dụng chưa từng có.

Những đổi mới của YOLO26

Ultralytics YOLO26 giới thiệu một số tính năng đột phá, biến nó trở thành lựa chọn tối ưu cho các ứng dụng thị giác máy tính hiện đại:

  • Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hoàn toàn hiện tượng Non-Maximum Suppression (NMS) một cách tự nhiên. NMS ) xử lý hậu kỳ. Được tiên phong lần đầu tiên trong YOLOv10 Cách tiếp cận toàn diện này giúp đơn giản hóa đáng kể quy trình triển khai và đảm bảo suy luận chính xác, độ trễ thấp.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa về kiến ​​trúc cho điện toán biên, YOLO26 mang lại tốc độ vượt trội trên các thiết bị biên và CPU tiêu chuẩn, lý tưởng cho các thiết bị IoT chạy bằng pin.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM (như Kimi K2 của Moonshot AI), YOLO26 kết hợp một phương pháp lai ghép của... SGD và Muon. Điều này mang lại sự ổn định cho việc huấn luyện mô hình ngôn ngữ quy mô lớn trong lĩnh vực thị giác máy tính, dẫn đến sự hội tụ nhanh hơn và đáng tin cậy hơn.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, đồ thị mô hình được đơn giản hóa, cho phép xuất khẩu dễ dàng sang các định dạng như ONNXTensorRT .
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, một tính năng quan trọng đối với hoạt động của máy bay không người láinông nghiệp .

Cải tiến dành riêng cho nhiệm vụ

YOLO26 bao gồm các cải tiến chuyên biệt trên nhiều phương thức: một nguyên mẫu đa tỷ lệ cho Phân đoạn đối tượng , Ước lượng logarit khả năng dư (RLE) cho Ước lượng tư thế và tổn thất góc nâng cao để giảm thiểu các vấn đề về ranh giới trong phát hiện Hộp giới hạn định hướng (OBB) .

Tìm hiểu thêm về YOLO26

So sánh hiệu suất

Khi đánh giá các mô hình này, cần cân bằng giữa độ chính xác ( mAP Hiệu suất (Tốc độ/FLOPs) và hiệu quả tính toán là tối quan trọng. Bảng dưới đây nêu bật sự so sánh giữa các mô hình này bằng cách sử dụng bộ dữ liệu COCO tiêu chuẩn ngành.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Như đã thấy ở trên, YOLO26 luôn mang lại độ chính xác cao hơn với số lượng tham số và phép tính FLOPs ít hơn đáng kể, dẫn đến kiến ​​trúc hiệu quả hơn nhiều cho cả quá trình huấn luyện và suy luận.

Hiệu quả và tính khả dụng của đào tạo

Sự phức tạp của DAMO- YOLO

Trong khi DAMO- YOLO Mặc dù đạt được độ chính xác cạnh tranh, phương pháp huấn luyện của nó lại rất phức tạp. Việc phụ thuộc vào Tìm kiếm Kiến trúc Mạng thần kinh (NAS) và quá trình chắt lọc kiến ​​thức chuyên sâu đồng nghĩa với việc huấn luyện một mô hình tùy chỉnh thường đòi hỏi rất nhiều công sức. GPU nguồn lực và kiến ​​thức chuyên môn. Quá trình nhiều giai đoạn này—đào tạo một mô hình giáo viên khổng lồ để chắt lọc thành một mô hình học sinh nhỏ hơn—có thể gây tắc nghẽn cho các nhóm kỹ thuật linh hoạt đang cố gắng lặp lại nhanh chóng trên các tập dữ liệu tùy chỉnh.

Sự tinh gọn Ultralytics Kinh nghiệm

Ngược lại, Ultralytics YOLO26 được thiết kế để dễ sử dụng từ "người mới bắt đầu" đến "chuyên gia". Toàn bộ vòng đời đào tạo, xác thực và triển khai được trừu tượng hóa đằng sau một giao diện thống nhất, gọn gàng. Python API và CLI Hơn nữa, YOLO26 yêu cầu lượng bộ nhớ CUDA ít hơn đáng kể trong quá trình huấn luyện so với các mô hình dựa trên transformer như RT-DETR , cho phép các nhà nghiên cứu huấn luyện các mô hình tiên tiến trên phần cứng cấp độ người tiêu dùng.

Dưới đây là một ví dụ minh họa cách đơn giản để huấn luyện, đánh giá và xuất mô hình YOLO26 bằng cách sử dụng... Ultralytics SDK:

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Evaluate the model's performance on the validation set
metrics = model.val()

# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export the model to ONNX format for deployment
model.export(format="onnx")

Đối với các nhóm ưa thích môi trường không cần lập trình, Ultralytics Platform cung cấp giao diện trực quan để chú thích dữ liệu, huấn luyện trên đám mây và triển khai liền mạch.

Các ứng dụng thực tế

Việc lựa chọn kiến ​​trúc phù hợp phụ thuộc rất nhiều vào môi trường triển khai mục tiêu và các hạn chế về phần cứng.

Kiểm soát chất lượng công nghiệp

Đối với tự động hóa sản xuất tốc độ cao, DAMO- YOLO có thể hoạt động tốt trên các hệ thống chuyên dụng. GPU Tuy nhiên, YOLO26 là lựa chọn ưu tiên cho các dây chuyền lắp ráp hiện đại. Thiết kế "không cần hệ thống quản lý mạng NMS từ đầu đến cuối đảm bảo độ trễ ổn định, không bị giật, điều này rất cần thiết khi đồng bộ hóa dữ liệu hình ảnh với các bộ truyền động robot trong thời gian thực.

Trí tuệ nhân tạo biên và thiết bị di động

Việc triển khai thị giác máy tính trên các thiết bị chạy bằng pin đòi hỏi hiệu quả cực cao. Trong khi DAMO- YOLO Dựa trên các cổ RepGFPN đặc thù, YOLO26n (Nano) được tối ưu hóa đặc biệt cho điện toán biên. Khả năng loại bỏ DFL và tốc độ suy luận CPU nhanh hơn 43% khiến nó trở thành giải pháp tối ưu cho camera thông minh, ứng dụng di động và hệ thống báo động an ninh .

Yêu cầu dự án đa phương thức

Nếu một dự án đòi hỏi nhiều hơn chỉ là phát hiện đối tượng—chẳng hạn như phân tích chuyển động của người chơi trong thể thao bằng cách ước tính tư thế, hoặc trích xuất ranh giới pixel chính xác bằng cách phân đoạn đối tượng— YOLO26 cung cấp hỗ trợ gốc cho tất cả các tác vụ này trong một mã nguồn thống nhất duy nhất. DAMO- YOLO Chỉ giới hạn nghiêm ngặt trong việc phát hiện khung bao quanh.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa DAMO- YOLO Việc lựa chọn YOLO26 phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn DAMO-YOLO

DAMO- YOLO là một lựa chọn tốt cho:

  • Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu tìm kiếm kiến ​​trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến ​​trúc tự động (MAE-NAS) và các kiến ​​trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.

Khi nào nên chọn YOLO26

YOLO26 được khuyến nghị sử dụng cho:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Kết luận

Cả hai kiến ​​trúc đều đại diện cho những thành tựu đáng kể trong lĩnh vực học sâu. DAMO- YOLO mang đến cái nhìn thú vị về sức mạnh của kỹ thuật tìm kiếm kiến ​​trúc mạng nơ-ron và kỹ thuật chắt lọc được thiết kế riêng cho các chuẩn phần cứng cụ thể.

Tuy nhiên, đối với các nhà phát triển, nhà nghiên cứu và doanh nghiệp đang tìm kiếm một giải pháp sẵn sàng cho sản xuất, Ultralytics YOLO26 nổi bật như một lựa chọn vượt trội. Sự kết hợp giữa giải pháp toàn diện từ đầu đến cuối là điểm mạnh của nó. NMS - Thiết kế miễn phí, quy mô lớn CPU những lợi ích về suy luận, tính linh hoạt đa phương thức và sự tích hợp vào hệ thống được bảo trì tốt. Ultralytics Hệ sinh thái này biến nó trở thành công cụ mạnh mẽ và thiết thực nhất để giải quyết các thách thức về thị giác máy tính trong thế giới thực hiện nay.

Dành cho người dùng quan tâm đến việc khám phá các mô hình khác trong phạm vi này. Ultralytics Trong hệ sinh thái này, tài liệu đầy đủ có sẵn cho YOLO11 , YOLOv8RT-DETR dựa trên transformer.


Bình luận