Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX so với DAMO-YOLO#

Sự phát triển của công nghệ phát hiện vật thể thời gian thực đã chứng kiến nhiều sự thay đổi về mô hình, từ kiến trúc dựa trên anchor sang kiến trúc không dùng anchor (anchor-free), và từ các backbone được thiết kế thủ công sang tìm kiếm kiến trúc thần kinh (NAS) tự động. Trong bài so sánh kỹ thuật toàn diện này, chúng tôi sẽ phân tích hai cột mốc quan trọng trong hành trình đó: YOLOXDAMO-YOLO. Chúng tôi sẽ khám phá các cải tiến về kiến trúc, phương pháp huấn luyện và các đánh đổi về hiệu suất của chúng, đồng thời làm nổi bật cách Ultralytics YOLO26 cung cấp một giải pháp thay thế vượt trội cho các nhà phát triển hiện đại.

Link to this sectionYOLOX: Tiên phong trong mô hình Anchor-Free#

Được phát hành vào ngày 18 tháng 7 năm 2021 bởi Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun tại Megvii, YOLOX đã đánh dấu một bước ngoặt quan trọng bằng cách tích hợp thành công thiết kế anchor-free vào dòng họ YOLO. Được mô tả trong báo cáo kỹ thuật chi tiết trên ArXiv, YOLOX hướng tới việc thu hẹp khoảng cách giữa nghiên cứu học thuật và triển khai công nghiệp.

Link to this sectionNhững cải tiến kiến trúc chính#

YOLOX đã giới thiệu một vài thay đổi cốt lõi về cấu trúc giúp cải thiện đáng kể so với các phiên bản tiền nhiệm:

  • Cơ chế Anchor-Free: Bằng cách dự đoán trực tiếp tâm của vật thể và kích thước BBox, YOLOX đã giảm bớt số lượng heuristic thiết kế và đơn giản hóa các quy trình phân cụm anchor phức tạp. Điều này làm cho nó có khả năng thích ứng cao với nhiều kịch bản computer vision.
  • Decoupled Head: Các mô hình YOLO truyền thống sử dụng một head kết hợp đơn lẻ cho cả phân loại và hồi quy. YOLOX đã triển khai decoupled head, xử lý phân loại và định vị riêng biệt, giúp mô hình hội tụ nhanh hơn và cải thiện độ chính xác.
  • SimOTA Label Assignment: Một phiên bản đơn giản hóa của Optimal Transport Assignment (OTA) được sử dụng để gán các mẫu dương một cách linh hoạt, giúp giảm thời gian huấn luyện và vượt qua các điểm không rõ ràng của việc gán theo điểm tâm.
Di sản của YOLOX

Thiết kế decoupled head của YOLOX đã ảnh hưởng mạnh mẽ đến các thế hệ phát hiện vật thể sau này, trở thành một tính năng tiêu chuẩn trong nhiều mô hình hiện đại.

Tìm hiểu thêm về YOLOX

Link to this sectionDAMO-YOLO: Tìm kiếm kiến trúc tự động ở quy mô lớn#

Được phát triển bởi Xianzhe Xu và nhóm nghiên cứu tại Alibaba Group, DAMO-YOLO được giới thiệu vào ngày 23 tháng 11 năm 2022. Như đã nêu chi tiết trong ấn phẩm ArXiv, mô hình này đã tận dụng tối đa Neural Architecture Search (NAS) để đẩy giới hạn Pareto về tốc độ và độ chính xác.

Link to this sectionNhững cải tiến kiến trúc chính#

Chiến lược của DAMO-YOLO được xây dựng dựa trên việc tự động hóa thiết kế các cấu trúc hiệu quả:

  • Backbone MAE-NAS: Sử dụng thuật toán tiến hóa đa mục tiêu, DAMO-YOLO đã khám phá ra các backbone hiệu quả cao được tùy chỉnh cho các ngân sách độ trễ cụ thể, đặc biệt là khi xuất sang các framework như TensorRT.
  • Efficient RepGFPN: Một thiết kế neck chuyên sâu giúp tăng cường đáng kể sự kết hợp đặc trưng trên các độ phân giải không gian khác nhau, điều này cực kỳ hữu ích cho phân tích hình ảnh trên không và phát hiện vật thể ở các quy mô khác nhau.
  • ZeroHead: Một head dự đoán đơn giản hóa giúp cắt giảm sự dư thừa tính toán mà không làm giảm mAP tổng thể của mô hình.
  • AlignedOTA và Distillation: Kết hợp việc gán nhãn nâng cao và chưng cất kiến thức từ thầy sang trò để tối đa hóa hiệu suất từ các mô hình sinh viên nhỏ hơn.

Tìm hiểu thêm về DAMO-YOLO

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Khi so sánh hai mô hình này, chúng ta phải xem xét số lượng tham số, FLOPs yêu cầu và hồ sơ độ trễ. Dưới đây là dữ liệu benchmark so sánh YOLOX và DAMO-YOLO trên nhiều quy mô.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Mặc dù cả hai mô hình đều đạt được kết quả ấn tượng, nhưng chúng vẫn đi kèm với những hạn chế. YOLOX yêu cầu tinh chỉnh kỹ lưỡng decoupled head của nó, trong khi sự phụ thuộc nặng nề vào chưng cất của DAMO-YOLO khiến việc huấn luyện lại trên các tập dữ liệu tùy chỉnh trở nên cực kỳ tốn kém tài nguyên, đòi hỏi dung lượng GPU memory rất lớn.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOX và DAMO-YOLO phụ thuộc vào yêu cầu cụ thể của dự án, các hạn chế khi triển khai và ưu tiên hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOX#

YOLOX là lựa chọn mạnh mẽ cho:

  • Nghiên cứu Phát hiện Anchor-Free: Nghiên cứu học thuật sử dụng kiến trúc anchor-free sạch, gọn của YOLOX làm baseline để thử nghiệm với các head phát hiện hoặc hàm mất mát mới.
  • Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ nơi mà footprint cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
  • Nghiên cứu Gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ trong đào tạo.

Link to this sectionKhi nào nên chọn DAMO-YOLO#

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với hạn chế độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone tái tham số hóa hiệu quả đối với hiệu năng phát hiện.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế của Ultralytics: Giới thiệu YOLO26#

Mặc dù YOLOX và DAMO-YOLO đại diện cho những cột mốc lịch sử quan trọng, các nhà phát triển hiện đại cần một giải pháp kết hợp độ chính xác hàng đầu với sự dễ sử dụng tuyệt vời. Đây là nơi Ultralytics YOLO26 thay đổi bối cảnh. Được phát hành vào tháng 1 năm 2026, YOLO26 kế thừa di sản của các mô hình không dùng NMS để mang lại sự cân bằng tối ưu giữa tốc độ, độ chính xác và trải nghiệm nhà phát triển.

Link to this sectionTại sao chọn YOLO26?#

Hệ sinh thái Ultralytics tích hợp vượt trội hơn hẳn các kho lưu trữ học thuật rời rạc bằng cách cung cấp:

  • Thiết kế End-to-End không dùng NMS: YOLO26 loại bỏ hoàn toàn NMS trong quá trình inference. Điều này dẫn đến độ trễ cực nhanh và có thể dự đoán được, rất quan trọng cho việc triển khai ở biên (edge) và phương tiện tự hành.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa các quy trình xuất sang thiết bị biên, giúp giảm đáng kể yêu cầu bộ nhớ cho các ứng dụng nhẹ.
  • Trình tối ưu hóa MuSGD: YOLO26 mượn các đổi mới từ huấn luyện LLM với trình tối ưu hóa hybrid SGD và Muon, đảm bảo sự ổn định trong huấn luyện và hội tụ siêu nhanh.
  • Inference CPU nhanh hơn tới 43%: Nhờ các tối ưu hóa cấu trúc chuyên sâu, YOLO26 chạy cực nhanh trên CPU mà không cần phần cứng GPU đắt tiền.
  • Các hàm Loss nâng cao: Việc tích hợp ProgLoss + STAL mang lại những cải tiến lớn trong việc nhận diện vật thể nhỏ, làm cho nó trở nên lý tưởng cho các tác vụ như kiểm tra bằng drone và giám sát IoT.
  • Tính linh hoạt: Không giống như DAMO-YOLO, vốn chỉ là một bộ phát hiện, YOLO26 hỗ trợ nguyên bản các tác vụ Instance Segmentation, Pose Estimation, Image ClassificationOBB trong một framework duy nhất.
Bắt đầu xây dựng ngay lập tức

Với Ultralytics Python API, bạn không cần phải cấu hình thủ công các đường ống chưng cất phức tạp hoặc viết hàng trăm dòng mã C++ để triển khai mô hình của mình.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

Tìm hiểu thêm về YOLO26

Link to this sectionCác model khác cần xem xét#

Hệ sinh thái computer vision rất rộng lớn. Tùy thuộc vào các hạn chế cụ thể của bạn, bạn cũng có thể muốn khám phá các kiến trúc khác được hỗ trợ đầy đủ bởi hệ sinh thái Ultralytics:

  • YOLO11: Người tiền nhiệm cực kỳ mạnh mẽ của YOLO26, được biết đến với độ ổn định trong phân tích bán lẻkiểm soát chất lượng sản xuất.
  • YOLOv8: Một mô hình anchor-free huyền thoại, cực kỳ ổn định, đã phổ biến việc triển khai rộng rãi ở biên.
  • RT-DETR: Một mô hình Transformer phát hiện thời gian thực được phát triển bởi Baidu, mang lại sự thay thế tuyệt vời cho các tác vụ cần cơ chế chú ý toàn cầu, mặc dù phải đánh đổi bằng yêu cầu bộ nhớ huấn luyện cao hơn.

Link to this sectionKết luận#

Cả YOLOX và DAMO-YOLO đều đóng góp những khái niệm quan trọng cho sự tiến bộ của deep learning—YOLOX xác nhận cách tiếp cận decoupled, anchor-free, và DAMO-YOLO chứng minh sức mạnh của việc tìm kiếm kiến trúc tự động. Tuy nhiên, đối với sản xuất thực tế, sự phức tạp của các mã nguồn nghiên cứu ban đầu có thể làm chậm các đội ngũ agile.

Bằng cách tận dụng Ultralytics Platform toàn diện, các nhà phát triển có thể vượt qua những rào cản này. Với thiết kế end-to-end, tốc độ CPU vượt trội và tài liệu phong phú của YOLO26, việc đạt được AI thị giác hàng đầu trở nên dễ tiếp cận hơn bao giờ hết. Cho dù bạn đang xây dựng cơ sở hạ tầng thành phố thông minh, chẩn đoán y tế hay robot tiên tiến, Ultralytics cung cấp con đường hiệu quả nhất từ dữ liệu thô đến triển khai thực tế mạnh mẽ.

Người đóng góp

Bình luận