YOLO26 so với YOLOv10: So sánh các mô hình nhận diện đối tượng end-to-end

Bối cảnh thị trường thị giác máy tính đang không ngừng phát triển, được thúc đẩy bởi nhu cầu về các mô hình nhanh hơn, chính xác hơn và hiệu quả hơn. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa hai kiến trúc mang tính đột phá trong lĩnh vực nhận diện đối tượng thời gian thực: YOLO26YOLOv10. Bằng cách phân tích kiến trúc, các chỉ số hiệu suất và khả năng triển khai, chúng tôi mong muốn giúp các nhà phát triển và nhà nghiên cứu chọn được mô hình tối ưu cho các ứng dụng thị giác máy tính của họ.

Sự tiến hóa của các kiến trúc không cần NMS

Trong nhiều năm, dòng mô hình YOLO (You Only Look Once) đã phụ thuộc rất nhiều vào Non-Maximum Suppression (NMS) để lọc bỏ các bounding box dư thừa trong quá trình hậu xử lý. Mặc dù hiệu quả, nhưng NMS làm tăng độ trễ suy luận và gây phức tạp cho việc triển khai trên các thiết bị biên như Raspberry Pi hoặc các bộ xử lý thần kinh chuyên dụng (NPUs).

Sự ra đời của YOLOv10 đại diện cho một bước chuyển mình về tư duy bằng cách tiên phong thiết kế end-to-end không cần NMS. Kế thừa đột phá nền tảng này, Ultralytics YOLO26 đã tinh chỉnh kiến trúc cho các môi trường sản xuất, đạt được hiệu suất chưa từng có và tính dễ sử dụng trên nhiều tác vụ đa dạng hơn.

Điểm nghẽn trong hậu xử lý

Việc loại bỏ NMS giúp loại trừ bước hậu xử lý năng động, phụ thuộc vào dữ liệu vốn trước đây gây cản trở việc tối ưu hóa các mô hình thị giác máy tính trên các bộ tăng tốc phần cứng như TensorRTOpenVINO.

YOLOv10: Tiên phong trong nhận diện không cần NMS

Ngày: 2024-05-23
Tác giả: Ao Wang, Hui Chen, Lihao Liu, và cộng sự.
Tổ chức: Tsinghua University
Tài nguyên: ArXiv Paper | GitHub Repository

Được phát triển bởi các nhà nghiên cứu tại Tsinghua University, YOLOv10 đã giới thiệu chiến lược gán nhãn kép nhất quán để loại bỏ nhu cầu sử dụng NMS. Bằng cách áp dụng thiết kế mô hình dựa trên sự cân bằng giữa hiệu suất và độ chính xác, nó đã giảm bớt sự dư thừa tính toán trong khi vẫn duy trì mAP (mean Average Precision) mạnh mẽ.

Điểm mạnh:

  • Kiến trúc không cần NMS: Người tiên phong ban đầu của thiết kế không cần NMS trong dòng mô hình YOLO, làm giảm đáng kể độ trễ cho các ứng dụng thời gian thực.
  • Hiệu suất: Cung cấp sự cân bằng tốt giữa số lượng tham số và tốc độ suy luận so với các mô hình thế hệ trước.

Điểm yếu:

  • Hỗ trợ tác vụ hạn chế: Tập trung chủ yếu vào nhận diện đối tượng tiêu chuẩn, thiếu hỗ trợ sẵn cho các tác vụ nâng cao như phân đoạn (segmentation) hoặc ước tính tư thế (pose estimation).
  • Trọng tâm học thuật: Cơ sở mã, mặc dù mạnh mẽ, nhưng nghiêng nhiều về nghiên cứu hơn là triển khai thực tế cấp doanh nghiệp.

Tìm hiểu thêm về YOLOv10

YOLO26: Tiêu chuẩn mới cho Edge và Cloud

Ngày: 2026-01-14
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Tài nguyên: GitHub Repository | Ultralytics Platform

Được phát hành như là phiên bản kế nhiệm của YOLO11, YOLO26 đưa khái niệm không cần NMS đến sự hiện thực hóa tối ưu. Nó tích hợp nguyên bản khả năng nhận diện end-to-end vào Ultralytics Platform được tối ưu hóa cao độ, cung cấp một bộ công cụ hoàn chỉnh cho quy trình học máy hiện đại.

YOLO26 giới thiệu một vài đột phá kiến trúc:

  • Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ hoàn toàn. Điều này giúp đơn giản hóa đáng kể quy trình xuất mô hình và cải thiện khả năng tương thích với các thiết bị biên và thiết bị công suất thấp.
  • Tốc độ suy luận trên CPU nhanh hơn tới 43%: Nhờ việc loại bỏ DFL và các tối ưu hóa cấu trúc, YOLO26 nhanh hơn đáng kể trên CPU, khiến nó trở nên lý tưởng cho các triển khai IoT và thiết bị di động.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật đào tạo Large Language Model (LLM) (như Kimi K2 của Moonshot AI), YOLO26 sử dụng hỗn hợp SGD và Muon. Điều này mang lại sự ổn định trong đào tạo chưa từng có và khả năng hội tụ nhanh hơn cho thị giác máy tính.
  • ProgLoss + STAL: Những hàm loss nâng cao này mang lại những cải tiến đáng kể trong việc nhận diện đối tượng nhỏ, vốn rất quan trọng đối với ảnh trên khônggiám sát an ninh dựa trên drone.
  • Cải tiến theo tác vụ: YOLO26 không chỉ là một trình nhận diện. Nó bao gồm loss Semantic Segmentation và multi-scale proto cho Segmentation, Residual Log-Likelihood Estimation (RLE) cho Pose Estimation, và loss góc chuyên biệt cho Oriented Bounding Boxes (OBB).

Tìm hiểu thêm về YOLO26

Phân tích hiệu suất và các chỉ số

Bảng sau đây so sánh hiệu suất nhận diện trên COCO của các mô hình YOLO26 và YOLOv10. Hãy lưu ý cách YOLO26 đạt được độ chính xác vượt trội trong khi vẫn duy trì hiệu quả tham số đặc biệt.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Ưu thế của Ultralytics: Hiệu quả đào tạo và bộ nhớ

Khi triển khai các mô hình vào sản xuất, yêu cầu bộ nhớ và hiệu quả đào tạo cũng quan trọng không kém tốc độ suy luận. Các mô hình Ultralytics, đặc biệt là YOLO26, được tối ưu hóa cao để giảm việc sử dụng bộ nhớ CUDA trong quá trình đào tạo. Điều này cho phép các nhà phát triển sử dụng batch sizes lớn hơn trên các GPU phổ thông, cắt giảm đáng kể thời gian đào tạo và chi phí tính toán. Ngược lại, các kiến trúc phức tạp hoặc các mô hình transformer nặng như RT-DETR thường đòi hỏi phần cứng cao cấp, đắt tiền để đào tạo hiệu quả.

Tích hợp liên tục và hệ sinh thái

Một trong những lợi ích lớn nhất khi chọn YOLO26 là sự tích hợp của nó với hệ sinh thái Ultralytics được bảo trì tốt. Từ gán nhãn dữ liệu đến theo dõi thí nghiệm, nền tảng này cung cấp mọi thứ mà một kỹ sư học máy cần trong một hệ thống hợp nhất.

Triển khai thực tế: Ví dụ mã nguồn

Điểm nhấn của Ultralytics là Tính dễ sử dụng hàng đầu trong ngành. Với Python API trực quan, việc chuyển đổi từ một mô hình cũ như YOLOv8 sang YOLO26 hiện đại chỉ đòi hỏi cập nhật một dòng code duy nhất.

Dưới đây là một ví dụ chạy được 100% minh họa cách đào tạo và thực hiện suy luận bằng YOLO26:

from ultralytics import YOLO

# 1. Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# 2. Train the model on the COCO8 dataset efficiently
# The MuSGD optimizer and efficient memory management are handled automatically
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="cpu",  # Easily switch to 0 for GPU
)

# 3. Perform NMS-free inference on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# 4. Display the results to screen
predictions[0].show()

# 5. Export to ONNX for simplified edge deployment
export_path = model.export(format="onnx")
print(f"Model exported successfully to {export_path}")

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLO26 và YOLOv10 phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLO26

YOLO26 là một lựa chọn mạnh mẽ cho:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Khi nào nên chọn YOLOv10

YOLOv10 được khuyến nghị cho:

  • Nhận diện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc nhận diện end-to-end mà không cần Non-Maximum Suppression, giảm bớt độ phức tạp khi triển khai.
  • Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác nhận diện trên nhiều quy mô mô hình khác nhau.
  • Ứng dụng yêu cầu độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Kết luận

Mặc dù YOLOv10 đã đóng góp đáng kể cho cộng đồng học thuật bằng việc giới thiệu mô hình không cần NMS, YOLO26 nâng tầm công nghệ này lên mức độ sẵn sàng cho cấp doanh nghiệp. Với bước tiến 43% về tốc độ CPU, trình tối ưu hóa MuSGD sáng tạo và tính linh hoạt vượt trội trên các tác vụ thị giác, YOLO26 nổi bật như lựa chọn tối ưu cho cả điện toán biên và triển khai cloud quy mô lớn.

Đối với các đội ngũ ưu tiên một cộng đồng tích cực, tài liệu toàn diện và trải nghiệm nhà phát triển mượt mà, hệ sinh thái Ultralytics là vô đối. Nếu bạn đang khám phá các mô hình cho các kịch bản chuyên biệt, bạn cũng có thể muốn nghiên cứu YOLO-World cho nhận diện từ vựng mở zero-shot. Tuy nhiên, đối với đại đa số các trường hợp sử dụng trong thực tế, YOLO26 là khuyến nghị dứt khoát.

Bình luận