Chuyển đến nội dung

YOLO26 so với YOLOv10: Sự phát triển của Phát hiện đối tượng từ đầu đến cuối (End-to-End)

Bức tranh phát hiện đối tượng thời gian thực đã phát triển nhanh chóng, chuyển từ các pipeline đa giai đoạn phức tạp sang các kiến trúc end-to-end tinh gọn. Hai mô hình then chốt trong quá trình chuyển đổi này là YOLO26, sản phẩm tiên tiến nhất từ Ultralytics, và YOLOv10, một đột phá học thuật từ Đại học Thanh Hoa.

Mặc dù cả hai mô hình đều ủng hộ việc loại bỏ Non-Maximum Suppression (NMS) để đơn giản hóa việc triển khai, chúng khác biệt đáng kể về mục tiêu tối ưu hóa, hỗ trợ hệ sinh thái và các cải tiến kiến trúc. Hướng dẫn này cung cấp một cái nhìn sâu sắc về mặt kỹ thuật về sự khác biệt của chúng để giúp bạn chọn công cụ phù hợp cho các dự án thị giác máy tính của mình.

Điểm chuẩn hiệu suất

Bảng sau so sánh hiệu suất của YOLO26 và YOLOv10 trên bộ dữ liệu xác thực COCO. YOLO26 thể hiện độ chính xác vượt trội (mAP) và tốc độ suy luận, đặc biệt trên phần cứng CPU nơi nó được tối ưu hóa đặc biệt cho triển khai biên.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Ultralytics YOLO26

YOLO26 đại diện cho đỉnh cao của dòng mô hình Ultralytics, được phát hành vào tháng 1 năm 2026. Kế thừa di sản của YOLOv8YOLO11, nó giới thiệu một thiết kế end-to-end nguyên bản, loại bỏ nhu cầu xử lý hậu kỳ NMS, đồng thời mang lại những cải thiện đáng kể về tốc độ trên các thiết bị biên.

Các Đổi Mới Kiến Trúc Chính

  • Suy luận End-to-End không NMS: Giống như YOLOv10, YOLO26 loại bỏ bước NMS. Điều này đơn giản hóa quy trình triển khai, đảm bảo đầu ra của mô hình sẵn sàng cho logic hạ nguồn ngay lập tức, giảm sự biến động độ trễ trong các hệ thống thời gian thực.
  • Loại bỏ DFL: Kiến trúc này loại bỏ Distribution Focal Loss (DFL). Thay đổi này đơn giản hóa đáng kể quá trình xuất sang các định dạng như ONNXTensorRT, đồng thời tăng cường khả năng tương thích với phần cứng biên công suất thấp vốn có thể gặp khó khăn với các lớp đầu ra phức tạp.
  • Bộ tối ưu hóa MuSGD: Một bộ tối ưu hóa huấn luyện mới lạ kết hợp Stochastic Gradient Descent (SGD) với Muon (lấy cảm hứng từ các kỹ thuật huấn luyện LLM từ Moonshot AI). Điều này giúp hội tụ nhanh hơn và quá trình huấn luyện ổn định hơn so với các thiết lập AdamW hoặc SGD truyền thống.
  • ProgLoss + STAL: Việc tích hợp Cân bằng mất mát lũy tiến (Progressive Loss Balancing) và Gán nhãn nhận biết mục tiêu nhỏ (Small-Target-Aware Label Assignment - STAL) trực tiếp giải quyết các điểm yếu phổ biến trong phát hiện đối tượng, đặc biệt cải thiện hiệu suất trên các đối tượng nhỏ được tìm thấy trong ảnh chụp từ trên không hoặc trong lĩnh vực logistics.

Tìm hiểu thêm về YOLO26

Ứng dụng thực tế và Điểm mạnh

YOLO26 được thiết kế như một mô hình thị giác phổ quát. Ngoài khả năng phát hiện, nó còn hỗ trợ nguyên bản phân đoạn thể hiện, ước tính tư thế, phát hiện oriented bounding box (OBB)phân loại hình ảnh.

Việc tối ưu hóa cho suy luận trên CPU khiến nó trở thành lựa chọn lý tưởng cho các ứng dụng AI biên, chẳng hạn như chạy trên Raspberry Pi hoặc thiết bị di động, nơi tài nguyên GPU không có sẵn.

Hiệu quả biên

YOLO26 được tối ưu hóa để suy luận trên CPU nhanh hơn tới 43% so với các thế hệ trước, biến nó thành một yếu tố thay đổi cuộc chơi cho các thiết bị IoT chạy bằng pin và hệ thống nhúng.

YOLOv10

YOLOv10, được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, là một mô hình tiên phong trong việc giới thiệu huấn luyện không NMS cho dòng YOLO. Nó tập trung mạnh vào việc giảm sự dư thừa trong phần đầu mô hình và loại bỏ nút thắt cổ chai tính toán của xử lý hậu kỳ.

Các tính năng chính

  • Gán kép nhất quán: YOLOv10 sử dụng chiến lược gán kép trong quá trình huấn luyện—sử dụng gán một-nhiều để giám sát phong phú và gán một-một để đạt hiệu quả. Điều này cho phép mô hình được huấn luyện hiệu quả trong khi hoạt động theo cách end-to-end trong quá trình suy luận.
  • Thiết kế hiệu quả toàn diện: Kiến trúc này sử dụng các đầu phân loại nhẹ và lấy mẫu xuống tách kênh không gian để giảm chi phí tính toán (FLOPs).
  • Thiết kế khối dẫn hướng theo thứ hạng: Để cải thiện hiệu quả, YOLOv10 điều chỉnh thiết kế khối dựa trên giai đoạn của mạng, giảm sự dư thừa trong các lớp sâu hơn.

Hạn chế

Mặc dù đổi mới, YOLOv10 chủ yếu là một dự án nghiên cứu học thuật. Nó thiếu sự hỗ trợ tác vụ mở rộng được tìm thấy trong YOLO26 (chẳng hạn như các mô hình OBB hoặc Pose nguyên bản trong kho lưu trữ chính thức) và không được hưởng lợi từ mức độ bảo trì liên tục và hỗ trợ tích hợp tương tự do hệ sinh thái Ultralytics cung cấp.

Tìm hiểu thêm về YOLOv10

So sánh kỹ thuật chi tiết

Huấn luyện và Tối ưu hóa

YOLO26 giới thiệu bộ tối ưu hóa MuSGD, một phương pháp tiếp cận lai mang những đổi mới về độ ổn định từ huấn luyện Mô hình Ngôn ngữ Lớn (LLM) vào thị giác máy tính. Điều này trái ngược với YOLOv10, vốn dựa vào các kỹ thuật tối ưu hóa tiêu chuẩn. Ngoài ra, YOLO26 sử dụng ProgLoss (Progressive Loss) để điều chỉnh động trọng số mất mát trong quá trình huấn luyện, đảm bảo rằng mô hình tập trung vào các ví dụ khó hơn khi quá trình huấn luyện tiến triển.

Tốc độ suy luận và Triển khai

Cả hai mô hình đều cung cấp suy luận end-to-end, loại bỏ nút thắt cổ chai NMS. Tuy nhiên, YOLO26 còn tiến xa hơn bằng cách loại bỏ DFL, vốn thường làm phức tạp quá trình xuất sang CoreML hoặc TFLite. Các thử nghiệm cho thấy YOLO26 đạt được suy luận nhanh hơn tới 43% trên CPU, làm nổi bật sự tập trung của nó vào việc triển khai biên thực tế, trong thế giới thực thay vì chỉ giảm FLOP GPU về mặt lý thuyết.

Tính linh hoạt và Hệ sinh thái

Ultralytics YOLO26 không chỉ là một mô hình phát hiện; nó là một nền tảng. Người dùng có thể chuyển đổi liền mạch giữa các tác vụ như Phân đoạn, Ước tính tư thếOBB bằng cách sử dụng cùng một API.

from ultralytics import YOLO

# Load a YOLO26 model for different tasks
model_det = YOLO("yolo26n.pt")  # Detection
model_seg = YOLO("yolo26n-seg.pt")  # Segmentation
model_pose = YOLO("yolo26n-pose.pt")  # Pose Estimation

# Run inference
results = model_det("image.jpg")

Ngược lại, YOLOv10 chủ yếu tập trung vào phát hiện đối tượng, với sự hỗ trợ chính thức hạn chế cho các tác vụ hạ nguồn phức tạp này.

Tại sao chọn Ultralytics YOLO26?

Đối với các nhà phát triển và doanh nghiệp, YOLO26 cung cấp một giải pháp mạnh mẽ hơn:

  1. Dễ sử dụng: API python và CLI của Ultralytics là các tiêu chuẩn công nghiệp về sự đơn giản. Huấn luyện, xác thực và xuất chỉ là các lệnh một dòng.
  2. Hệ sinh thái được duy trì tốt: Ultralytics cung cấp các bản cập nhật thường xuyên, sửa lỗi và một cộng đồng phát triển mạnh trên DiscordGitHub.
  3. Hiệu quả huấn luyện: Với các trọng số được huấn luyện trước có sẵn cho tất cả các tác vụ và kích thước, học chuyển giao nhanh chóng và hiệu quả, yêu cầu ít bộ nhớ GPU hơn so với các lựa chọn thay thế dựa trên transformer như RT-DETR.
  4. Sẵn sàng triển khai: Hỗ trợ mở rộng cho các định dạng xuất—bao gồm OpenVINO, TensorRT và ONNX—đảm bảo mô hình của bạn chạy ở mọi nơi.

Kết luận

Trong khi YOLOv10 tiên phong kiến trúc YOLO không NMS, YOLO26 tinh chỉnh và mở rộng khái niệm này thành một cỗ máy mạnh mẽ sẵn sàng cho sản xuất. Với độ chính xác vượt trội, các tối ưu hóa biên chuyên biệt và hỗ trợ tác vụ toàn diện, YOLO26 là lựa chọn được khuyến nghị cho các ứng dụng thị giác máy tính hiện đại, từ phân tích thành phố thông minh đến giám sát nông nghiệp.

Các Mô hình Khác để Khám phá

Nếu bạn quan tâm đến việc khám phá các lựa chọn khác trong hệ sinh thái Ultralytics, hãy cân nhắc:

  • YOLO11: Tiền nhiệm đáng tin cậy, mang lại hiệu suất tổng thể xuất sắc.
  • YOLO-World: Dành cho phát hiện từ vựng mở, nơi bạn cần detect các đối tượng không có trong dữ liệu huấn luyện của mình.
  • RT-DETR: Một bộ detect dựa trên transformer cho các kịch bản yêu cầu độ chính xác cao, nơi tốc độ suy luận ít quan trọng hơn.

Bình luận