Chuyển đến nội dung

YOLOv10 So sánh với YOLO26: Sự tiến hóa của phát hiện đối tượng từ đầu đến cuối

Lĩnh vực thị giác máy tính đã chứng kiến ​​những bước tiến vượt bậc trong những năm gần đây, chuyển từ các kiến ​​trúc phức tạp, nặng về xử lý hậu kỳ sang các mô hình đơn giản, hoàn chỉnh từ đầu đến cuối. Bài so sánh kỹ thuật này đi sâu vào hai cột mốc quan trọng trong hành trình đó: bước đột phá về mặt học thuật của YOLOv10 và YOLO26 tiên tiến, sẵn sàng cho doanh nghiệp. Bằng cách xem xét kiến ​​trúc, phương pháp huấn luyện và khả năng triển khai thực tế của chúng, các nhà phát triển có thể đưa ra quyết định sáng suốt khi xây dựng ứng dụng AI thị giác tiếp theo của mình.

YOLOv10 Tiên phong trong phát hiện đối tượng từ đầu đến cuối

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 23/05/2024
Liên kết: Bài báo trên arXiv | Kho lưu trữ GitHub

Ra mắt vào giữa năm 2024, YOLOv10 Nó đại diện cho một bước tiến đáng kể trong nghiên cứu thị giác máy tính học thuật bằng cách giải quyết một trong những nút thắt cổ chai dai dẳng nhất trong phát hiện đối tượng thời gian thực: Loại bỏ cực đại không đồng nhất (Non-Maximum Suppression) NMS Các thiết bị dò vật thể truyền thống phụ thuộc rất nhiều vào... NMS để lọc bỏ các hộp giới hạn dư thừa, gây ra độ trễ thay đổi trong quá trình suy luận và làm phức tạp việc triển khai ở biên.

Nhóm nghiên cứu Đại học Thanh Hoa đã giới thiệu chiến lược phân công kép nhất quán cho NMS - huấn luyện miễn phí. Điều này cho phép mô hình dự đoán chính xác các hộp giới hạn mà không cần bước lọc xử lý hậu kỳ, trực tiếp cải thiện độ trễ suy luận và giảm rào cản triển khai trên các bộ tăng tốc phần cứng. Mặc dù rất hiệu quả đối với các tác vụ phát hiện tiêu chuẩn, mô hình chủ yếu tập trung vào dự đoán hộp giới hạn và thiếu hỗ trợ gốc cho các tác vụ phức tạp hơn như phân đoạn đối tượng hoặc ước tính tư thế.

Tìm hiểu thêm về YOLOv10

YOLO26: Tiêu chuẩn mới cho trí tuệ nhân tạo thị giác biên và đám mây

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 14/01/2026
Liên kết: Kho lưu trữ GitHub | Nền tảng Ultralytics

Tiếp nối NMS Tiếp nối những khái niệm tiên phong trước đây, YOLO26 mới ra mắt đại diện cho đỉnh cao về hiệu năng và tính linh hoạt. Được thiết kế cho cả nghiên cứu học thuật và triển khai cấp doanh nghiệp, nó tích hợp sẵn thiết kế hoàn toàn không cần hệ NMS , loại bỏ hoàn toàn những rào cản. NMS Xử lý hậu kỳ giúp triển khai nhanh hơn, đơn giản hơn trên tất cả các phần cứng được hỗ trợ.

YOLO26 giới thiệu một số cải tiến kiến ​​trúc đột phá. Việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL) giúp đơn giản hóa đáng kể quy trình xuất mô hình và tăng cường khả năng tương thích với các thiết bị biên công suất thấp. Kết hợp với những thay đổi cấu trúc này, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , trở thành lựa chọn vượt trội cho các ứng dụng IoT và robot. GPU Tính năng tăng tốc có thể không khả dụng.

Hơn nữa, tính ổn định của quá trình huấn luyện và tốc độ hội tụ đã được cách mạng hóa nhờ việc sử dụng Trình tối ưu hóa MuSGD , một sự kết hợp giữa... SGD và Muon được lấy cảm hứng từ các kỹ thuật huấn luyện LLM. Kết hợp với các hàm mất mát tiên tiến như ProgLoss + STAL , YOLO26 tự hào có những cải tiến đáng kể trong nhận dạng vật thể nhỏ. Nó cũng giới thiệu các cải tiến dành riêng cho từng nhiệm vụ, bao gồm tạo mẫu đa tỷ lệ cho phân đoạn, ước lượng logarit khả năng dư (RLE) cho ước lượng tư thế và một hàm mất mát góc chuyên dụng để giải quyết các vấn đề về ranh giới trong phát hiện hộp giới hạn định hướng (OBB).

Tìm hiểu thêm về YOLO26

Triển khai doanh nghiệp

Đối với các nhóm muốn mở rộng quy mô quy trình làm việc thị giác máy tính, Nền tảng Ultralytics cung cấp khả năng tích hợp liền mạch với YOLO26, mang đến khả năng chú thích dữ liệu trực quan, đào tạo đám mây tự động và các tùy chọn triển khai chỉ bằng một cú nhấp chuột mà không cần cơ sở hạ tầng MLOps phức tạp.

So sánh hiệu suất kỹ thuật

Khi đánh giá các mô hình này, sự cân bằng giữa độ chính xác, kích thước mô hình và tốc độ suy luận là rất quan trọng. Bảng dưới đây nêu bật hiệu suất của cả hai nhóm mô hình trên nhiều quy mô khác nhau, được đánh giá trên tập dữ liệu COCO chuẩn.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Dữ liệu chứng minh rõ ràng lợi thế tiến hóa của kiến ​​trúc mới hơn. YOLO26 đạt được mAP (Độ chính xác trung bình) cao hơn trên tất cả các cấp kích thước trong khi vẫn duy trì tốc độ suy luận rất cạnh tranh. Việc loại bỏ DFL trong YOLO26 góp phần đặc biệt vào hiệu suất vượt trội của nó. CPU ONNX hiệu năng, một chỉ số mà các thế hệ trước thường gặp khó khăn.

Phương pháp luận đào tạo và Hệ sinh thái

Một mô hình chỉ hữu ích khi có hệ sinh thái hỗ trợ nó. Trong khi đó, YOLOv10 Mặc dù đã cung cấp một giải pháp triển khai học thuật xuất sắc dựa trên PyTorch , nhưng nó thường yêu cầu cấu hình thủ công cho các tác vụ vượt ra ngoài phạm vi phát hiện cơ bản.

Ngược lại, YOLO26 được tích hợp hoàn toàn vào hệ thống được bảo trì tốt. Ultralytics Hệ sinh thái này đảm bảo yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các mô hình dựa trên Transformer như RT-DETR , cho phép các nhà nghiên cứu huấn luyện các mạng tiên tiến trên phần cứng cấp độ người tiêu dùng. Tính dễ sử dụng là vô song, cung cấp API thống nhất xử lý việc tăng cường dữ liệu, điều chỉnh siêu tham số và ghi nhật ký tự động.

Ví dụ mã: Huấn luyện YOLO26

Việc huấn luyện một mô hình đa năng, có độ chính xác cao chỉ cần một vài dòng lệnh. Python mã số:

from ultralytics import YOLO

# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with automatic memory management
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
)

# Export natively to TensorRT without NMS complexities
model.export(format="engine")

Các ứng dụng và trường hợp sử dụng trong thực tế

Việc lựa chọn kiến ​​trúc phù hợp hoàn toàn phụ thuộc vào các ràng buộc triển khai.

Điện toán biên tốc độ cao

Đối với các ứng dụng yêu cầu triển khai nhanh chóng trên vi điều khiển, robot hoặc thiết bị di động đời cũ, tốc độ nhanh hơn 43% sẽ đáp ứng được yêu cầu này. CPU Việc suy luận từ YOLO26 khiến nó trở thành sự lựa chọn tối ưu. NMS Kiến trúc không cần DFL, cho phép chuyển đổi liền mạch sang các định dạng như OpenVINOTensorRT , lý tưởng cho việc phân tích video thời gian thực trong cơ sở hạ tầng thành phố thông minh.

Thị giác đa nhiệm nâng cao

Trong khi YOLOv10 Với khả năng vượt trội trong việc phát hiện hộp giới hạn thuần túy, các dự án yêu cầu hiểu biết hình ảnh phong phú phải dựa vào YOLO26. Từ phân đoạn đối tượng trong hình ảnh y tế đến ước tính tư thế chính xác cho phân tích thể thao, YOLO26 cung cấp các hàm mất mát chuyên biệt cho từng nhiệm vụ, đảm bảo độ chính xác vượt trội trên nhiều lĩnh vực khác nhau.

Các lựa chọn thay thế

Nếu dự án của bạn yêu cầu khả năng phát hiện từ vựng mở mạnh mẽ, hãy cân nhắc khám phá YOLO -World . Đối với người dùng đang duy trì các pipeline cũ, YOLO11 vẫn là một lựa chọn thay thế mạnh mẽ và được hỗ trợ đầy đủ. Ultralytics khung.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOv10 Việc lựa chọn YOLO26 phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là một lựa chọn tốt cho:

  • NMS - Phát hiện thời gian thực không cần hệ thống quản lý truy cập (NMS): Các ứng dụng được hưởng lợi từ khả năng phát hiện toàn diện mà không cần hệ thống loại bỏ truy cập không tối đa (Non-Maximum Suppression), giúp giảm độ phức tạp khi triển khai.
  • Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác phát hiện trên nhiều quy mô mô hình khác nhau.
  • Ứng dụng độ trễ ổn định: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robot hoặc hệ thống tự hành.

Khi nào nên chọn YOLO26

YOLO26 được khuyến nghị sử dụng cho:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Kết luận

Sự chuyển đổi từ YOLOv10 Hội nghị YOLO26 đánh dấu một bước chuyển đổi quan trọng từ bằng chứng khái niệm mang tính học thuật sang các giải pháp doanh nghiệp sẵn sàng cho sản xuất. Bằng cách áp dụng phương pháp tiên phong... NMS Với thiết kế hoàn toàn miễn phí và được nâng cao bằng trình tối ưu hóa MuSGD, ProgLoss, cùng khả năng tương thích cạnh được tối ưu hóa, YOLO26 thiết lập một tiêu chuẩn mới cho những gì có thể đạt được trong thị giác máy tính thời gian thực. Đối với các nhà phát triển hướng đến sự cân bằng tốt nhất giữa tốc độ, độ chính xác và khả năng sử dụng, YOLO26 nổi bật như một sự lựa chọn tối ưu.


Bình luận