Ultralytics YOLO26
Tổng quan
Ultralytics YOLO26 là bước tiến mới nhất trong dòng sản phẩm YOLO, một bộ dò đối tượng thời gian thực được xây dựng từ đầu cho các thiết bị biên và thiết bị tiêu thụ năng lượng thấp. Nó giới thiệu một thiết kế tinh gọn, loại bỏ các thành phần phức tạp không cần thiết, đồng thời tích hợp những cải tiến có mục tiêu để mang lại hiệu suất triển khai nhanh hơn, nhẹ hơn và dễ tiếp cận hơn.

Khám phá và chạy các mô hình YOLO26 trực tiếp trên Ultralytics Platform.
Kiến trúc của YOLO26 được dẫn dắt bởi ba nguyên tắc cốt lõi:
- Đơn giản hóa: YOLO26 là một mô hình end-to-end tự nhiên, tạo ra các dự đoán trực tiếp mà không cần dùng đến non-maximum suppression (NMS). Bằng cách loại bỏ bước xử lý hậu kỳ này, quá trình inference trở nên nhanh hơn, nhẹ hơn và dễ triển khai hơn trong các hệ thống thực tế. Cách tiếp cận đột phá này lần đầu được tiên phong trong YOLOv10 bởi Ao Wang tại Đại học Thanh Hoa và tiếp tục được nâng cấp trong YOLO26.
- Hiệu suất triển khai: Thiết kế end-to-end loại bỏ toàn bộ một giai đoạn trong pipeline, giúp đơn giản hóa đáng kể việc tích hợp, giảm độ trễ và làm cho việc triển khai trở nên bền bỉ hơn trên nhiều môi trường khác nhau.
- Đổi mới trong huấn luyện: YOLO26 giới thiệu trình tối ưu hóa MuSGD, một phiên bản lai giữa SGD và Muon — lấy cảm hứng từ các đột phá của Kimi K2 thuộc Moonshot AI trong quá trình huấn luyện LLM. Trình tối ưu hóa này mang lại sự ổn định cao hơn và tốc độ hội tụ nhanh hơn, chuyển giao các tiến bộ tối ưu hóa từ mô hình ngôn ngữ sang lĩnh vực thị giác máy tính.
- Tối ưu hóa cho từng tác vụ: YOLO26 giới thiệu các cải tiến mục tiêu cho các tác vụ chuyên biệt, bao gồm hàm mất mát phân đoạn ngữ nghĩa (semantic segmentation loss) và các proto module đa quy mô cho Segmentation, ước tính hợp lý log-residual (RLE) cho việc ước tính Pose độ chính xác cao, và giải mã tối ưu hóa với hàm mất mát góc (angle loss) để giải quyết các vấn đề biên trong OBB.
Cùng với nhau, những đổi mới này tạo nên một dòng mô hình đạt độ chính xác cao hơn đối với các đối tượng nhỏ, cung cấp quy trình triển khai liền mạch và chạy nhanh hơn tới 43% trên CPU — khiến YOLO26 trở thành một trong những mô hình YOLO thực tế và dễ triển khai nhất tính đến nay cho các môi trường hạn chế về tài nguyên.
Các tính năng chính
-
Loại bỏ DFL\nModule Distribution Focal Loss (DFL), mặc dù hiệu quả, nhưng thường gây phức tạp cho việc xuất mô hình và hạn chế khả năng tương thích phần cứng. YOLO26 loại bỏ hoàn toàn DFL, giúp đơn giản hóa quá trình inference và mở rộng khả năng hỗ trợ cho các thiết bị biên và thiết bị tiêu thụ năng lượng thấp.
-
Inference End-to-End không cần NMS\nKhông giống như các bộ dò truyền thống dựa vào NMS như một bước xử lý hậu kỳ riêng biệt, YOLO26 là tự nhiên end-to-end. Các dự đoán được tạo ra trực tiếp, giúp giảm độ trễ và làm cho việc tích hợp vào các hệ thống sản xuất trở nên nhanh hơn, nhẹ hơn và đáng tin cậy hơn.
-
ProgLoss + STAL\nCác hàm mất mát được cải tiến giúp tăng độ chính xác trong phát hiện, với những cải tiến đáng chú ý trong nhận diện đối tượng nhỏ, một yêu cầu quan trọng đối với IoT, robot, hình ảnh trên không và các ứng dụng biên khác.
-
Trình tối ưu hóa MuSGD\nMột trình tối ưu hóa lai mới kết hợp SGD với Muon. Lấy cảm hứng từ Kimi K2 của Moonshot AI, MuSGD giới thiệu các phương pháp tối ưu hóa nâng cao từ việc huấn luyện LLM vào thị giác máy tính, cho phép huấn luyện ổn định hơn và hội tụ nhanh hơn.
-
Inference CPU nhanh hơn tới 43%\nĐược tối ưu hóa đặc biệt cho điện toán biên, YOLO26 mang lại tốc độ inference CPU nhanh hơn đáng kể, đảm bảo hiệu suất thời gian thực trên các thiết bị không có GPU.
-
Cải tiến Instance Segmentation\nGiới thiệu hàm mất mát phân đoạn ngữ nghĩa để cải thiện quá trình hội tụ mô hình và một proto module nâng cấp tận dụng thông tin đa quy mô để đạt chất lượng mặt nạ (mask) vượt trội.
-
Ước tính Pose độ chính xác cao\nTích hợp Residual Log-Likelihood Estimation (RLE) để định vị keypoint chính xác hơn và tối ưu hóa quy trình giải mã để tăng tốc độ inference.
-
Giải mã OBB tinh chỉnh\nGiới thiệu một hàm mất mát góc chuyên biệt để cải thiện độ chính xác trong phát hiện các đối tượng hình vuông và tối ưu hóa giải mã OBB để giải quyết các vấn đề gián đoạn biên.

Các tác vụ và chế độ được hỗ trợ
YOLO26 xây dựng dựa trên dải mô hình linh hoạt được thiết lập bởi các bản phát hành Ultralytics YOLO trước đó, cung cấp khả năng hỗ trợ nâng cao trên nhiều tác vụ thị giác máy tính khác nhau:
| Model | Tên tệp | Tác vụ | Suy luận (Inference) | Validation | Training | Export |
|---|---|---|---|---|---|---|
| YOLO26 | yolo26n.pt yolo26s.pt yolo26m.pt yolo26l.pt yolo26x.pt | Detection | ✅ | ✅ | ✅ | ✅ |
| YOLO26-seg | yolo26n-seg.pt yolo26s-seg.pt yolo26m-seg.pt yolo26l-seg.pt yolo26x-seg.pt | Instance Segmentation | ✅ | ✅ | ✅ | ✅ |
| YOLO26-sem | yolo26n-sem.pt yolo26s-sem.pt yolo26m-sem.pt yolo26l-sem.pt yolo26x-sem.pt | Semantic Segmentation | ✅ | ✅ | ✅ | ✅ |
| YOLO26-pose | yolo26n-pose.pt yolo26s-pose.pt yolo26m-pose.pt yolo26l-pose.pt yolo26x-pose.pt | Pose/Keypoints | ✅ | ✅ | ✅ | ✅ |
| YOLO26-obb | yolo26n-obb.pt yolo26s-obb.pt yolo26m-obb.pt yolo26l-obb.pt yolo26x-obb.pt | Oriented Detection | ✅ | ✅ | ✅ | ✅ |
| YOLO26-cls | yolo26n-cls.pt yolo26s-cls.pt yolo26m-cls.pt yolo26l-cls.pt yolo26x-cls.pt | Classification | ✅ | ✅ | ✅ | ✅ |
Framework thống nhất này đảm bảo YOLO26 có thể áp dụng cho các tác vụ phát hiện thời gian thực, instance segmentation, semantic segmentation, phân loại, ước tính pose và phát hiện đối tượng có định hướng — tất cả đều hỗ trợ huấn luyện, validation, inference và xuất mô hình.
yolo26-p2.yaml và yolo26-p6.yaml bổ sung thêm head phát hiện P2 (đối tượng nhỏ) hoặc P6 (đầu vào lớn) và chỉ được cung cấp dưới dạng kiến trúc YAML. Không có file trọng số yolo26*-p2.pt hoặc yolo26*-p6.pt cụ thể theo quy mô nào được phát hành. Hãy khởi tạo cấu hình được thu nhỏ từ YAML (ví dụ: YOLO("yolo26n-p6.yaml")) và huấn luyện hoặc fine-tune tùy theo nhu cầu.
Các chỉ số hiệu suất
Xem Tài liệu phát hiện để biết ví dụ sử dụng với các mô hình này đã được huấn luyện trên COCO, bao gồm 80 lớp được huấn luyện trước.
| Model | kích thước (pixel) | mAPval 50-95 | mAPval 50-95(e2e) | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 40.1 | 38.9 ± 0.7 | 1.7 ± 0.0 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 47.8 | 87.2 ± 0.9 | 2.5 ± 0.0 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 52.5 | 220.0 ± 1.4 | 4.7 ± 0.1 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 54.4 | 286.2 ± 2.0 | 6.2 ± 0.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 56.9 | 525.8 ± 4.0 | 11.8 ± 0.2 | 55.7 | 193.9 |
Các giá trị Params và FLOPs áp dụng cho model đã được hợp nhất sau khi gọi model.fuse(), giúp gộp các lớp Conv và BatchNorm và loại bỏ head phát hiện one-to-many phụ. Các checkpoint pretrained vẫn giữ nguyên kiến trúc huấn luyện đầy đủ và có thể hiển thị số lượng cao hơn.
Ví dụ sử dụng
Phần này cung cấp các ví dụ đơn giản về huấn luyện và inference với YOLO26. Để xem tài liệu đầy đủ về các chế độ này và các chế độ khác, hãy xem các trang tài liệu Predict, Train, Val, và Export.
Lưu ý rằng ví dụ dưới đây áp dụng cho các model YOLO26 Detect dành cho object detection. Đối với các tác vụ được hỗ trợ bổ sung, hãy xem tài liệu Segment, Semantic Segmentation, Classify, OBB, và Pose.
PyTorch pretrained *.pt models as well as configuration *.yaml files can be passed to the YOLO() class to create a model instance in Python:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the YOLO26n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")YOLO26 sở hữu kiến trúc dual-head mang lại sự linh hoạt cho các kịch bản triển khai khác nhau:
- One-to-One Head (Mặc định): Tạo ra các dự đoán end-to-end mà không cần NMS, xuất ra
(N, 300, 6)với tối đa 300 đối tượng được phát hiện mỗi ảnh. Head này được tối ưu hóa cho inference tốc độ cao và triển khai đơn giản. - One-to-Many Head: Tạo ra các đầu ra YOLO truyền thống yêu cầu hậu xử lý NMS, xuất ra
(N, nc + 4, 8400)trong đónclà số lượng lớp. Head này thường đạt độ chính xác cao hơn một chút với cái giá là xử lý bổ sung.
Bạn có thể chuyển đổi giữa các head trong quá trình export, dự đoán hoặc xác thực:
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
# Use one-to-one head (default, no NMS required)
results = model.predict("image.jpg") # inference
metrics = model.val(data="coco.yaml") # validation
model.export(format="onnx") # export
# Use one-to-many head (requires NMS)
results = model.predict("image.jpg", end2end=False) # inference
metrics = model.val(data="coco.yaml", end2end=False) # validation
model.export(format="onnx", end2end=False) # exportLựa chọn phụ thuộc vào yêu cầu triển khai của bạn: sử dụng one-to-one head để đạt tốc độ và sự đơn giản tối đa, hoặc sử dụng one-to-many head khi độ chính xác là ưu tiên hàng đầu.
YOLOE-26: Segment đối tượng từ vựng mở (Open-Vocabulary Instance Segmentation)
YOLOE-26 tích hợp kiến trúc YOLO26 hiệu năng cao với khả năng từ vựng mở của dòng YOLOE. Nó cho phép phát hiện và segment thời gian thực bất kỳ lớp đối tượng nào bằng cách sử dụng text prompts, visual prompts, hoặc chế độ không prompt cho inference zero-shot, loại bỏ hiệu quả các hạn chế của việc huấn luyện theo danh mục cố định.
Bằng cách tận dụng thiết kế NMS-free, end-to-end của YOLO26, YOLOE-26 mang lại inference thế giới mở với tốc độ nhanh. Điều này biến nó thành một giải pháp mạnh mẽ cho các ứng dụng tại biên (edge) trong các môi trường năng động nơi các đối tượng quan tâm đại diện cho một bộ từ vựng rộng lớn và không ngừng phát triển.
Xem Tài liệu YOLOE để biết các ví dụ sử dụng với các model này đã được huấn luyện trên các tập dữ liệu Objects365v1, GQA và Flickr30k.
| Model | kích thước (pixel) | Loại Prompt | mAPminival 50-95(e2e) | mAPminival 50-95 | mAPr | mAPc | mAPf | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|---|---|---|
| YOLOE-26n-seg | 640 | Văn bản/Hình ảnh | 23.7 / 20.9 | 24.7 / 21.9 | 20.5 / 17.6 | 24.1 / 22.3 | 26.1 / 22.4 | 4.8 | 6.0 |
| YOLOE-26s-seg | 640 | Văn bản/Hình ảnh | 29.9 / 27.1 | 30.8 / 28.6 | 23.9 / 25.1 | 29.6 / 27.8 | 33.0 / 29.9 | 13.1 | 21.7 |
| YOLOE-26m-seg | 640 | Văn bản/Hình ảnh | 35.4 / 31.3 | 35.4 / 33.9 | 31.1 / 33.4 | 34.7 / 34.0 | 36.9 / 33.8 | 27.9 | 70.1 |
| YOLOE-26l-seg | 640 | Văn bản/Hình ảnh | 36.8 / 33.7 | 37.8 / 36.3 | 35.1 / 37.6 | 37.6 / 36.2 | 38.5 / 36.1 | 32.3 | 88.3 |
| YOLOE-26x-seg | 640 | Văn bản/Hình ảnh | 39.5 / 36.2 | 40.6 / 38.5 | 37.4 / 35.3 | 40.9 / 38.8 | 41.0 / 38.8 | 69.9 | 196.7 |
Ví dụ sử dụng
YOLOE-26 hỗ trợ cả prompt dựa trên văn bản và hình ảnh. Việc sử dụng prompt rất đơn giản—chỉ cần truyền chúng qua phương thức predict như hình dưới:
Text prompt cho phép bạn chỉ định các lớp mà bạn muốn phát hiện thông qua mô tả bằng văn bản. Đoạn mã sau cho thấy cách bạn có thể sử dụng YOLOE-26 để phát hiện người và xe buýt trong ảnh:
from ultralytics import YOLO
# Initialize model
model = YOLO("yoloe-26l-seg.pt") # or select yoloe-26s/m-seg.pt for different sizes
# Set text prompt to detect person and bus. You only need to do this once after you load the model.
model.set_classes(["person", "bus"])
# Run detection on the given image
results = model.predict("path/to/image.jpg")
# Show results
results[0].show()Để đi sâu vào các kỹ thuật prompt, đào tạo từ đầu và các ví dụ sử dụng đầy đủ, hãy truy cập Tài liệu YOLOE.
Trích dẫn và Ghi nhận
Ultralytics chưa xuất bản một bài nghiên cứu chính thức cho YOLO26 do tính chất phát triển nhanh chóng của các mô hình này. Thay vào đó, chúng tôi tập trung vào việc cung cấp các mô hình tiên tiến và làm cho chúng dễ sử dụng. Để cập nhật mới nhất về các tính năng, kiến trúc và cách sử dụng YOLO, hãy truy cập kho lưu trữ GitHub và tài liệu của chúng tôi.
Nếu bạn sử dụng YOLO26 hoặc phần mềm khác của Ultralytics trong công việc của mình, vui lòng trích dẫn như sau:
@software{yolo26_ultralytics,
author = {Glenn Jocher and Jing Qiu},
title = {Ultralytics YOLO26},
version = {26.0.0},
year = {2026},
url = {https://github.com/ultralytics/ultralytics},
orcid = {0000-0001-5950-6979, 0000-0003-3783-7069},
license = {AGPL-3.0}
}DOI đang chờ xử lý. YOLO26 được cung cấp theo giấy phép AGPL-3.0 và Enterprise.
Câu hỏi thường gặp
Những cải tiến chính trong YOLO26 so với YOLO11 là gì?
- Loại bỏ DFL: Đơn giản hóa việc xuất và mở rộng khả năng tương thích với thiết bị biên
- Suy luận End-to-End không cần NMS: Loại bỏ NMS để triển khai nhanh hơn, đơn giản hơn
- ProgLoss + STAL: Tăng độ chính xác, đặc biệt là trên các đối tượng nhỏ
- Bộ tối ưu hóa MuSGD: Kết hợp SGD và Muon (lấy cảm hứng từ Kimi K2 của Moonshot) để đào tạo ổn định và hiệu quả hơn
- Suy luận CPU nhanh hơn tới 43%: Hiệu suất tăng đáng kể cho các thiết bị chỉ dùng CPU
YOLO26 hỗ trợ những tác vụ nào?
YOLO26 là một họ mô hình thống nhất, cung cấp hỗ trợ end-to-end cho nhiều tác vụ thị giác máy tính:
- Phát hiện đối tượng
- Instance Segmentation
- Semantic Segmentation
- Phân loại hình ảnh
- Ước tính tư thế
- Phát hiện đối tượng định hướng (OBB)
Mỗi biến thể kích thước (n, s, m, l, x) đều hỗ trợ tất cả các tác vụ, cộng với các phiên bản open-vocabulary thông qua YOLOE-26.
Tại sao YOLO26 được tối ưu hóa cho triển khai trên thiết bị biên?
YOLO26 mang lại hiệu suất thiết bị biên tiên tiến nhất với:
- Suy luận CPU nhanh hơn tới 43%
- Giảm kích thước mô hình và mức tiêu thụ bộ nhớ
- Kiến trúc được đơn giản hóa để đảm bảo tính tương thích (không DFL, không NMS)
- Các định dạng xuất linh hoạt bao gồm TensorRT, ONNX, CoreML, TFLite và OpenVINO
Làm thế nào để bắt đầu với YOLO26?
Các mô hình YOLO26 đã được phát hành vào ngày 14 tháng 1 năm 2026 và hiện đã có sẵn để tải xuống. Hãy cài đặt hoặc cập nhật gói ultralytics và tải mô hình:
from ultralytics import YOLO
# Load a pretrained YOLO26 nano model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("image.jpg")Xem phần Usage Examples để biết hướng dẫn về đào tạo, xác thực và xuất mô hình.