Chuyển đến nội dung

Ultralytics YOLO26

Tổng quan

Ultralytics YOLO26 là một bước tiến mới nhất trong dòng YOLO về công cụ phát hiện đối tượng theo thời gian thực, được thiết kế từ đầu cho các thiết bị biên và thiết bị có công suất thấp. Nó giới thiệu một thiết kế tinh gọn, loại bỏ sự phức tạp không cần thiết, đồng thời tích hợp các cải tiến có mục tiêu để mang lại khả năng triển khai nhanh hơn, nhẹ hơn và dễ tiếp cận hơn.

Biểu đồ so sánh Ultralytics YOLO26

Thử mặc Ultralytics Nền tảng

Khám phá và chạy các mô hình YOLO26 trực tiếp trên nền tảng Ultralytics .

Kiến trúc của YOLO26 được định hướng bởi ba nguyên tắc cốt lõi:

  • Đơn giản: YOLO26 là một mô hình đầu cuối tích hợp, tạo ra các dự đoán trực tiếp mà không cần đến non-maximum suppression (NMS). Bằng cách loại bỏ bước hậu xử lý này, suy luận trở nên nhanh hơn, nhẹ hơn và dễ triển khai hơn trong các hệ thống thực tế. Phương pháp đột phá này lần đầu tiên được tiên phong trong YOLOv10 bởi Ao Wang tại Đại học Thanh Hoa và đã được phát triển thêm trong YOLO26.
  • Hiệu quả triển khai: Thiết kế end-to-end loại bỏ toàn bộ một giai đoạn của quy trình, đơn giản hóa đáng kể việc tích hợp, giảm độ trễ và làm cho việc triển khai trở nên mạnh mẽ hơn trong các môi trường khác nhau.
  • Đổi mới huấn luyện: YOLO26 giới thiệu bộ tối ưu hóa MuSGD, một sự kết hợp giữa SGDMuon — lấy cảm hứng từ những đột phá của Kimi K2 của Moonshot AI trong huấn luyện LLM. Bộ tối ưu hóa này mang lại sự ổn định nâng cao và hội tụ nhanh hơn, chuyển giao những tiến bộ tối ưu hóa từ các mô hình ngôn ngữ sang thị giác máy tính.
  • Tối ưu hóa theo tác vụ cụ thể: YOLO26 giới thiệu những cải tiến có mục tiêu cho các tác vụ chuyên biệt, bao gồm hàm mất mát phân đoạn ngữ nghĩa và các mô-đun proto đa tỷ lệ cho Segmentation, Ước tính Log-Likelihood dư (RLE) cho ước tính Pose độ chính xác cao, và giải mã tối ưu với hàm mất mát góc để giải quyết các vấn đề biên trong OBB.

Cùng với nhau, những cải tiến này mang lại một họ mô hình đạt được độ chính xác cao hơn trên các đối tượng nhỏ, cung cấp khả năng triển khai liền mạch và chạy nhanh hơn tới 43% trên CPU — làm cho YOLO26 trở thành một trong những mô hình YOLO thiết thực và dễ triển khai nhất cho đến nay đối với các môi trường bị hạn chế về tài nguyên.

Các tính năng chính

  • Loại bỏ DFL
    Mô-đun Distribution Focal Loss (DFL), mặc dù hiệu quả, thường làm phức tạp quá trình xuất và hạn chế khả năng tương thích phần cứng. YOLO26 loại bỏ hoàn toàn DFL, đơn giản hóa suy luận và mở rộng hỗ trợ cho các thiết bị biên và công suất thấp.

  • Suy luận đầu cuối không NMS
    Không giống như các bộ phát hiện truyền thống dựa vào NMS như một bước hậu xử lý riêng biệt, YOLO26 là đầu cuối tích hợp. Các dự đoán được tạo trực tiếp, giảm độ trễ và giúp tích hợp vào các hệ thống sản xuất nhanh hơn, nhẹ hơn và đáng tin cậy hơn.

  • ProgLoss + STAL
    Các hàm mất mát được cải tiến giúp tăng độ chính xác phát hiện, với những cải tiến đáng kể trong nhận dạng vật thể nhỏ, một yêu cầu quan trọng đối với IoT, robot, hình ảnh trên không và các ứng dụng biên khác.

  • Bộ tối ưu hóa MuSGD
    Một bộ tối ưu hóa lai mới kết hợp SGD với Muon. Lấy cảm hứng từ Kimi K2 của Moonshot AI, MuSGD giới thiệu các phương pháp tối ưu hóa tiên tiến từ huấn luyện LLM vào thị giác máy tính, cho phép huấn luyện ổn định hơn và hội tụ nhanh hơn.

  • Suy luận CPU nhanh hơn tới 43%
    Được tối ưu hóa đặc biệt cho điện toán biên, YOLO26 mang lại suy luận CPU nhanh hơn đáng kể, đảm bảo hiệu suất thời gian thực trên các thiết bị không có GPU.

  • Cải tiến phân đoạn thực thể
    Giới thiệu hàm mất mát phân đoạn ngữ nghĩa để cải thiện sự hội tụ của mô hình và một mô-đun proto được nâng cấp tận dụng thông tin đa tỷ lệ để có chất lượng mặt nạ vượt trội.

  • Ước tính Tư thế Chính xác
    Tích hợp Residual Log-Likelihood Estimation (RLE) để định vị điểm khóa chính xác hơn và tối ưu hóa quá trình giải mã nhằm tăng tốc độ suy luận.

  • Giải mã OBB Tinh chỉnh
    Giới thiệu một hàm mất mát góc chuyên biệt để cải thiện độ chính xác detect cho các đối tượng hình vuông và tối ưu hóa giải mã obb để giải quyết các vấn đề gián đoạn ranh giới.

Biểu đồ so sánh End-to-End của Ultralytics YOLO26


Các Tác vụ và Chế độ được Hỗ trợ

YOLO26 được xây dựng dựa trên phạm vi mô hình linh hoạt được thiết lập bởi các bản phát hành Ultralytics YOLO trước đó, cung cấp hỗ trợ nâng cao cho nhiều tác vụ thị giác máy tính khác nhau:

Mô hìnhTên tập tinTác vụSuy luậnXác thựcHuấn luyệnXuất
YOLO26yolo26n.pt yolo26s.pt yolo26m.pt yolo26l.pt yolo26x.ptPhát hiện vật thể
YOLO26-segyolo26n-seg.pt yolo26s-seg.pt yolo26m-seg.pt yolo26l-seg.pt yolo26x-seg.ptPhân đoạn thực thể
YOLO26-poseyolo26n-pose.pt yolo26s-pose.pt yolo26m-pose.pt yolo26l-pose.pt yolo26x-pose.ptTư thế/Điểm chính
YOLO26-obbyolo26n-obb.pt yolo26s-obb.pt yolo26m-obb.pt yolo26l-obb.pt yolo26x-obb.ptPhát hiện theo hướng (Oriented Detection)
YOLO26-clsyolo26n-cls.pt yolo26s-cls.pt yolo26m-cls.pt yolo26l-cls.pt yolo26x-cls.ptPhân loại (Classification)

Khung thống nhất này đảm bảo YOLO26 có thể áp dụng trên các lĩnh vực dò tìm theo thời gian thực, phân đoạn, phân loại, ước tính tư thế và dò tìm đối tượng theo hướng — tất cả đều có hỗ trợ huấn luyện, xác thực, suy luận và xuất.


Các chỉ số hiệu suất

Hiệu suất

Xem Tài liệu Detection để biết các ví dụ sử dụng với các mô hình này được huấn luyện trên COCO, bao gồm 80 lớp được huấn luyện trước.

Mô hìnhKích thước
(pixels)
mAPval
50-95
mAPval
50-95(e2e)
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n64040.940.138.9 ± 0.71.7 ± 0.02.45.4
YOLO26s64048.647.887.2 ± 0.92.5 ± 0.09.520.7
YOLO26m64053.152.5220.0 ± 1.44.7 ± 0.120.468.2
YOLO26l64055.054.4286.2 ± 2.06.2 ± 0.224.886.4
YOLO26x64057.556.9525.8 ± 4.011.8 ± 0.255.7193.9

Xem Tài liệu Segmentation để biết ví dụ sử dụng với các mô hình này được huấn luyện trên COCO, bao gồm 80 lớp đã được huấn luyện trước.

Mô hìnhKích thước
(pixels)
mAPbox
50-95(e2e)
mAPmask
50-95(e2e)
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n-seg64039.633.953.3 ± 0.52.1 ± 0.02.79.1
YOLO26s-seg64047.340.0118.4 ± 0.93.3 ± 0.010.434.2
YOLO26m-seg64052.544.1328.2 ± 2.46.7 ± 0.123.6121.5
YOLO26l-seg64054.445.5387.0 ± 3.78.0 ± 0.128.0139.8
YOLO26x-seg64056.547.0787.0 ± 6.816.4 ± 0.162.8313.5

Xem Tài liệu Classification để biết ví dụ sử dụng với các mô hình này được huấn luyện trên ImageNet, bao gồm 1000 lớp đã được huấn luyện trước.

Mô hìnhKích thước
(pixels)
acc
top1
acc
top5
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B) ở 224
YOLO26n-cls22471.490.15.0 ± 0.31.1 ± 0.02.80.5
YOLO26s-cls22476.092.97.9 ± 0.21.3 ± 0.06.71.6
YOLO26m-cls22478.194.217.2 ± 0.42.0 ± 0.011.64.9
YOLO26l-cls22479.094.623.2 ± 0.32.8 ± 0.014.16.2
YOLO26x-cls22479.995.041.4 ± 0.93.8 ± 0.029.613.6

Xem Tài liệu Ước tính Tư thế để biết các ví dụ sử dụng với các mô hình này được huấn luyện trên COCO, bao gồm 1 lớp được huấn luyện trước là 'person'.

Mô hìnhKích thước
(pixels)
mAPpose
50-95(e2e)
mAPpose
50(e2e)
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n-pose64057.283.340.3 ± 0.51.8 ± 0.02.97.5
YOLO26s-pose64063.086.685.3 ± 0.92.7 ± 0.010.423.9
YOLO26m-pose64068.889.6218.0 ± 1.55.0 ± 0.121.573.1
YOLO26l-pose64070.490.5275.4 ± 2.46.5 ± 0.125.991.3
YOLO26x-pose64071.691.6565.4 ± 3.012.2 ± 0.257.6201.7

Xem Tài liệu Oriented Detection để biết ví dụ sử dụng với các mô hình này được huấn luyện trên DOTAv1, bao gồm 15 lớp đã được huấn luyện trước.

Mô hìnhKích thước
(pixels)
mAPtest
50-95(e2e)
mAPtest
50(e2e)
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n-obb102452.478.997.7 ± 0.92.8 ± 0.02.514.0
YOLO26s-obb102454.880.9218.0 ± 1.44.9 ± 0.19.855.1
YOLO26m-obb102455.381.0579.2 ± 3.810.2 ± 0.321.2183.3
YOLO26l-obb102456.281.6735.6 ± 3.113.0 ± 0.225.6230.0
YOLO26x-obb102456.781.71485.7 ± 11.530.5 ± 0.957.6516.5

Ví dụ sử dụng

Phần này cung cấp các ví dụ đơn giản về huấn luyện và suy luận YOLO26. Để có tài liệu đầy đủ về các chế độ này và các chế độ khác, hãy xem các trang tài liệu Predict, Train, ValExport.

Lưu ý rằng ví dụ dưới đây dành cho các mô hình YOLO26 Detect cho phát hiện đối tượng. Đối với các tác vụ được hỗ trợ bổ sung, hãy xem tài liệu Segment, Classify, OBBPose.

Ví dụ

PyTorch đã được huấn luyện trước *.pt các mô hình cũng như cấu hình *.yaml các tệp có thể được chuyển đến YOLO() class để tạo một thể hiện mô hình trong Python:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO26n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

Các lệnh CLI có sẵn để chạy trực tiếp các mô hình:

# Load a COCO-pretrained YOLO26n model and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained YOLO26n model and run inference on the 'bus.jpg' image
yolo predict model=yolo26n.pt source=path/to/bus.jpg

Kiến trúc đầu kép

YOLO26 sở hữu kiến ​​trúc hai đầu đọc/ghi , mang lại sự linh hoạt cho các kịch bản triển khai khác nhau:

  • Chế độ một đối một (Mặc định): Tạo ra các dự đoán từ đầu đến cuối mà không cần NMS , xuất ra (N, 300, 6) Với tối đa 300 phát hiện trên mỗi hình ảnh. Đầu đọc này được tối ưu hóa cho quá trình suy luận nhanh và triển khai đơn giản.
  • Đầu một-nhiềuTạo ra truyền thống YOLO đầu ra yêu cầu NMS xử lý hậu kỳ, xuất dữ liệu (N, nc + 4, 8400) trong đó nc là số lượng lớp. Đầu đọc này thường đạt được độ chính xác cao hơn một chút nhưng cần thêm thời gian xử lý.

Bạn có thể chuyển đổi giữa các head trong quá trình xuất dữ liệu, dự đoán hoặc xác thực:

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# Use one-to-one head (default, no NMS required)
results = model.predict("image.jpg")  # inference
metrics = model.val(data="coco.yaml")  # validation
model.export(format="onnx")  # export

# Use one-to-many head (requires NMS)
results = model.predict("image.jpg", end2end=False)  # inference
metrics = model.val(data="coco.yaml", end2end=False)  # validation
model.export(format="onnx", end2end=False)  # export
# Use one-to-one head (default, no NMS required)
yolo predict model=yolo26n.pt source=image.jpg
yolo val model=yolo26n.pt data=coco.yaml
yolo export model=yolo26n.pt format=onnx

# Use one-to-many head (requires NMS)
yolo predict model=yolo26n.pt source=image.jpg end2end=False
yolo val model=yolo26n.pt data=coco.yaml end2end=False
yolo export model=yolo26n.pt format=onnx end2end=False

Sự lựa chọn phụ thuộc vào yêu cầu triển khai của bạn: sử dụng đầu đọc/ghi một-đối-một để đạt tốc độ và sự đơn giản tối đa, hoặc đầu đọc/ghi một-đối-nhiều khi độ chính xác là ưu tiên hàng đầu.

YOLOE-26: Phân đoạn thực thể từ vựng mở

YOLOE-26 tích hợp kiến trúc YOLO26 hiệu suất cao với khả năng từ vựng mở của dòng YOLOE. Nó cho phép detect và segment theo thời gian thực bất kỳ lớp đối tượng nào bằng cách sử dụng lời nhắc văn bản, lời nhắc hình ảnh hoặc chế độ không lời nhắc để suy luận zero-shot, loại bỏ hiệu quả các ràng buộc của huấn luyện danh mục cố định.

Bằng cách tận dụng thiết kế NMS-free, end-to-end của YOLO26, YOLOE-26 mang lại khả năng suy luận thế giới mở nhanh chóng. Điều này làm cho nó trở thành một giải pháp mạnh mẽ cho các ứng dụng biên trong môi trường động, nơi các đối tượng quan tâm đại diện cho một từ vựng rộng và đang phát triển.

Hiệu suất

Xem Tài liệu YOLOE để biết các ví dụ sử dụng với các mô hình này được huấn luyện trên các tập dữ liệu Objects365v1, GQAFlickr30k.

Mô hìnhKích thước
(pixels)
Loại lời nhắcmAPminival
50-95(e2e)
mAPminival
50-95
mAPrmAPcmAPfTham số
(M)
FLOPs
(B)
YOLOE-26n-seg640Văn bản/Hình ảnh23.7 / 20.924.7 / 21.920.5 / 17.624.1 / 22.326.1 / 22.44.86.0
YOLOE-26s-seg640Văn bản/Hình ảnh29.9 / 27.130.8 / 28.623.9 / 25.129.6 / 27.833.0 / 29.913.121.7
YOLOE-26m-seg640Văn bản/Hình ảnh35.4 / 31.335.4 / 33.931.1 / 33.434.7 / 34.036.9 / 33.827.970.1
YOLOE-26l-seg640Văn bản/Hình ảnh36.8 / 33.737.8 / 36.335.1 / 37.637.6 / 36.238.5 / 36.132.388.3
YOLOE-26x-seg640Văn bản/Hình ảnh39.5 / 36.240.6 / 38.537.4 / 35.340.9 / 38.841.0 / 38.869.9196.7

Xem Tài liệu YOLOE để biết các ví dụ sử dụng với các mô hình này được huấn luyện trên các tập dữ liệu Objects365v1, GQAFlickr30k.

Mô hìnhKích thước
(pixels)
mAPminival
50-95(e2e)
mAPminival
50(e2e)
Tham số
(M)
FLOPs
(B)
YOLOE-26n-seg-pf64016.622.76.515.8
YOLOE-26s-seg-pf64021.428.616.235.5
YOLOE-26m-seg-pf64025.733.636.2122.1
YOLOE-26l-seg-pf64027.235.440.6140.4
YOLOE-26x-seg-pf64029.938.786.3314.4

Ví dụ Sử dụng

YOLOE-26 hỗ trợ cả lời nhắc dựa trên văn bản và hình ảnh. Việc sử dụng lời nhắc rất đơn giản—chỉ cần truyền chúng qua predict phương pháp như hình dưới đây:

Ví dụ

Lời nhắc văn bản cho phép bạn chỉ định các lớp mà bạn muốn detect thông qua mô tả bằng văn bản. Đoạn mã sau đây cho thấy cách bạn có thể sử dụng YOLOE-26 để detect người và xe buýt trong một hình ảnh:

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg.pt")  # or select yoloe-26s/m-seg.pt for different sizes

# Set text prompt to detect person and bus. You only need to do this once after you load the model.
names = ["person", "bus"]
model.set_classes(names, model.get_text_pe(names))

# Run detection on the given image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Visual prompts cho phép bạn hướng dẫn mô hình bằng cách hiển thị cho nó các ví dụ trực quan về các lớp mục tiêu, thay vì mô tả chúng bằng văn bản.

import numpy as np

from ultralytics import YOLO
from ultralytics.models.yolo.yoloe import YOLOEVPSegPredictor

# Initialize model
model = YOLO("yoloe-26l-seg.pt")

# Define visual prompts using bounding boxes and their corresponding class IDs.
# Each box highlights an example of the object you want the model to detect.
visual_prompts = dict(
    bboxes=np.array(
        [
            [221.52, 405.8, 344.98, 857.54],  # Box enclosing person
            [120, 425, 160, 445],  # Box enclosing glasses
        ],
    ),
    cls=np.array(
        [
            0,  # ID to be assigned for person
            1,  # ID to be assigned for glasses
        ]
    ),
)

# Run inference on an image, using the provided visual prompts as guidance
results = model.predict(
    "ultralytics/assets/bus.jpg",
    visual_prompts=visual_prompts,
    predictor=YOLOEVPSegPredictor,
)

# Show results
results[0].show()

YOLOE-26 bao gồm các biến thể không lời nhắc đi kèm với một bộ từ vựng tích hợp. Các mô hình này không yêu cầu bất kỳ lời nhắc nào và hoạt động như các mô hình YOLO truyền thống. Thay vì dựa vào các nhãn do người dùng cung cấp hoặc các ví dụ trực quan, chúng detect đối tượng từ một danh sách 4.585 lớp được định nghĩa trước dựa trên bộ thẻ được sử dụng bởi Recognize Anything Model Plus (RAM++).

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg-pf.pt")

# Run prediction. No prompts required.
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Để tìm hiểu sâu về các kỹ thuật nhắc nhở, huấn luyện từ đầu và các ví dụ sử dụng đầy đủ, hãy truy cập Tài liệu YOLOE.

Trích dẫn và Lời cảm ơn

Ấn phẩm Ultralytics YOLO26

Ultralytics chưa công bố bài nghiên cứu chính thức nào cho YOLO26 do tính chất phát triển nhanh chóng của các mô hình. Thay vào đó, chúng tôi tập trung vào việc cung cấp các mô hình tiên tiến và giúp chúng dễ sử dụng. Để biết các bản cập nhật mới nhất về các tính năng, kiến trúc và cách sử dụng YOLO, hãy truy cập kho lưu trữ GitHubtài liệu của chúng tôi.

Nếu bạn sử dụng YOLO26 hoặc phần mềm Ultralytics khác trong công việc của mình, vui lòng trích dẫn như sau:

@software{yolo26_ultralytics,
  author = {Glenn Jocher and Jing Qiu},
  title = {Ultralytics YOLO26},
  version = {26.0.0},
  year = {2026},
  url = {https://github.com/ultralytics/ultralytics},
  orcid = {0000-0001-5950-6979, 0000-0003-3783-7069},
  license = {AGPL-3.0}
}

Đang chờ DOI. YOLO26 có sẵn theo giấy phép AGPL-3.0Enterprise.


Câu hỏi thường gặp

Những cải tiến chính trong YOLO26 so với YOLO11 là gì?

  • Loại bỏ DFL: Đơn giản hóa xuất và mở rộng khả năng tương thích edge
  • Suy luận không NMS từ đầu đến cuối: Loại bỏ NMS để triển khai nhanh hơn, đơn giản hơn
  • ProgLoss + STAL: Tăng độ chính xác, đặc biệt là trên các vật thể nhỏ
  • Trình tối ưu hóa MuSGD: Kết hợp SGD và Muon (lấy cảm hứng từ Kimi K2 của Moonshot) để huấn luyện ổn định và hiệu quả hơn
  • Suy luận CPU nhanh hơn tới 43%: Cải thiện hiệu suất đáng kể cho các thiết bị chỉ có CPU

YOLO26 hỗ trợ những tác vụ nào?

YOLO26 là một họ mô hình hợp nhất, cung cấp hỗ trợ toàn diện cho nhiều tác vụ thị giác máy tính:

Mỗi biến thể kích thước (n, s, m, l, x) hỗ trợ tất cả các tác vụ, cùng với các phiên bản từ vựng mở thông qua YOLOE-26.

Tại sao YOLO26 được tối ưu hóa để triển khai ở biên?

YOLO26 mang lại hiệu suất vượt trội ở biên với:

  • Suy luận CPU nhanh hơn đến 43%
  • Giảm kích thước mô hình và dung lượng bộ nhớ
  • Kiến trúc được đơn giản hóa để tương thích (không DFL, không NMS)
  • Các định dạng xuất linh hoạt bao gồm TensorRT, ONNX, CoreML, TFLite và OpenVINO

Làm thế nào để bắt đầu với YOLO26?

Các mô hình YOLO26 đã được phát hành vào ngày 14 tháng 1 năm 2026 và có sẵn để tải xuống. Cài đặt hoặc cập nhật ultralytics gói và tải một mô hình:

from ultralytics import YOLO

# Load a pretrained YOLO26 nano model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("image.jpg")

Xem phần Ví dụ Sử dụng để biết hướng dẫn về huấn luyện, xác thực và xuất.



📅 Được tạo 3 tháng trước ✏️ Cập nhật 0 ngày trước
glenn-jocherY-T-GLaughing-qraimbekovmfcakyonlmycrosspderrenger

Bình luận