Meet YOLO26: next-gen vision AI.

Link to this sectionPhân đoạn ngữ nghĩa (Semantic Segmentation)#

Semantic segmentation examples

Phân đoạn ngữ nghĩa gán nhãn lớp cho mọi pixel trong ảnh, tạo ra một bản đồ lớp dày đặc bao phủ toàn bộ khung cảnh. Khác với phân đoạn cá thể, vốn tách biệt các đối tượng riêng lẻ, phân đoạn ngữ nghĩa nhóm tất cả các pixel cùng lớp lại với nhau bất kể có bao nhiêu đối tượng riêng biệt hiện diện.



Watch: How to Train Ultralytics YOLO26 Semantic Segmentation Model on Custom Dataset | Ultralytics Platform

Đầu ra của một mô hình phân đoạn ngữ nghĩa là một bản đồ lớp đơn lẻ có kích thước chiều cao nhân chiều rộng, trong đó mỗi giá trị pixel tương ứng với một ID lớp được dự đoán. Điều này làm cho phân đoạn ngữ nghĩa trở nên lý tưởng cho các tác vụ phân tích cảnh như lái xe tự động, hình ảnh y tế và lập bản đồ che phủ đất.

Mẹo

Sử dụng task=semantic hoặc tác vụ CLI yolo semantic cho phân đoạn ngữ nghĩa. Các tệp mô hình phân đoạn ngữ nghĩa YOLO26 sử dụng hậu tố -sem, ví dụ: yolo26n-sem.pt.

Link to this sectionModel#

Các mô hình phân đoạn ngữ nghĩa YOLO26 được huấn luyện trước trên tập dữ liệu Cityscapes được hiển thị bên dưới.

Các Models sẽ tự động tải xuống từ release mới nhất của Ultralytics ngay lần đầu sử dụng.

Mô hìnhkích thước
(pixel)
mIoUvalTốc độ
RTX3090 PyTorch
(ms)
params
(M)
FLOPs
(B)
YOLO26n-sem1024 × 204878.34.4 ± 0.01.622.7
YOLO26s-sem1024 × 204880.88.4 ± 0.06.588.8
YOLO26m-sem1024 × 204882.019.9 ± 0.114.3304.5
YOLO26l-sem1024 × 204882.926.5 ± 0.117.9384.7
YOLO26x-sem1024 × 204883.648.9 ± 0.240.2861.7
  • Các giá trị mIoUval dành cho mô hình đơn lẻ quy mô đơn trên tập xác thực Cityscapes.
    Tái tạo với yolo semantic val data=cityscapes.yaml device=0 imgsz=2048
  • Các chỉ số Tốc độ được tính trung bình trên các ảnh xác thực Cityscapes sử dụng instance RTX3090.
    Tái tạo với yolo semantic val data=cityscapes.yaml batch=1 device=0|cpu imgsz=2048
  • Các giá trị ParamsFLOPs dành cho model đã được hợp nhất sau model.fuse(), giúp gộp các lớp Conv và BatchNorm. Các checkpoint đã được huấn luyện trước vẫn giữ nguyên kiến trúc huấn luyện đầy đủ và có thể hiển thị số lượng cao hơn.

Các model semantic segmentation YOLO26 được huấn luyện trước trên tập dữ liệu ADE20K được hiển thị dưới đây.

Các Models sẽ tự động tải xuống từ release mới nhất của Ultralytics ngay lần đầu sử dụng.

Mô hìnhkích thước
(pixel)
mIoUvalTốc độ
RTX3090 PyTorch
(ms)
params
(M)
FLOPs
(B)
YOLO26n-sem-ade20k64038.83.9 ± 0.21.64.4
YOLO26s-sem-ade20k64045.64.2 ± 0.36.517.4
YOLO26m-sem-ade20k64047.44.7 ± 0.314.359.5
YOLO26l-sem-ade20k64049.78.3 ± 0.217.975.0
YOLO26x-sem-ade20k64051.59.9 ± 0.340.2168.1
  • Các giá trị mIoUval dành cho single-model single-scale trên tập validation ADE20K.
    Tái lập bằng lệnh yolo semantic val model=yolo26n-sem-ade20k.pt data=ade20k.yaml device=0 imgsz=640, thay thế yolo26n-sem-ade20k.pt bằng checkpoint yolo26*-sem-ade20k.pt mong muốn.
  • Các chỉ số Speed được tính trung bình trên các ảnh validation của ADE20K sử dụng instance RTX3090.
    Tái lập bằng lệnh yolo semantic val model=yolo26n-sem-ade20k.pt data=ade20k.yaml batch=1 device=0|cpu imgsz=640, thay thế yolo26n-sem-ade20k.pt bằng checkpoint yolo26*-sem-ade20k.pt mong muốn.
  • Các giá trị ParamsFLOPs dành cho model đã được hợp nhất sau model.fuse(), giúp gộp các lớp Conv và BatchNorm. Các checkpoint đã được huấn luyện trước vẫn giữ nguyên kiến trúc huấn luyện đầy đủ và có thể hiển thị số lượng cao hơn.

Link to this sectionHuấn luyện (Train)#

Huấn luyện YOLO26n-sem trên tập dữ liệu Cityscapes8 trong 100 epoch ở kích thước ảnh 1024. Để có danh sách đầy đủ các tham số khả dụng, hãy xem trang Cấu hình.

Ví dụ
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-sem.yaml")  # build a new model from YAML
model = YOLO("yolo26n-sem.pt")  # load a pretrained model (recommended for training)
model = YOLO("yolo26n-sem.yaml").load("yolo26n-sem.pt")  # build from YAML and transfer weights

# Train the model
results = model.train(data="cityscapes8.yaml", epochs=100, imgsz=1024)

Xem chi tiết đầy đủ về chế độ train trong trang Huấn luyện.

Link to this sectionĐịnh dạng tập dữ liệu#

Các tập dữ liệu phân đoạn ngữ nghĩa sử dụng ảnh mặt nạ kênh đơn, thường là định dạng PNG, trong đó mỗi giá trị pixel đại diện cho một ID lớp. Các pixel có giá trị 255 được coi là "bỏ qua" (ignore) và bị loại trừ khỏi quá trình tính toán hàm mất mát. Tệp YAML của tập dữ liệu cần chỉ định đường dẫn tới ảnh và các thư mục mặt nạ tương ứng. Xem Hướng dẫn Tập dữ liệu Phân đoạn Ngữ nghĩa để biết chi tiết định dạng. Các tập dữ liệu được hỗ trợ bao gồm CityscapesADE20K.

Link to this sectionVal#

Xác thực độ chính xác của mô hình YOLO26n-sem đã huấn luyện trên tập dữ liệu phân đoạn ngữ nghĩa. Hãy truyền data một cách rõ ràng để quá trình xác thực sử dụng đúng tệp YAML của tập dữ liệu mong muốn.

Ví dụ
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-sem.pt")  # load an official model
model = YOLO("path/to/best.pt")  # load a custom model

# Validate the model
metrics = model.val(data="cityscapes.yaml")
metrics.miou  # mean Intersection over Union
metrics.pixel_accuracy  # overall pixel accuracy

Link to this sectionDự đoán (Predict)#

Sử dụng mô hình YOLO26n-sem đã huấn luyện để thực hiện dự đoán trên hình ảnh.

Ví dụ
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-sem.pt")  # load an official model
model = YOLO("path/to/best.pt")  # load a custom model

# Predict with the model
results = model("https://ultralytics.com/images/bus.jpg")  # predict on an image

# Access the results
for result in results:
    semantic_mask = result.semantic_mask.data  # class map, shape (H,W), integer dtype selected by class count

Xem chi tiết đầy đủ về chế độ predict trong trang Dự đoán.

Link to this sectionĐầu ra kết quả#

Phân đoạn ngữ nghĩa YOLO trả về một đối tượng Results cho mỗi hình ảnh. Mỗi kết quả lưu trữ một bản đồ lớp dày đặc cho toàn bộ hình ảnh thay vì danh sách các mặt nạ đối tượng. Các pixel có cùng lớp dự đoán sẽ chia sẻ cùng một ID lớp, ngay cả khi chúng thuộc về các đối tượng riêng biệt.

Thuộc tínhLoạiKích thướcMô tả
result.semantic_maskSemanticMask(H,W)Bản đồ lớp dày đặc.
result.semantic_mask.datatorch.uint8
torch.int16
torch.int32
(H,W)ID lớp; dtype được chọn dựa trên số lượng lớp.
result.masks--Không có mask thực thể.
result.boxes--Không có khung bao/độ tin cậy thực thể.
result.masks.xy--Không có đa giác mặc định.

Để biết các trường Results cụ thể cho từng tác vụ, hãy xem phần Dự đoán kết quả theo tác vụ.

Link to this sectionPhân đoạn Cá thể so với Phân đoạn Ngữ nghĩa#

Khía cạnhPhân đoạn Cá thể (task="segment")Phân đoạn Ngữ nghĩa (task="semantic")
Mục tiêu dự đoánPhân đoạn riêng biệt từng đối tượng được phát hiệnGán một ID lớp cho mọi pixel
Trường đầu raresult.masksresult.semantic_mask
Dữ liệu chínhresult.masks.dataresult.semantic_mask.data
Kích thước(N,H,W)(H,W)
Giá trị pixelGiá trị mặt nạ nhị phân: 0 hoặc 1ID lớp: 0, 1, 2, ...
Dtypetorch.uint8torch.uint8
torch.int16
torch.int32
Các đối tượng cùng lớpĐược giữ nguyên dưới dạng các cá thể riêng biệtHợp nhất thành cùng một vùng lớp
Đa giác (Polygons)Có, thông qua result.masks.xyresult.masks.xynKhông có đầu ra đa giác theo mặc định
Hộp bao (Boxes) và độ tin cậyCó, thông qua result.boxesKhông có hộp bao hoặc điểm tin cậy cho từng cá thể
Sử dụng điển hìnhĐếm, theo dõi, cắt, đo lường cấp độ đối tượngGán nhãn cảnh dày đặc, khu vực có thể lái xe, che phủ đất, vùng y tế

Link to this sectionXuất (Export)#

Xuất mô hình YOLO26n-sem sang một định dạng khác như ONNX, CoreML, v.v.

Ví dụ
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-sem.pt")  # load an official model
model = YOLO("path/to/best.pt")  # load a custom model

# Export the model
model.export(format="onnx")

Các định dạng xuất phân đoạn ngữ nghĩa YOLO26 khả dụng có trong bảng dưới đây. Bạn có thể xuất sang bất kỳ định dạng nào bằng cách sử dụng tham số format, ví dụ: format='onnx' hoặc format='engine'. Bạn có thể dự đoán hoặc xác thực trực tiếp trên các mô hình đã xuất, ví dụ: yolo predict model=yolo26n-sem.onnx. Các ví dụ sử dụng được hiển thị cho mô hình của bạn sau khi quá trình xuất hoàn tất.

Định dạngTham số formatMô hìnhMetadataTham số
PyTorch-yolo26n-sem.pt-
TorchScripttorchscriptyolo26n-sem.torchscriptimgsz, quantize, dynamic, optimize, nms, batch, device
ONNXonnxyolo26n-sem.onnximgsz, quantize, dynamic, simplify, opset, nms, batch, data, fraction, device
OpenVINOopenvinoyolo26n-sem_openvino_model/imgsz, quantize, dynamic, nms, batch, data, fraction, device
TensorRTengineyolo26n-sem.engineimgsz, quantize, dynamic, simplify, workspace, nms, batch, data, fraction, device
CoreMLcoremlyolo26n-sem.mlpackageimgsz, dynamic, quantize, nms, batch, device
TF SavedModelsaved_modelyolo26n-sem_saved_model/imgsz, keras, quantize, nms, batch, data, fraction, device
TF GraphDefpbyolo26n-sem.pbimgsz, batch, device
TF Litetfliteyolo26n-sem.tfliteimgsz, quantize, nms, batch, data, fraction, device
TF Edge TPUedgetpuyolo26n-sem_edgetpu.tfliteimgsz, quantize, data, fraction, device
TF.jstfjsyolo26n-sem_web_model/imgsz, quantize, nms, batch, data, fraction, device
PaddlePaddlepaddleyolo26n-sem_paddle_model/imgsz, batch, device
MNNmnnyolo26n-sem.mnnimgsz, batch, quantize, device
NCNNncnnyolo26n-sem_ncnn_model/imgsz, quantize, batch, device
IMX500imxyolo26n-sem_imx_model/imgsz, quantize, data, fraction, nms, device
RKNNrknnyolo26n-sem_rknn_model/imgsz, batch, name, quantize, data, fraction, device
ExecuTorchexecutorchyolo26n-sem_executorch_model/imgsz, batch, device
Axeleraaxelerayolo26n-sem_axelera_model/imgsz, batch, quantize, data, fraction, device
DEEPXdeepxyolo26n-sem_deepx_model/imgsz, quantize, data, optimize, device
Qualcomm QNNqnnyolo26n-sem_qnn.onnximgsz, batch, name, quantize, data, fraction, device

Xem chi tiết export đầy đủ trong trang Export.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionLàm cách nào để huấn luyện mô hình phân đoạn ngữ nghĩa YOLO26 trên tập dữ liệu tùy chỉnh?#

Để huấn luyện mô hình phân đoạn ngữ nghĩa YOLO26 trên tập dữ liệu tùy chỉnh, bạn cần chuẩn bị các ảnh mặt nạ PNG trong đó mỗi giá trị pixel đại diện cho một ID lớp (0, 1, 2, ...) và các pixel có giá trị 255 sẽ bị bỏ qua trong quá trình huấn luyện. Tạo một tệp YAML tập dữ liệu trỏ đến các thư mục ảnh và mặt nạ của bạn, sau đó huấn luyện mô hình:

Ví dụ
from ultralytics import YOLO

# Load a pretrained YOLO26 semantic segmentation model
model = YOLO("yolo26n-sem.pt")

# Train the model
results = model.train(data="path/to/your_dataset.yaml", epochs=100, imgsz=512)

Kiểm tra trang Configuration để biết thêm các tham số khả dụng.

Link to this sectionSự khác biệt giữa phân đoạn cá thể và phân đoạn ngữ nghĩa là gì?#

Phân đoạn cá thể và phân đoạn ngữ nghĩa đều là các tác vụ ở cấp độ pixel nhưng khác nhau ở một điểm chính:

  • Phân đoạn ngữ nghĩa gán một nhãn lớp cho mọi pixel nhưng không phân biệt giữa các đối tượng riêng lẻ cùng lớp. Ví dụ, tất cả xe hơi trong một cảnh đều chia sẻ cùng một nhãn lớp.
  • Phân đoạn cá thể xác định từng đối tượng riêng lẻ một cách tách biệt, tạo ra các mặt nạ riêng biệt cho mỗi đối tượng ngay cả khi chúng thuộc cùng một lớp.

Phân đoạn ngữ nghĩa phù hợp nhất cho các tác vụ hiểu cảnh như lái xe tự động và lập bản đồ che phủ đất, trong khi phân đoạn cá thể được ưu tiên khi việc đếm hoặc theo dõi từng đối tượng riêng lẻ là quan trọng.

Link to this sectionTôi có thể sử dụng dữ liệu phân đoạn cá thể để huấn luyện phân đoạn ngữ nghĩa không?#

Có. Nếu tập dữ liệu của bạn sử dụng nhãn đa giác Ultralytics YOLO (một tệp .txt cho mỗi ảnh), hãy bỏ qua masks_dir khỏi tệp YAML tập dữ liệu và trình tải sẽ tự động chuyển đổi đa giác thành các mặt nạ ngữ nghĩa cho từng ảnh ngay lập tức. Đối với các tập dữ liệu đa lớp (N > 1), một lớp background bổ sung sẽ được tự động thêm vào names. Đối với các tập dữ liệu đơn lớp (N == 1), việc huấn luyện vẫn giữ nguyên ở 1 lớp — lớp bạn đã khai báo trở thành 1 trong mặt nạ và các pixel chưa được bao phủ trở thành 0. Xem Hướng dẫn Tập dữ liệu Phân đoạn Ngữ nghĩa để biết chi tiết.

Link to this sectionNhững tập dữ liệu nào được hỗ trợ cho phân đoạn ngữ nghĩa?#

Ultralytics YOLO26 cung cấp các cấu hình có sẵn cho một số tập dữ liệu phân đoạn ngữ nghĩa:

  • Cityscapes: Các cảnh đường phố đô thị với 19 lớp, được sử dụng rộng rãi cho nghiên cứu lái xe tự động.
  • ADE20K: Một tập dữ liệu phân tích cảnh quy mô lớn với 150 lớp.

Bạn cũng có thể sử dụng bất kỳ tập dữ liệu tùy chỉnh nào cung cấp chú thích mặt nạ PNG trong đó các giá trị pixel tương ứng với các ID lớp.

Link to this sectionLàm cách nào để xác thực một mô hình phân đoạn ngữ nghĩa YOLO26 đã huấn luyện trước?#

Xác thực một mô hình phân đoạn ngữ nghĩa YOLO26 đã huấn luyện trước với tệp YAML tập dữ liệu được sử dụng để đánh giá:

Ví dụ
from ultralytics import YOLO

# Load a pretrained model
model = YOLO("yolo26n-sem.pt")

# Validate the model
metrics = model.val(data="cityscapes.yaml")
print("Mean IoU:", metrics.miou)
print("Pixel Accuracy:", metrics.pixel_accuracy)

Các bước này sẽ cung cấp cho bạn các chỉ số xác thực như Intersection over Union trung bình (mIoU) và độ chính xác pixel, đây là các thước đo tiêu chuẩn để đánh giá hiệu suất phân đoạn ngữ nghĩa.

Link to this sectionLàm thế nào tôi có thể xuất mô hình phân đoạn ngữ nghĩa YOLO26 sang định dạng ONNX?#

Xuất mô hình phân đoạn ngữ nghĩa YOLO26 sang định dạng ONNX bằng Python hoặc lệnh CLI:

Ví dụ
from ultralytics import YOLO

# Load a pretrained model
model = YOLO("yolo26n-sem.pt")

# Export the model to ONNX format
model.export(format="onnx")

Để biết thêm chi tiết về việc xuất sang các định dạng khác nhau, hãy tham khảo trang Export.

Bình luận