Chuyển đến nội dung

YOLO26 vs YOLOv8 Những tiến bộ trong phát hiện đối tượng thế hệ tiếp theo

Sự phát triển của thị giác máy tính được định hình bởi việc theo đuổi hiệu năng thời gian thực mà không làm giảm độ chính xác. Khi các nhà phát triển và nhà nghiên cứu khám phá lĩnh vực học máy hiện đại, việc lựa chọn kiến ​​trúc mô hình phù hợp là vô cùng quan trọng. Bài so sánh kỹ thuật toàn diện này sẽ khám phá bước nhảy vọt giữa các thế hệ từ Ultralytics YOLOv8 , một kiến ​​trúc cực kỳ phổ biến đã định nghĩa lại tiêu chuẩn vào năm 2023, đến Ultralytics YOLO26 tiên tiến, được phát hành vào tháng 1 năm 2026.

Bằng cách đi sâu vào kiến trúc, các chỉ số hiệu suất và phương pháp huấn luyện của chúng, chúng tôi nhấn mạnh lý do tại sao việc nâng cấp lên những đổi mới mới nhất mang lại những lợi thế khác biệt cho phát hiện đối tượng, segmentation và hơn thế nữa.

Thông tin cơ bản và siêu dữ liệu của mô hình

Việc hiểu rõ nguồn gốc của các kiến ​​trúc này giúp hiểu được bối cảnh của những đột phá tương ứng của chúng. Cả hai mô hình đều được phát triển bởi Ultralytics , một công ty nổi tiếng với việc giúp cho trí tuệ nhân tạo tiên tiến trở nên dễ tiếp cận và dễ triển khai.

Chi tiết YOLO26:
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2026-01-14
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo26/

Tìm hiểu thêm về YOLO26

Thông tin chi tiết về YOLOv8:
Tác giả: Glenn Jocher, Ayush Chaurasia, và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolov8/

Tìm hiểu thêm về YOLOv8

Đổi mới Kiến trúc

Sự chuyển đổi từ YOLOv8 YOLO26 mang đến những thay đổi mang tính đột phá đáng kể trong cách mạng thần kinh xử lý dữ liệu hình ảnh và tính toán tổn thất.

YOLO26: Đỉnh cao của hiệu suất biên

YOLO26 được thiết kế từ đầu để loại bỏ các nút thắt cổ chai trong quá trình triển khai và tối đa hóa tốc độ suy luận trên phần cứng có hạn chế.

  • Thiết kế không NMS đầu cuối: Dựa trên các khái niệm lần đầu tiên được tiên phong trong YOLOv10, YOLO26 sử dụng kiến trúc đầu cuối một cách tự nhiên. Bằng cách loại bỏ hoàn toàn nhu cầu xử lý hậu kỳ Non-Maximum Suppression (NMS), biến thiên độ trễ gần như được loại bỏ hoàn toàn. Điều này đơn giản hóa logic triển khai cho các ứng dụng yêu cầu đảm bảo thời gian thực nghiêm ngặt.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss (DFL) đơn giản hóa đáng kể đầu ra. Lựa chọn kiến trúc này cho phép khả năng tương thích tốt hơn đáng kể với các thiết bị biên công suất thấp và việc xuất đơn giản hơn sang các định dạng như ONNXCoreML.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ sự ổn định trong huấn luyện được thấy ở các Mô hình Ngôn ngữ Lớn (LLM) như Kimi K2 của Moonshot AI, YOLO26 sử dụng trình tối ưu hóa MuSGD—sự kết hợp giữa Stochastic Gradient Descent và Muon. Điều này mang những đổi mới trong huấn luyện quy mô LLM vào thị giác máy tính, mang lại hội tụ nhanh hơn và các lần huấn luyện rất ổn định.
  • ProgLoss + STAL: Để giải quyết vấn đề nhận diện các vật thể siêu nhỏ vốn nổi tiếng khó khăn, YOLO26 triển khai Progressive Loss (ProgLoss) kết hợp với Scale-Tolerant Anchor Loss (STAL). Điều này mang lại những cải tiến quan trọng cho việc detect vật thể nhỏ, khiến nó lý tưởng cho các ứng dụng máy bay không người lái.

Cải tiến cụ thể theo nhiệm vụ

YOLO26 cũng mang đến những nâng cấp có mục tiêu trên nhiều lĩnh vực thị giác máy tính. Nó sử dụng hàm mất mát Phân đoạn ngữ nghĩa và proto đa tỷ lệ để phân đoạn đối tượng tốt hơn, Ước lượng logarit xác suất dư (RLE) để ước lượng tư thế với độ chính xác cao, và các thuật toán mất mát góc chuyên dụng để giải quyết các vấn đề về ranh giới trong Hộp giới hạn định hướng (OBB) .

YOLOv8 : Con ngựa thồ đa năng

Khi được phát hành vào năm 2023, YOLOv8 Thiết lập một chuẩn mực mới bằng cách chuyển đổi hoàn toàn sang thiết kế không có neo, giúp tổng quát hóa tốt hơn trên các tỷ lệ khung hình dữ liệu khác nhau.

  • Module C2f: Nó thay thế module C3 cũ bằng khối C2f, cho phép luồng gradient tốt hơn trên toàn bộ xương sống mạng.
  • Đầu tách rời: YOLOv8 có một đầu tách rời, nơi phân loại và hồi quy hộp giới hạn được tính toán độc lập, làm tăng đáng kể Độ chính xác trung bình (mAP).
  • Tính linh hoạt của tác vụ: Đây là một trong những mô hình đầu tiên cung cấp API thực sự thống nhất cho các tác vụ phân loại ảnh, detect, segment và tư thế ngay lập tức.

Các chỉ số hiệu suất và yêu cầu về nguồn lực

Khi đánh giá các mô hình để đưa vào sản xuất, sự cân bằng giữa độ chính xác, tốc độ suy luận và kích thước mô hình là tối quan trọng. YOLO26 thể hiện ưu thế vượt trội rõ rệt trên tất cả các biến thể kích thước.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Lưu ý: Các giá trị được tô sáng thể hiện sự cân bằng hiệu năng và những cải tiến về hiệu quả của kiến ​​trúc YOLO26 so với thế hệ tiền nhiệm.

Phân tích

YOLO26 đạt được thành tựu đáng kể Nhanh hơn tới 43% CPU suy luận so với các mô hình YOLOv8 tương tự. Ví dụ, YOLO26n đạt 38.9 ms trên CPU sử dụng ONNX, so với YOLOv8nlà 80.4 ms, đồng thời tăng mAP từ 37.3 lên 40.9. Bước nhảy vọt lớn về hiệu suất CPU này là kết quả trực tiếp của việc loại bỏ DFL và thiết kế không NMS, biến YOLO26 thành một cỗ máy mạnh mẽ tuyệt đối cho các môi trường thiếu GPU chuyên dụng.

Hơn nữa, các mô hình YOLO26 có số lượng tham số và FLOPs thấp hơn so với các cấp kích thước tương ứng, dẫn đến việc giảm đáng kể mức sử dụng bộ nhớ GPU trong quá trình suy luận và huấn luyện so với các kiến ​​trúc dựa trên transformer truyền thống.

Lợi thế Hệ sinh thái Ultralytics

Một yếu tố quan trọng khi lựa chọn mô hình AI là cơ sở hạ tầng xung quanh. Cả YOLO26 và YOLOv8 đều được hưởng lợi rất nhiều từ Nền tảng Ultralytics thống nhất, mang lại trải nghiệm phát triển vượt trội.

  1. Dễ sử dụng: Triết lý "từ số 0 đến anh hùng" đảm bảo các nhà phát triển có thể tải, huấn luyện và xuất mô hình chỉ với mã tối thiểu. API Python vẫn nhất quán qua các thế hệ mô hình.
  2. Hiệu quả huấn luyện: Các mô hình Ultralytics YOLO yêu cầu bộ nhớ CUDA thấp hơn đáng kể trong các lần chạy huấn luyện so với các mô hình transformer (như RT-DETR). Điều này cho phép sử dụng kích thước lô lớn hơn trên phần cứng phổ thông, dân chủ hóa nghiên cứu AI.
  3. Hệ sinh thái được duy trì tốt: Được hỗ trợ bởi các bản cập nhật liên tục, quy trình CI/CD nghiêm ngặt và tích hợp sâu rộng với các công cụ như Weights & BiasesTensorRT, kho lưu trữ Ultralytics mạnh mẽ và sẵn sàng cho sản xuất.
  4. Tính linh hoạt vượt trội: Các mô hình Ultralytics không chỉ làm được một việc; một lần import duy nhất có thể xử lý các tập dữ liệu đa dạng, tăng cường quy trình làm việc cho các hệ thống phức tạp yêu cầu theo dõi, phân loại và segment đồng thời.

Nâng cấp được tối ưu hóa

Vì API của Ultralytics được tiêu chuẩn hóa cao, việc nâng cấp một hệ thống sản xuất từ YOLOv8 lên YOLO26 theo nghĩa đen chỉ đơn giản là thay đổi chuỗi "yolov8n.pt" đến "yolo26n.pt" trong kịch bản của bạn.

Các ứng dụng thực tế

Việc lựa chọn giữa các mô hình này thường phụ thuộc vào các ràng buộc triển khai của bạn, mặc dù YOLO26 được khuyến nghị rộng rãi cho các dự án mới.

Điện toán biên và mạng IoT

Đối với môi trường biên – chẳng hạn như triển khai Raspberry Pi hoặc các cảm biến cục bộ trên sàn nhà máy – YOLO26 là nhà vô địch không thể tranh cãi. Nó được tối ưu hóa nguyên bản. CPU tốc độ và NMS - Cấu trúc không phụ thuộc vào thư viện có nghĩa là camera thông minh có thể xử lý video tốc độ khung hình cao để quản lý bãi đậu xe mà không bị mất khung hình do tắc nghẽn xử lý hậu kỳ.

Hình ảnh từ trên không và độ cao lớn

Trong giám sát nông nghiệp hoặc kiểm tra cơ sở hạ tầng bằng máy bay không người lái, phát hiện vật thể nhỏ là vô cùng quan trọng. Việc triển khai ProgLoss + STAL trong YOLO26 cho phép nó hoạt động một cách nhất quán. detect các loại côn trùng nhỏ hoặc các vết nứt siêu nhỏ trong đường ống mà các kiến ​​trúc cũ hơn như YOLOv8 có thể bỏ sót, mang lại khả năng thu hồi và độ chính xác vượt trội trên các tập dữ liệu như VisDrone .

Di sản GPU Hệ thống

YOLOv8 vẫn phù hợp cho các hệ thống gắn chặt với đầu ra hồi quy hộp giới hạn cụ thể của nó hoặc các triển khai cấp doanh nghiệp bị ràng buộc bởi các chu kỳ xác thực kéo dài và không thể dễ dàng di chuyển kiến trúc.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLO26 và YOLOv8 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLO26

YOLO26 là một lựa chọn tốt cho:

  • Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
  • Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Khi nào nên chọn YOLOv8

YOLOv8 được khuyến nghị cho:

  • Triển khai đa tác vụ linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh cho detection, segmentation, classificationước tính tư thế trong hệ sinh thái Ultralytics.
  • Hệ thống sản xuất đã được thiết lập: Các môi trường sản xuất hiện có đã được xây dựng trên kiến trúc YOLOv8 với các pipeline triển khai ổn định, đã được kiểm thử kỹ lưỡng.
  • Hỗ trợ cộng đồng và hệ sinh thái rộng lớn: Các ứng dụng hưởng lợi từ các hướng dẫn mở rộng của YOLOv8, tích hợp bên thứ ba và tài nguyên cộng đồng tích cực.

Ví dụ mã: Bắt đầu

Tận dụng sức mạnh của những công nghệ mới nhất Ultralytics Mô hình này vô cùng đơn giản. Sau đây là các mô hình tiếp theo: Python Đoạn mã này minh họa quá trình huấn luyện mô hình YOLO26 trên một tập dữ liệu tùy chỉnh, quan sát cách trình tối ưu hóa MuSGD tự động thúc đẩy sự hội tụ nhanh chóng.

from ultralytics import YOLO

# Load the highly efficient YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the standard COCO8 dataset
# The ecosystem handles hyperparameter tuning and augmentations natively
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Automatically utilizes CUDA if available
)

# Run end-to-end, NMS-free inference on a source image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Visualize the resulting detections
predictions[0].show()

Các mô hình khác để xem xét

Mặc dù YOLO26 đại diện cho công nghệ tiên tiến nhất hiện nay, các nhà phát triển xây dựng nhiều ứng dụng khác nhau cũng có thể xem xét:

  • YOLO11: Tiền thân trực tiếp của YOLO26, mang lại sự cải tiến vượt trội so với YOLOv8 và vẫn được sử dụng rộng rãi trong các hệ thống sản xuất tiên tiến.
  • RT-DETR: Real-Time DEtection TRansformer của Baidu. Đây là một lựa chọn tuyệt vời cho các nhà nghiên cứu khám phá cơ chế chú ý trong các tác vụ thị giác, mặc dù nó yêu cầu nhiều bộ nhớ CUDA hơn đáng kể để huấn luyện so với các mô hình Ultralytics YOLO tiêu chuẩn.

Để có bộ công cụ toàn diện về đào tạo trên nền tảng đám mây, gắn nhãn dữ liệu và triển khai tức thì, hãy khám phá Nền tảng Ultralytics ngay hôm nay.


Bình luận