Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 so với YOLOv6-3.0#

Lĩnh vực thị giác máy tính đang không ngừng phát triển, với các model phát hiện đối tượng mới liên tục vượt qua các giới hạn về tốc độ và độ chính xác. Hai cột mốc quan trọng trong hành trình này là YOLOv7 và YOLOv6-3.0. Cả hai model đều giới thiệu những cải tiến kiến trúc độc đáo được thiết kế để tối đa hóa lưu lượng và độ chính xác cho các ứng dụng thực tế. Trang này cung cấp phân tích kỹ thuật chuyên sâu về cả hai kiến trúc, so sánh hiệu suất, phương pháp đào tạo và các trường hợp sử dụng lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho dự án trí tuệ nhân tạo tiếp theo của mình.

Link to this sectionYOLOv7: Người tiên phong Bag-of-Freebies#

Được phát hành vào giữa năm 2022, YOLOv7 giới thiệu một số chiến lược sáng tạo nhằm tối ưu hóa kiến trúc mạng mà không làm tăng chi phí suy luận (inference cost). Nó tập trung mạnh vào các "bag-of-freebies" có thể đào tạo để cải thiện độ chính xác trong khi vẫn duy trì hiệu suất thời gian thực.

Link to this sectionĐiểm nổi bật về kiến trúc#

YOLOv7 được đặc trưng bởi Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Kiến trúc này cho phép model học các đặc trưng đa dạng hơn bằng cách kiểm soát đường gradient dài nhất và ngắn nhất. Hơn nữa, YOLOv7 sử dụng các kỹ thuật tái tham số hóa cấu trúc trong quá trình suy luận để hợp nhất các lớp tích chập, làm giảm hiệu quả số lượng tham số và thời gian tính toán mà không làm mất đi các biểu diễn đã học.

Model cũng có chiến lược đào tạo auxiliary head độc đáo. Bằng cách sử dụng "lead head" cho các dự đoán cuối cùng và "auxiliary head" để hướng dẫn đào tạo ở các lớp giữa, YOLOv7 đạt được sự hội tụ tốt hơn và trích xuất đặc trưng phong phú hơn, đặc biệt hữu ích khi giải quyết các tác vụ phát hiện đối tượng đầy thử thách.

Tìm hiểu thêm về YOLOv7

Link to this sectionYOLOv6-3.0: Thông lượng cấp công nghiệp#

Được phát triển bởi Bộ phận Meituan Vision AI, YOLOv6-3.0 được thiết kế rõ ràng như một "máy phát hiện đối tượng thế hệ tiếp theo cho các ứng dụng công nghiệp". Được phát hành vào đầu năm 2023, nó tập trung mạnh vào việc tối đa hóa hiệu suất phần cứng, đặc biệt là trên các GPU NVIDIA.

Link to this sectionĐiểm nổi bật về kiến trúc#

YOLOv6-3.0 áp dụng backbone EfficientRep, được tối ưu hóa cao cho xử lý song song trên GPU. Điều này làm cho nó cực kỳ hiệu quả đối với xử lý batch quy mô lớn. Phiên bản 3.0 đã giới thiệu module Bi-directional Concatenation (BiC) trong phần neck để tăng cường hợp nhất đặc trưng trên các thang đo khác nhau, cải thiện khả năng phát hiện các đối tượng có kích thước khác nhau của model.

Ngoài ra, YOLOv6-3.0 sử dụng chiến lược Anchor-Aided Training (AAT). Cách tiếp cận sáng tạo này kết hợp những lợi ích của việc đào tạo dựa trên anchor với suy luận không anchor, cho phép model tận hưởng sự ổn định của các anchor trong giai đoạn học tập trong khi vẫn duy trì tốc độ và sự đơn giản của thiết kế không anchor trong quá trình triển khai.

Tìm hiểu thêm về YOLOv6

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các model cho sản xuất, việc cân bằng giữa độ chính xác (mAP) với tốc độ suy luận và chi phí tính toán (FLOPs) là rất quan trọng. Dưới đây là so sánh chi tiết về các biến thể tiêu chuẩn của cả hai model.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
Các lưu ý về phần cứng

YOLOv6-3.0 đặc biệt phù hợp với môi trường GPU có lưu lượng cao (như TensorRT), trong khi YOLOv7 cung cấp sự cân bằng mạnh mẽ cho các hệ thống ưu tiên việc duy trì đặc trưng.

Link to this sectionLợi thế từ Ultralytics#

Mặc dù các kho lưu trữ độc lập cho YOLOv7 và YOLOv6-3.0 rất mạnh mẽ, nhưng việc tận dụng chúng trong hệ sinh thái Ultralytics sẽ thay đổi trải nghiệm của nhà phát triển. Gói Python ultralytics chuẩn hóa các kiến trúc đa dạng này trong một khung làm việc trực quan.

  • Dễ sử dụng: Đã qua rồi thời của các tập lệnh thiết lập phức tạp. API Ultralytics cho phép bạn tải, đào tạo và triển khai các model YOLOv7 hoặc YOLOv6 với mã boilerplate tối thiểu. Bạn có thể dễ dàng chuyển đổi giữa các kiến trúc chỉ bằng cách thay đổi tệp trọng số model.
  • Hệ sinh thái được duy trì tốt: Ultralytics cung cấp một môi trường mạnh mẽ với các bản cập nhật thường xuyên, đảm bảo khả năng tương thích gốc với các bản phân phối PyTorch và phiên bản CUDA mới nhất.
  • Hiệu quả đào tạo: Các pipeline đào tạo được tối ưu hóa sâu để sử dụng tài nguyên GPU hiệu quả. Hơn nữa, các model Ultralytics YOLO thường có yêu cầu bộ nhớ thấp hơn trong quá trình đào tạo so với các model dựa trên transformer nặng (như RT-DETR), cho phép kích thước batch lớn hơn trên phần cứng cấp độ người tiêu dùng.
  • Tính linh hoạt: Ngoài phát hiện khung hình bao quanh (bounding box) tiêu chuẩn, khung làm việc Ultralytics hỗ trợ liền mạch các tác vụ nâng cao như ước tính tư thếphân đoạn đối tượng trên các dòng model tương thích, một tính năng thường thiếu trong các kho lưu trữ nghiên cứu riêng lẻ.

Link to this sectionVí dụ mã: Huấn luyện và Suy luận#

Việc tích hợp các model này vào pipeline Python của bạn rất đơn giản. Đảm bảo tập dữ liệu của bạn được định dạng chính xác (ví dụ: COCO tiêu chuẩn) và chạy lệnh sau:

from ultralytics import YOLO

# Load a pretrained YOLOv7 model (or 'yolov6n.pt' for YOLOv6)
model = YOLO("yolov7.pt")

# Train the model with built-in hyperparameter management
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image URL or local path
predictions = model("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
predictions[0].show()

Link to this sectionCác trường hợp sử dụng lý tưởng#

Link to this sectionKhi nào nên chọn YOLOv7#

YOLOv7 vượt trội trong các kịch bản đòi hỏi độ chính xác cao và trích xuất đặc trưng dày đặc.

  • Giám sát phức tạp: Khả năng giữ lại các chi tiết tinh vi giúp nó phù hợp để giám sát các cảnh đông đúc hoặc phát hiện các điểm bất thường nhỏ trong cơ sở hạ tầng thành phố thông minh.
  • Điểm chuẩn học thuật: Thường được sử dụng làm cơ sở mạnh mẽ trong nghiên cứu nhờ triết lý thiết kế "bag-of-freebies" toàn diện.

Link to this sectionKhi nào nên chọn YOLOv6-3.0#

YOLOv6-3.0 là công cụ chủ lực cho các pipeline khối lượng lớn, được tăng tốc bởi GPU.

  • Tự động hóa công nghiệp: Hoàn hảo cho các dây chuyền nhà máy và phát hiện lỗi sản xuất nơi các GPU cấp máy chủ xử lý đồng thời nhiều luồng video.
  • Phân tích lưu lượng cao: Tuyệt vời để xử lý các kho lưu trữ video ngoại tuyến, nơi tối đa hóa số khung hình trên giây là mục tiêu chính.

Link to this sectionTương lai: YOLO26#

Mặc dù YOLOv7 và YOLOv6-3.0 rất mạnh mẽ, tốc độ đổi mới trí tuệ nhân tạo nhanh chóng đòi hỏi hiệu quả cao hơn nữa. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho bước nhảy vọt về thế hệ trong thị giác máy tính, giải quyết một cách có hệ thống những hạn chế của các kiến trúc cũ.

Nếu bạn đang bắt đầu một dự án mới, YOLO26 được đặc biệt khuyến nghị hơn các thế hệ trước. Nó giới thiệu một số tính năng đột phá:

  • Thiết kế End-to-End NMS-Free: Dựa trên nền tảng được thiết lập bởi YOLOv10, YOLO26 loại bỏ hoàn toàn Non-Maximum Suppression (NMS). Điều này giúp giảm chi phí xử lý hậu kỳ, đơn giản hóa việc triển khai cho các ứng dụng di động và đảm bảo suy luận độ trễ thấp, mang tính quyết định cao.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật đào tạo LLM tiên tiến (như kỹ thuật được sử dụng trong Kimi K2 của Moonshot AI), YOLO26 sử dụng một trình tối ưu hóa lai kết hợp SGD và Muon. Điều này đảm bảo động lực đào tạo ổn định hơn và hội tụ nhanh hơn đáng kể.
  • Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ Distribution Focal Loss (DFL) một cách chiến lược, YOLO26 đạt được tốc độ tăng tốc lớn trên CPU. Điều này làm cho nó trở thành nhà vô địch không thể tranh cãi cho các môi trường edge như Raspberry Pi và các cảm biến IoT từ xa.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến được thiết kế đặc biệt để cải thiện khả năng nhận diện đối tượng nhỏ, một điểm yếu lịch sử của các bộ phát hiện một giai đoạn.

Bằng cách kết hợp những cải tiến này với Nền tảng Ultralytics mạnh mẽ, YOLO26 mang lại hiệu suất, tính linh hoạt và khả năng triển khai dễ dàng chưa từng có cho kỹ sư học máy hiện đại.

Những người đóng góp

Bình luận