YOLO26 vs YOLOv7 Bước tiến vượt bậc trong lĩnh vực thị giác máy tính
Lĩnh vực phát hiện đối tượng đã chứng kiến sự phát triển nhanh chóng trong thập kỷ qua, với YOLO Dòng sản phẩm (You Only Look Once) luôn dẫn đầu về hiệu năng thời gian thực. Hai cột mốc quan trọng trong dòng sản phẩm này là YOLOv7 , được phát hành vào giữa năm 2022, và YOLO26 tiên tiến, được phát hành vào đầu năm 2026. Trong khi đó, YOLOv7 YOLO26, được giới thiệu với khái niệm "túi quà tặng miễn phí" để tối ưu hóa quá trình huấn luyện mà không làm tăng chi phí suy luận, đại diện cho một sự thay đổi mô hình với khả năng triển khai từ đầu đến cuối. NMS - kiến trúc tự do và CPU - Thiết kế tối ưu.
Hướng dẫn này cung cấp bảng so sánh kỹ thuật chi tiết để giúp các nhà phát triển, nhà nghiên cứu và kỹ sư lựa chọn mô hình phù hợp với nhu cầu triển khai cụ thể của họ, cho dù nhắm đến GPU cao cấp hay các thiết bị biên có tài nguyên hạn chế.
Tổng quan về mô hình và tác giả
Hiểu rõ nguồn gốc của các mô hình này giúp chúng ta nắm bắt bối cảnh các quyết định kiến trúc và trường hợp sử dụng dự định của chúng.
YOLO26
YOLO26 là phiên bản mới nhất từ Ultralytics Được thiết kế để giải quyết những thách thức dai dẳng về độ phức tạp triển khai và độ trễ ở biên. Nó giới thiệu một quy trình đầu cuối (E2E) loại bỏ nhu cầu về Non-Maximum Suppression (Ngăn chặn cực đại không cần thiết). NMS ), giúp đơn giản hóa đáng kể quy trình từ đào tạo đến sản xuất.
- Tác giả: Glenn Jocher, Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 14 tháng 1 năm 2026
- Điểm đột phá chính: NMS - Phát hiện đầu cuối miễn phí, trình tối ưu hóa MuSGD và CPU - Tối ưu hóa lần đầu.
YOLOv7
YOLOv7 là một bản phát hành mang tính bước ngoặt, tập trung vào các phương pháp tối ưu hóa "túi quà tặng miễn phí" có thể huấn luyện được – những phương pháp cải thiện độ chính xác trong quá trình huấn luyện mà không làm tăng chi phí trong quá trình suy luận. Nó đã thiết lập các tiêu chuẩn tiên tiến mới cho các bộ phát hiện đối tượng thời gian thực vào năm 2022.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica
- Ngày: 6 tháng 7 năm 2022
- Arxiv:YOLOv7: Trainable bag-of-freebies sets new state-of-the-art
- Điểm đột phá chính: Tái tham số hóa E-ELAN và mở rộng quy mô phức hợp.
So sánh kiến trúc
Sự khác biệt về kiến trúc giữa YOLO26 và YOLOv7 Mỗi loại đều thể hiện thế mạnh riêng về tốc độ, độ chính xác và tính dễ triển khai.
YOLO26: Cuộc cách mạng từ đầu đến cuối
YOLO26 thay đổi căn bản quy trình phát hiện bằng cách áp dụng thiết kế không cần NMS từ đầu đến cuối . Các bộ dò truyền thống, bao gồm YOLOv7 Nó xuất ra hàng ngàn hộp ứng cử viên cần được lọc bằng phương pháp loại bỏ cực đại không tương thích (Non-Maximum Suppression - NMS ) . Bước xử lý hậu kỳ này thường chậm, nhạy cảm với các siêu tham số và khó triển khai trên phần cứng chuyên dụng như FPGA hoặc NPU.
YOLO26 loại bỏ NMS Hoàn toàn bằng cách học cách khớp một-đối-một trong quá trình huấn luyện. Kết hợp với việc loại bỏ Distribution Focal Loss (DFL) , điều này dẫn đến cấu trúc mô hình đơn giản hơn nhiều để xuất sang các định dạng như ONNX hoặc TensorRT . Ngoài ra, YOLO26 sử dụng MuSGD Optimizer , một sự kết hợp của... SGD và Muon (lấy cảm hứng từ quá trình huấn luyện LLM), đảm bảo sự hội tụ ổn định ngay cả với kiến trúc mới của nó.
YOLOv7 : Túi quà tặng miễn phí và E-ELAN
YOLOv7 Tập trung vào hiệu quả kiến trúc thông qua Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) . Thiết kế này cho phép mạng học được nhiều đặc điểm đa dạng hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất. Nó dựa nhiều vào các kỹ thuật tái tham số hóa, trong đó cấu trúc huấn luyện phức tạp được đơn giản hóa thành cấu trúc suy luận tinh gọn. Mặc dù rất hiệu quả đối với GPU về thông lượng, phương pháp này vẫn giữ nguyên sự phụ thuộc vào NMS Điều này có thể trở thành điểm nghẽn trên các thiết bị CPU hoặc khi mật độ đối tượng cực kỳ cao.
Tại sao NMS-Free lại quan trọng
Trên các thiết bị biên, NMS Việc xử lý song song thường không hiệu quả. Bằng cách loại bỏ điều này, YOLO26 đạt được tốc độ suy luận nhanh hơn tới 43% trên CPU so với các phiên bản tiền nhiệm dựa trên anchor, khiến nó trở thành lựa chọn vượt trội cho Raspberry Pi, điện thoại di động và cảm biến IoT.
Các chỉ số hiệu suất
Bảng dưới đây nêu bật những cải tiến về hiệu năng của YOLO26 so với các phiên bản trước. YOLOv7 . Trong khi YOLOv7 Mặc dù vẫn là một đối thủ mạnh trên các GPU cao cấp, YOLO26 vượt trội về hiệu quả, kích thước mô hình và... CPU tốc độ.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Những điểm chính:
- Hiệu quả: Mô hình YOLO26l vượt trội hơn YOLOv7l với mức tăng +3,6 mAP trong khi sử dụng ít hơn 32% tham số và ít hơn 17% FLOPs .
- Tốc độ: YOLO26n (Nano) cung cấp một điểm khởi đầu tuyệt vời cho AI biên, hoạt động với tốc độ gần 40ms trên... CPU , một số liệu YOLOv7 Kiến trúc của 's khó có thể phù hợp do NMS trên không.
- Độ chính xác: Ở mức cao nhất, YOLO26x đạt độ chính xác lên đến 57,5%. mAP cao hơn đáng kể so với 53,1% của YOLOv7x. mAP .
Các trường hợp và ứng dụng sử dụng
Việc lựa chọn giữa các mô hình này thường phụ thuộc vào môi trường triển khai và các yêu cầu cụ thể của ứng dụng.
Khi nào nên chọn YOLO26
YOLO26 là lựa chọn được khuyến nghị cho hầu hết các dự án thị giác máy tính hiện đại, đặc biệt là những dự án ưu tiên:
- Điện toán biên: Nhanh hơn tới 43% CPU Về khả năng suy luận, nó hoạt động xuất sắc trên các thiết bị như Raspberry Pi hoặc... NVIDIA Jetson Nano.
- Triển khai đơn giản: NMS - Thiết kế miễn phí cho phép xuất sang CoreML ( iOS ) hoặc TFLite ( Android ) liền mạch, tránh các vấn đề hỗ trợ thường gặp từ phía người vận hành.
- Phát hiện vật thể nhỏ: Các hàm mất mát ProgLoss + STAL được cải tiến mang lại những cải tiến đáng kể trong việc phát hiện các vật thể nhỏ, điều rất quan trọng đối với việc phân tích ảnh chụp từ trên không và kiểm tra bằng máy bay không người lái.
- Các tác vụ đa dạng: Ngoài khả năng phát hiện đối tượng, YOLO26 còn hỗ trợ ước lượng tư thế , phân đoạn đối tượng và hộp giới hạn định hướng (OBB) một cách tự nhiên.
Khi nào nên cân nhắc YOLOv7
YOLOv7 Phương pháp này vẫn còn phù hợp với các hệ thống cũ hoặc các tiêu chuẩn nghiên cứu cụ thể, nơi phương pháp "túi quà tặng miễn phí" là trọng tâm của nghiên cứu.
- Các đường dẫn GPU cũ: Nếu một hệ thống đã được tối ưu hóa cao cho các đầu ra dựa trên điểm neo cụ thể của YOLOv7 Đối với các GPU cao cấp (như V100 hoặc A100), quá trình chuyển đổi có thể bị trì hoãn.
- Nghiên cứu học thuật: Các nhà nghiên cứu nghiên cứu về tác động của tối ưu hóa đường dẫn gradient và tái tham số hóa thường sử dụng YOLOv7 như một mức cơ bản.
Lợi thế Hệ sinh thái Ultralytics
Một trong những lý do thuyết phục nhất để sử dụng YOLO26 là khả năng tích hợp sâu rộng vào hệ sinh thái Ultralytics . Không giống như các kho lưu trữ độc lập, Ultralytics Các mô hình được hưởng lợi từ một nền tảng thống nhất, được bảo trì tốt.
- Dễ sử dụng: Triết lý "từ con số không đến chuyên gia" có nghĩa là bạn có thể chuyển từ cài đặt sang đào tạo chỉ trong vài phút. Python API nhất quán giữa các phiên bản, vì vậy việc nâng cấp từ YOLOv8 lên YOLO26 chỉ cần thay đổi một chuỗi ký tự duy nhất.
- Hiệu quả đào tạo: Ultralytics Các mô hình được tối ưu hóa để huấn luyện nhanh hơn và sử dụng ít tài nguyên hơn. CUDA có bộ nhớ lớn hơn so với các giải pháp thay thế dựa trên bộ biến đổi (như RT-DETR ). Điều này cho phép kích thước lô lớn hơn trên GPU dành cho người tiêu dùng.
- Nền tảng Ultralytics : Người dùng có thể tận dụng Nền tảng Ultralytics để trực quan hóa dữ liệu, huấn luyện mô hình trên đám mây và triển khai chỉ với một cú nhấp chuột.
Ví dụ mã: Huấn luyện và Suy luận
Đoạn mã sau đây minh họa cách sử dụng Ultralytics API này dùng để tải và huấn luyện mô hình YOLO26 mới nhất. API đơn giản hóa quá trình thiết lập phức tạp, giúp ngay cả người mới bắt đầu cũng có thể sử dụng được.
from ultralytics import YOLO
# Load the latest YOLO26 model (recommended for new projects)
# The 'n' suffix denotes the Nano version, optimized for speed.
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset
# The system automatically handles dataset downloads and configuration.
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a sample image
# The NMS-free output ensures fast and clean results.
predictions = model("https://ultralytics.com/images/bus.jpg")
# Display the results
predictions[0].show()
Kết luận
Trong khi YOLOv7 Đó là một thời điểm then chốt trong lịch sử phát hiện đối tượng, YOLO26 đại diện cho tương lai. Kiến trúc đầu cuối của nó không chỉ cải thiện các chỉ số hiệu suất như... mAP và độ trễ, đồng thời đơn giản hóa đáng kể quy trình triển khai cho các nhà phát triển. Bằng cách loại bỏ sự phụ thuộc vào NMS và tối ưu hóa mạnh mẽ cho CPU Trong môi trường điện toán biên và ngoại vi, YOLO26 đảm bảo rằng công nghệ thị giác máy tính tiên tiến có thể truy cập được, hiệu quả và đủ linh hoạt cho các ứng dụng thực tế, từ xe tự hành đến phân tích dữ liệu thành phố thông minh.
Đối với những ai quan tâm đến việc khám phá các kiến trúc hiện đại khác, tài liệu này cũng đề cập đến YOLO11 và YOLOv10 , vốn cung cấp những sự đánh đổi khác nhau trong quá trình phát triển liên tục của trí tuệ nhân tạo thị giác.