YOLOv7 so với YOLO26: Bước nhảy vọt về thế hệ trong nhận diện đối tượng thời gian thực
Sự tiến hóa của thị giác máy tính đã được đánh dấu bằng những cột mốc quan trọng, và việc so sánh các kiến trúc cũ với các mô hình hiện đại tiên tiến nhất mang lại những hiểu biết giá trị cho các kỹ sư ML. Bài so sánh kỹ thuật này đi sâu vào sự khác biệt giữa YOLOv7 đầy ảnh hưởng và Ultralytics YOLO26 mang tính cách mạng, làm nổi bật những tiến bộ về kiến trúc, phương pháp đào tạo và hiệu quả triển khai.
YOLOv7: Người tiên phong của "Bag-of-Freebies"
Được giới thiệu vào giữa năm 2022, YOLOv7 đã đẩy mạnh các giới hạn của những gì có thể đạt được trên phần cứng GPU bằng cách giới thiệu một số tối ưu hóa kiến trúc giúp cải thiện độ chính xác mà không làm tăng chi phí suy luận.
Chi tiết mô hình
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, và Hong-Yuan Mark Liao
- Tổ chức: Institute of Information Science, Academia Sinica
- Ngày: 2022-07-06
- Arxiv: 2207.02696
- GitHub: WongKinYiu/yolov7
- Tài liệu: Tài liệu Ultralytics YOLOv7
YOLOv7 giới thiệu khái niệm "bag-of-freebies" có thể huấn luyện, tận dụng đáng kể các kỹ thuật tái tham số hóa và mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Điều này cho phép mô hình học các đặc trưng đa dạng hơn và liên tục cải thiện khả năng học của mạng mà không phá hủy đường dẫn gradient gốc. Mặc dù đạt được tiêu chuẩn công nghệ tiên tiến ấn tượng trên COCO vào thời điểm đó, kiến trúc của nó vẫn phụ thuộc nhiều vào các đầu ra dựa trên anchor và yêu cầu xử lý hậu kỳ Non-Maximum Suppression (NMS) phức tạp, điều này có thể gây ra các nút thắt độ trễ trong quá trình triển khai.
YOLO26: Chuẩn mực AI thị giác ưu tiên Edge
Ra mắt vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho một sự thay đổi mô hình, tư duy lại hoàn toàn quy trình phát hiện để ưu tiên sự dễ dàng trong triển khai, độ ổn định khi huấn luyện và hiệu suất phần cứng.
Chi tiết mô hình
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2026-01-14
- GitHub: ultralytics/ultralytics
- Nền tảng: Ultralytics YOLO26 trên Platform
YOLO26 được xây dựng từ đầu để giải quyết các thách thức kỹ thuật hiện đại. Kiến trúc của nó mang lại một số cải tiến quan trọng vượt xa những thế hệ tiền nhiệm:
- Thiết kế End-to-End không cần NMS: YOLO26 loại bỏ hoàn toàn xử lý hậu kỳ NMS, một phương pháp đột phá được tiên phong lần đầu trong YOLOv10. Điều này dẫn đến quy trình triển khai nhanh hơn, đơn giản hơn nhiều, tránh được độ trễ biến đổi thường do các cảnh đông đúc gây ra.
- Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), mô hình được đơn giản hóa triệt để để xuất dữ liệu, mang lại khả năng tương thích tốt hơn nhiều với các thiết bị edge và phần cứng IoT tiêu thụ điện năng thấp.
- Suy luận trên CPU nhanh hơn tới 43%: Nhờ các đơn giản hóa kiến trúc và cắt tỉa cấu trúc, YOLO26 được tối ưu hóa cụ thể cho điện toán edge và các thiết bị không có GPU chuyên dụng, dễ dàng vượt qua các kiến trúc cũ hơn trên các bộ xử lý tiêu chuẩn.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (cụ thể là Kimi K2 của Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa MuSGD—một sự kết hợp giữa Stochastic Gradient Descent và Muon. Điều này mang lại sự ổn định huấn luyện chưa từng có và khả năng hội tụ nhanh hơn nhiều cho các tác vụ thị giác máy tính.
- ProgLoss + STAL: Việc giới thiệu các hàm mất mát tiên tiến này mang lại những cải thiện đáng chú ý trong nhận diện đối tượng nhỏ, điều này rất quan trọng đối với ảnh chụp từ trên không, robot học và kiểm tra chất lượng tự động.
- Cải tiến theo tác vụ cụ thể: Ngoài phát hiện đối tượng tiêu chuẩn, YOLO26 giới thiệu proto đa quy mô và hàm mất mát phân đoạn ngữ nghĩa chuyên biệt cho tác vụ phân đoạn, Residual Log-Likelihood Estimation (RLE) cho ước tính tư thế, và các thuật toán mất mát góc chuyên biệt để giải quyết các vấn đề về biên trong Oriented Bounding Boxes (OBB).
Việc nâng cấp từ kiến trúc cũ lên YOLO26 đơn giản như việc thay đổi chuỗi mô hình trong mã Python của bạn thành yolo26n.pt. Gói Ultralytics xử lý toàn bộ quá trình chuyển đổi, bao gồm tải trọng lượng tự động và điều chỉnh cấu hình.
So sánh hiệu suất và các chỉ số
Khi so sánh dấu chân tính toán, YOLO26 thể hiện sự vượt trội rõ ràng trong việc cân bằng hiệu suất và yêu cầu bộ nhớ. Các mô hình dựa trên Transformer hoặc các kiến trúc nặng nề cũ thường yêu cầu cấp phát bộ nhớ CUDA khổng lồ, nhưng YOLO26 huấn luyện hiệu quả trên các GPU cấp người dùng.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Như đã thấy ở trên, mô hình YOLO26m đạt được độ chính xác tương đương (53.1 mAP) với YOLOv7x đồ sộ, nhưng chỉ với chưa đầy một phần ba số tham số (20.4M so với 71.3M) và thời gian suy luận cực nhanh thông qua TensorRT.
Lợi thế của hệ sinh thái Ultralytics
Việc triển khai các mô hình cũ thường liên quan đến việc đối phó với các kho lưu trữ bên thứ ba phức tạp, địa ngục phụ thuộc và các tập lệnh xuất thủ công. Ngược lại, Ultralytics Platform cung cấp một hệ sinh thái gắn kết, được bảo trì tốt giúp hợp lý hóa toàn bộ vòng đời học máy.
- Dễ sử dụng: Với API Python trực quan và tài liệu đầy đủ, bạn có thể chú thích, huấn luyện và triển khai các mô hình trong vài phút. Việc xuất sang các định dạng như ONNX hoặc CoreML chỉ yêu cầu một dòng mã.
- Yêu cầu bộ nhớ: Các mô hình Ultralytics nổi tiếng vì mức sử dụng bộ nhớ thấp. Không giống như một số transformer thị giác cồng kềnh, YOLO26 có thể dễ dàng được tinh chỉnh trên phần cứng tiêu chuẩn mà không gặp lỗi hết bộ nhớ (OOM).
- Tính linh hoạt: Trong khi YOLOv7 chủ yếu là một trình phát hiện đối tượng (với một số nhánh thử nghiệm cho các tác vụ khác), YOLO26 là một khung làm việc thống nhất nguyên bản xử lý phát hiện, phân loại, theo dõi, tư thế và OBB với mức độ thành thạo như nhau.
Mặc dù YOLO26 là tiêu chuẩn được khuyến nghị, các nhà phát triển chuyển đổi hệ thống cũ cũng có thể khám phá YOLO11, một thế hệ đầy năng lực khác trong dòng sản phẩm Ultralytics cung cấp độ ổn định tuyệt vời cho các dự án hỗ trợ dài hạn.
Ví dụ mã: Huấn luyện và Triển khai
Ví dụ sau đây cho thấy sự đơn giản thanh lịch của gói ultralytics. Hãy chú ý giao diện sạch sẽ như thế nào so với việc gọi các đối số dòng lệnh dài cho các mô hình cũ.
from ultralytics import YOLO
# Load the lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model efficiently on a dataset (e.g., COCO8)
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
batch=32, # Efficient memory usage allows larger batch sizes
device=0,
)
# Run an NMS-free, end-to-end inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export directly to ONNX for edge deployment
export_path = model.export(format="onnx")
print(f"Model exported successfully to: {export_path}")Các trường hợp sử dụng trong thực tế
Việc chọn kiến trúc phù hợp phụ thuộc hoàn toàn vào các ràng buộc sản xuất của bạn.
Khi nào nên cân nhắc YOLOv7: YOLOv7 vẫn là một công cụ có giá trị để đánh giá hiệu năng học thuật theo tiêu chuẩn năm 2022. Nếu cơ sở hạ tầng của bạn sử dụng các đường ống CUDA cũ được mã hóa cứng cho các đầu ra anchor cụ thể của YOLOv7 và bạn không thể phân bổ tài nguyên để tái cấu trúc, nó sẽ tiếp tục hoạt động như một trình phát hiện cơ sở mạnh mẽ.
Khi nào nên chọn YOLO26: Đối với bất kỳ dự án mới nào, YOLO26 là lựa chọn xác định. Kiến trúc không cần NMS của nó làm cho nó hoàn hảo cho điều hướng tự hành độ trễ thấp và các hệ thống an ninh thời gian thực. Việc loại bỏ DFL và tăng tốc CPU đáng kể khiến nó trở thành nhà vô địch không thể tranh cãi cho các triển khai AI edge, chẳng hạn như triển khai trên Raspberry Pi hoặc bên trong các thiết bị điện tử tiêu dùng. Hơn nữa, các cải tiến ProgLoss + STAL làm cho nó cực kỳ thành thạo trong việc phát hiện các bất thường nhỏ trong đảm bảo chất lượng sản xuất hoặc hình ảnh vệ tinh.
Cuối cùng, YOLO26 cung cấp cho các nhà phát triển sự kết hợp chưa từng có giữa độ chính xác, tốc độ và sự đơn giản, được hỗ trợ bởi sự hỗ trợ toàn diện của cộng đồng mã nguồn mở.