Link to this sectionSo sánh YOLOv7 và YOLOv10#
Lĩnh vực thị giác máy tính đã chứng kiến những tiến bộ đáng kinh ngạc trong vài năm qua, với các model thuộc dòng YOLO (You Only Look Once) đóng vai trò dẫn đầu trong phát hiện đối tượng theo thời gian thực. Việc lựa chọn kiến trúc phù hợp cho các dự án thị giác máy tính đòi hỏi sự hiểu biết sâu sắc về các tùy chọn hiện có. Trong bài so sánh kỹ thuật toàn diện này, chúng ta sẽ khám phá những khác biệt chính giữa hai kiến trúc mang tính cột mốc: YOLOv7 và YOLOv10.
Link to this sectionGiới thiệu về các Model#
Cả hai model này đều đại diện cho những cột mốc quan trọng trong lịch sử trí tuệ nhân tạo, nhưng chúng lại tiếp cận các thách thức của việc phát hiện đối tượng theo những hướng cơ bản khác nhau.
Link to this sectionYOLOv7: Người tiên phong Bag-of-Freebies#
Được ra mắt vào ngày 6 tháng 7 năm 2022 bởi các nhà nghiên cứu Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao từ Institute of Information Science, Academia Sinica, YOLOv7 đã giới thiệu một sự thay đổi mô hình trong cách tối ưu hóa các mạng thần kinh. Nghiên cứu gốc, được trình bày chi tiết trong bài báo học thuật và lưu trữ trên GitHub repository chính thức của họ, tập trung mạnh vào việc tái tham số hóa kiến trúc và một "bag-of-freebies" có thể huấn luyện được.
YOLOv7 tận dụng mạng tập hợp lớp hiệu quả mở rộng (E-ELAN) để hướng dẫn mạng học các tính năng đa dạng mà không làm hỏng đường dẫn gradient gốc. Điều này biến nó thành một lựa chọn mạnh mẽ cho các chuẩn đánh giá nghiên cứu học thuật và các hệ thống phụ thuộc nhiều vào GPU cao cấp tiêu chuẩn.
Link to this sectionYOLOv10: Phát hiện thời gian thực End-to-End#
Được phát triển bởi Ao Wang và nhóm của anh ấy tại Tsinghua University, YOLOv10 được phát hành vào ngày 23 tháng 5 năm 2024. Như đã trình bày chi tiết trong ấn phẩm arxiv và Tsinghua GitHub repository, model này loại bỏ một nút thắt lâu đời trong phát hiện đối tượng: Non-Maximum Suppression (NMS).
YOLOv10 giới thiệu các nhiệm vụ kép nhất quán cho việc huấn luyện không cần NMS, làm thay đổi cơ bản quy trình xử lý hậu kỳ. Bằng cách triển khai chiến lược thiết kế model hướng tới hiệu suất-độ chính xác toàn diện, YOLOv10 giảm bớt sự dư thừa về tính toán. Điều này tạo ra một kiến trúc được thiết kế riêng cho các thiết bị biên yêu cầu độ trễ cực thấp.
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Khi phân tích hiệu suất của model, việc đánh giá sự đánh đổi giữa độ chính xác, tốc độ và trọng lượng tính toán là rất quan trọng. Bảng dưới đây thể hiện cách các kích thước khác nhau của các model này so sánh với nhau.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Link to this sectionPhân tích các yếu tố đánh đổi#
Các chỉ số trên cho thấy một khoảng cách thế hệ rõ rệt. Trong khi YOLOv7x mang lại mAPval rất mạnh là 53,1%, nó yêu cầu 71,3 triệu tham số và 189,9 tỷ FLOPs. Ngược lại, YOLOv10l vượt qua độ chính xác đó (53,3% mAP) trong khi yêu cầu ít hơn một nửa số tham số (29,5 triệu) và ít FLOPs hơn đáng kể (120,3 tỷ). Hơn nữa, YOLOv10n được tối ưu hóa cao cung cấp tốc độ suy luận đáng kinh ngạc là 1,56ms, làm cho nó trở nên lý tưởng cho phân tích video thời gian thực và các ứng dụng di động.
Link to this sectionCác trường hợp sử dụng thực tế#
Những khác biệt về kiến trúc giữa các model này quy định các trường hợp sử dụng tối ưu của chúng.
Link to this sectionKhi nào nên sử dụng YOLOv7#
Nhờ khả năng biểu diễn đặc trưng phong phú, YOLOv7 vượt trội trong các môi trường phức tạp cao. Các trường hợp sử dụng như giám sát lưu lượng giao thông ở các khu vực đô thị đông đúc, phân tích hình ảnh vệ tinh, hoặc xác định lỗi trong tự động hóa sản xuất hạng nặng được hưởng lợi từ khả năng tái tham số hóa cấu trúc mạnh mẽ của nó. Nó cũng được ưa chuộng nhiều trong các môi trường cũ vốn đã được tích hợp sâu với các pipeline PyTorch 1.12 cụ thể.
Link to this sectionKhi nào nên sử dụng YOLOv10#
Thiết kế nhẹ, không cần NMS của YOLOv10 tỏa sáng trong các môi trường bị hạn chế. Nó được khuyến khích mạnh mẽ cho các thiết bị tính toán biên như NVIDIA Jetson Nano hoặc Raspberry Pi. Hiệu suất độ trễ thấp làm cho nó hoàn hảo cho các ứng dụng chuyển động nhanh như phân tích thể thao, điều hướng drone tự hành, và phân loại robot tốc độ cao trên băng chuyền.
Link to this sectionLợi thế từ hệ sinh thái Ultralytics#
Mặc dù cả hai model đều có nền tảng học thuật vững chắc, tiềm năng thực sự của chúng chỉ được khai mở khi sử dụng trong Ultralytics Platform thống nhất. Việc phát triển các model thị giác máy tính từ đầu là vô cùng khó khăn, nhưng hệ sinh thái Ultralytics cung cấp trải nghiệm tuyệt vời cho các kỹ sư học máy.
- Dễ sử dụng: Ultralytics Python API cung cấp một giao diện thống nhất. Bạn có thể huấn luyện, xác thực và xuất model chỉ với một vài dòng code, tránh được những cơn ác mộng về phụ thuộc phức tạp thường thấy ở các kho lưu trữ học thuật thông thường.
- Hệ sinh thái được bảo trì tốt: Ultralytics đảm bảo rằng code nền tảng được phát triển tích cực. Người dùng được hưởng lợi từ các tích hợp liền mạch với các công cụ ML phổ biến như Weights & Biases để ghi log, hoặc Hugging Face để tạo demo web nhanh chóng.
- Yêu cầu bộ nhớ: Các trình phát hiện đối tượng dựa trên Transformer thường tiêu tốn một lượng lớn bộ nhớ CUDA trong quá trình huấn luyện. Ngược lại, các model Ultralytics YOLO yêu cầu ít bộ nhớ hơn nhiều, cho phép sử dụng batch sizes lớn hơn nhiều trên phần cứng cấp độ người tiêu dùng.
- Tính linh hoạt: Pipeline Ultralytics không bị giới hạn ở các bounding box tiêu chuẩn. Nó hỗ trợ liền mạch pose estimation, instance segmentation, và các oriented bounding box trên các dòng model được hỗ trợ như YOLO11 và YOLOv8.
Link to this sectionVí dụ về quy trình huấn luyện tinh gọn#
Chạy một pipeline huấn luyện với Ultralytics cực kỳ đơn giản. Bất kể bạn đang tận dụng sự mạnh mẽ lịch sử của YOLOv7 hay tốc độ không cần NMS của YOLOv10, cú pháp vẫn nhất quán:
from ultralytics import YOLO
# Load the preferred model (e.g., YOLOv10 Nano)
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run an inference prediction on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")
# Export to an edge-friendly format like ONNX
model.export(format="onnx")Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa YOLOv7 và YOLOv10 phụ thuộc vào các yêu cầu dự án cụ thể, các hạn chế triển khai và tùy chọn hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn YOLOv7#
YOLOv7 là lựa chọn mạnh mẽ cho:
- Academic Benchmarking: Tái tạo các kết quả state-of-the-art của kỷ nguyên 2022 hoặc nghiên cứu các hiệu ứng của kỹ thuật E-ELAN và trainable bag-of-freebies.
- Nghiên cứu về Reparameterization: Khám phá các convolution được lập kế hoạch tái tham số hóa và các chiến lược compound model scaling.
- Các pipeline tùy chỉnh hiện có: Các dự án với các pipeline tùy chỉnh nặng nề được xây dựng dựa trên kiến trúc cụ thể của YOLOv7 mà không thể dễ dàng tái cấu trúc.
Link to this sectionKhi nào nên chọn YOLOv10#
YOLOv10 được khuyến nghị cho:
- Phát hiện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc phát hiện đầu cuối (end-to-end) mà không cần NMS, giúp giảm độ phức tạp khi triển khai.
- Sự cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác của phát hiện trên nhiều quy mô model khác nhau.
- Các ứng dụng có độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là yếu tố quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionTương lai: Giới thiệu YOLO26#
Mặc dù YOLOv7 và YOLOv10 là những cột mốc ấn tượng, nhưng biên giới của AI vẫn luôn tiến về phía trước. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 là tiêu chuẩn mới không thể tranh cãi về hiệu suất và độ chính xác trên tất cả các kịch bản triển khai ở biên và đám mây.
Nếu bạn đang bắt đầu một dự án thị giác máy tính mới ngay hôm nay, YOLO26 là kiến trúc được đề xuất. Nó được xây dựng dựa trên di sản của các tiền nhiệm bằng cách kết hợp nhiều đổi mới mang tính đột phá:
- Thiết kế End-to-End không NMS: Lấy cảm hứng từ YOLOv10, YOLO26 loại bỏ hoàn toàn việc xử lý hậu kỳ NMS, đảm bảo suy luận độ trễ cực thấp cho robot thời gian thực có tính quyết định.
- Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ có chiến lược module Distribution Focal Loss (DFL), YOLO26 đẩy nhanh đáng kể khả năng thực thi trên phần cứng tính toán biên không dùng GPU, biến nó thành một công cụ mạnh mẽ cho các thiết bị IoT.
- MuSGD Optimizer: Lấy cảm hứng từ những đổi mới gần đây trong huấn luyện các model ngôn ngữ lớn, YOLO26 kết hợp giữa SGD và Muon, giúp ổn định các đường dẫn huấn luyện và đảm bảo khả năng hội tụ nhanh hơn.
- ProgLoss + STAL: Những hàm loss tiên tiến này mang lại những cải tiến đáng chú ý trong việc nhận diện đối tượng nhỏ, khắc phục một điểm yếu lịch sử trong các thế hệ YOLO cũ hơn.
- Tính linh hoạt vô song: YOLO26 có các tối ưu hóa gốc, đặc thù cho từng tác vụ như Residual Log-Likelihood Estimation (RLE) cho theo dõi pose và các loss góc chuyên dụng cho phát hiện OBB chính xác trong hình ảnh trên không.
Đối với các kỹ sư đang tìm kiếm sự cân bằng tối ưu giữa tốc độ, độ chính xác và sự đơn giản trong triển khai, việc chuyển đổi từ các model cũ sang YOLO26 mang lại lợi thế cạnh tranh ngay lập tức và có thể đo lường được.