YOLOv7 vs DAMO- YOLO Cân bằng giữa sự đổi mới kiến trúc và tốc độ
Lĩnh vực phát hiện đối tượng thời gian thực đã chứng kiến những thay đổi đáng kể vào năm 2022 với sự ra mắt của YOLOv7 và DAMO- YOLO . Cả hai mô hình đều hướng đến việc nâng cao độ chính xác và độ trễ nhưng tiếp cận thách thức từ những góc độ kỹ thuật khác nhau về cơ bản. YOLOv7 tập trung vào việc tối ưu hóa quá trình đào tạo thông qua phương pháp "túi quà tặng miễn phí", trong khi DAMO- YOLO Đã tận dụng Tìm kiếm Kiến trúc Mạng thần kinh (NAS) để tự động phát hiện các cấu trúc hiệu quả.
Bài so sánh toàn diện này sẽ khám phá kiến trúc, các chỉ số hiệu năng và phương pháp huấn luyện của chúng để giúp bạn quyết định mô hình nào phù hợp với các ứng dụng thị giác máy tính cụ thể của mình. Mặc dù cả hai vẫn còn phù hợp cho các dự án cũ, chúng ta cũng sẽ thảo luận về lý do tại sao các giải pháp hiện đại như YOLO26 hiện là tiêu chuẩn được khuyến nghị cho các dự án phát triển mới.
YOLOv7: Túi quà tặng có thể huấn luyện
Được phát hành vào tháng 7 năm 2022, YOLOv7 đánh dấu một cột mốc quan trọng trong YOLO loạt bài này tập trung vào các cải cách kiến trúc giúp cải thiện độ chính xác mà không làm tăng chi phí suy luận.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
Đổi mới Kiến trúc
YOLOv7 đã giới thiệu Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) . Không giống như ELAN tiêu chuẩn, vốn kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, E-ELAN sử dụng các thao tác mở rộng, xáo trộn và hợp nhất để tăng cường khả năng học tập của mạng mà không phá hủy đường dẫn gradient ban đầu. Thiết kế này cho phép mô hình học được nhiều đặc trưng đa dạng hơn, cải thiện hiệu suất trên các tập dữ liệu phức tạp như COCO .
Một khái niệm quan trọng trong YOLOv7 Đây là "túi quà tặng miễn phí có thể huấn luyện được". Đó là các phương pháp tối ưu hóa—chẳng hạn như tái tham số hóa mô hình và gán nhãn động—làm tăng chi phí huấn luyện để nâng cao độ chính xác nhưng không gây ra bất kỳ tổn thất nào trong quá trình suy luận. Điều này làm cho YOLOv7 Đây là lựa chọn tuyệt vời cho những trường hợp đòi hỏi độ chính xác cao, chẳng hạn như phân tích hình ảnh y tế hoặc kiểm tra công nghiệp quan trọng về an toàn.
DAMO- YOLO Tăng hiệu quả thông qua tìm kiếm kiến trúc mạng nơ-ron
Được phát triển bởi Tập đoàn Alibaba, DAMO- YOLO (sau này được tích hợp vào bộ phần mềm xử lý hình ảnh của DAMO-Academy) ưu tiên tốc độ và độ trễ thấp, đặc biệt nhắm đến các ứng dụng công nghiệp nơi có các ràng buộc nghiêm ngặt về mili giây.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức:Alibaba Group
- Ngày: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
MAE-NAS và quá trình chưng cất
DAMO- YOLO Kiến trúc của hệ thống được xây dựng bằng phương pháp MAE-NAS (Phương pháp tự động hóa hiệu quả - Tìm kiếm kiến trúc mạng thần kinh). Quá trình tự động này đã tìm ra các cấu trúc xương sống giúp tối đa hóa hiệu suất phát hiện trong phạm vi độ trễ cụ thể. Nó cũng giới thiệu RepGFPN (Mạng kim tự tháp đặc trưng tổng quát tham số hóa Rep) để kết hợp đặc trưng hiệu quả và ZeroHead , một đầu phát hiện nhẹ.
Một đặc điểm nổi bật của DAMO- YOLO Điểm yếu của nó là sự phụ thuộc quá nhiều vào phương pháp chưng cất. Các mô hình thường được huấn luyện với sự trợ giúp của một mô hình "giáo viên" lớn hơn, hướng dẫn mô hình "học sinh" học được các biểu diễn tốt hơn. Mặc dù điều này mang lại hiệu quả ấn tượng, nhưng nó làm phức tạp đáng kể quy trình huấn luyện so với các quy trình phát hiện đối tượng tiêu chuẩn.
So sánh hiệu suất
Bảng sau đây so sánh hiệu suất của YOLOv7 và DAMO- YOLO các biến thể. YOLOv7 thường có độ chính xác cao hơn ( mAP ), trong khi DAMO- YOLO Cung cấp các mẫu xe cực kỳ nhẹ, được tối ưu hóa cho tốc độ.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Phân tích sự đánh đổi
- Độ chính xác: YOLOv7x dẫn đầu với... mAP với độ chính xác 53,1% , điều này khiến nó phù hợp với các tác vụ mà việc bỏ sót phát hiện sẽ gây tổn thất lớn.
- Tốc độ: DAMO-YOLOt cực kỳ nhanh (2,32 ms trên T4) TensorRT ), lý tưởng cho việc hiểu video tốc độ khung hình cao hoặc triển khai trên các thiết bị biên có tài nguyên hạn chế.
- Độ phức tạp: YOLOv7 Các thông số và FLOP của nó cao hơn đáng kể, phản ánh sự tập trung vào dung lượng hơn là hiệu quả thuần túy.
Ghi chú về độ phức tạp của đào tạo
Trong khi DAMO- YOLO Mặc dù thể hiện sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, việc tái tạo kết quả của nó trên các tập dữ liệu tùy chỉnh có thể gặp khó khăn. Công thức huấn luyện của nó thường yêu cầu một quy trình nhiều giai đoạn liên quan đến một mô hình giáo viên phức tạp để chắt lọc, trong khi đó YOLOv7 Sử dụng phương pháp "đào tạo từ đầu" đơn giản, dễ thực hiện hơn.
Tại sao Ultralytics YOLO26 là lựa chọn vượt trội
Trong khi YOLOv7 và DAMO- YOLO Mặc dù các công nghệ tiền nhiệm đã tạo ra ảnh hưởng lớn trong thời điểm ra mắt, lĩnh vực này đã phát triển nhanh chóng. Đối với các nhà phát triển và nhà nghiên cứu bắt đầu các dự án mới vào năm 2026, YOLO26 cung cấp một giải pháp thống nhất vượt trội hơn cả hai công nghệ tiền nhiệm bằng cách kết hợp độ chính xác cao với việc triển khai đơn giản.
Dễ sử dụng và Hệ sinh thái vượt trội
Hệ sinh thái Ultralytics nổi tiếng với thiết kế thân thiện với người dùng. Không giống như các quy trình chưng cất phức tạp của DAMO- YOLO YOLO26 cung cấp một giải pháp tối ưu hóa. Python API này xử lý mọi thứ, từ chú thích dữ liệu đến triển khai mô hình .
- Hiệu quả huấn luyện: Huấn luyện các mô hình tiên tiến nhất chỉ với vài dòng mã mà không cần thiết lập mối quan hệ thầy-trò phức tạp.
- Được bảo trì tốt: Các bản cập nhật thường xuyên, tài liệu đầy đủ và sự hỗ trợ tích cực từ cộng đồng đảm bảo dự án của bạn luôn có khả năng đáp ứng nhu cầu trong tương lai.
- Tính linh hoạt: Ngoài khả năng phát hiện, YOLO26 còn hỗ trợ nguyên bản phân đoạn đối tượng , ước tính tư thế , phân loại và hộp giới hạn định hướng (OBB) .
Những đột phá kỹ thuật của YOLO26
YOLO26 giới thiệu một số cải tiến quan trọng giúp giải quyết những hạn chế của các kiến trúc cũ hơn:
- Thiết kế không có NMS từ đầu đến cuối: Bằng cách loại bỏ hiện tượng triệt tiêu cực đại không tối đa (Non-Maximum Suppression) NMS ), YOLO26 giảm độ trễ suy luận và đơn giản hóa logic xuất dữ liệu, một tính năng mà cả hai đều thiếu. YOLOv7 và tiêu chuẩn DAMO- YOLO các triển khai.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM (như Kimi K2), bộ tối ưu hóa lai này kết hợp... SGD và Muon để hội tụ nhanh hơn và huấn luyện ổn định hơn.
- Tối ưu hóa cạnh: Loại bỏ hiện tượng mất tiêu điểm phân bố (DFL) và các yếu tố cụ thể khác. CPU Các tối ưu hóa giúp YOLO26 nhanh hơn tới 43% trên CPU khi suy luận so với các thế hệ trước, đáp ứng nhu cầu độ trễ thấp mà DAMO- YOLO Mục tiêu ban đầu.
- ProgLoss + STAL: Các hàm mất mát nâng cao giúp cải thiện khả năng phát hiện vật thể nhỏ, một khả năng quan trọng đối với hình ảnh và robot từ máy bay không người lái .
Ví dụ mã: Huấn luyện với Ultralytics
Ví dụ này minh họa cách dễ dàng huấn luyện một mô hình YOLO26 hiện đại bằng cách sử dụng... Ultralytics API. Giao diện duy nhất này thay thế các tệp cấu hình phức tạp và quy trình nhiều giai đoạn cần thiết cho các kho lưu trữ cũ hơn.
from ultralytics import YOLO
# Load the latest YOLO26 model (recommended over YOLOv7/DAMO-YOLO)
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for deployment
model.export(format="onnx")
Kết luận
Cả hai YOLOv7 và DAMO- YOLO Đã đóng góp đáng kể vào sự phát triển của thị giác máy tính. YOLOv7 đã chứng minh rằng các kiến trúc được thiết kế thủ công vẫn có thể đạt được kết quả SOTA thông qua các chiến lược huấn luyện thông minh, trong khi DAMO- YOLO đã chứng minh sức mạnh của NAS trong môi trường có độ trễ hạn chế.
Tuy nhiên, để triển khai thực tế trong thế giới thực hiện nay, YOLO26 là lựa chọn tối ưu. Nó cung cấp sự cân bằng hiệu năng giữa độ chính xác cao và tốc độ, yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với Transformer, và sự hỗ trợ mạnh mẽ từ cộng đồng. Ultralytics Hệ sinh thái. Cho dù bạn đang xây dựng cho thiết bị biên hay đám mây, thiết kế toàn diện và khả năng hỗ trợ tác vụ linh hoạt của YOLO26 đều cung cấp con đường hiệu quả nhất để đưa sản phẩm vào hoạt động.
Đọc thêm
- Xem danh sách đầy đủ các mẫu máy được hỗ trợ .
- Tìm hiểu cách theo dõi quá trình huấn luyện với Ultralytics .
- Hãy tìm hiểu những lợi ích của YOLO11 , phiên bản tiền nhiệm mạnh mẽ của YOLO26.