YOLOv7 vs. DAMO- YOLO So sánh kỹ thuật toàn diện
Lĩnh vực phát hiện đối tượng thời gian thực đang liên tục phát triển, với các nhà nghiên cứu và kỹ sư nỗ lực tìm kiếm sự cân bằng tối ưu giữa tốc độ và độ chính xác. Trong bài so sánh kỹ thuật này, chúng ta sẽ đi sâu vào hai kiến trúc đáng chú ý từ năm 2022: YOLOv7 và DAMO- YOLO . Cả hai mô hình đều giới thiệu những khái niệm mới lạ cho cộng đồng thị giác máy tính, giải quyết các thách thức khác nhau trong huấn luyện mô hình, thiết kế kiến trúc và triển khai.
Thông tin cơ bản về mô hình và chi tiết kỹ thuật
Trước khi đi sâu vào kiến trúc của chúng, điều cần thiết là phải hiểu nguồn gốc của hai mô hình này. Cả hai đều được phát triển bởi các nhóm nghiên cứu hàng đầu và giới thiệu các phương pháp tiên tiến để vượt qua giới hạn của phát hiện đối tượng thời gian thực.
YOLOv7 Chi tiết
Được phát triển như một sự tiếp nối của dòng YOLO, YOLOv7 đã giới thiệu khái niệm "bag-of-freebies" có thể huấn luyện để tăng cường đáng kể độ chính xác mà không làm tăng chi phí suy luận.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức:Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
- Tài liệu:https://docs.ultralytics.com/models/yolov7/
Chi tiết DAMO-YOLO
Được tạo bởi các nhà nghiên cứu tại Tập đoàn Alibaba, DAMO-YOLO tập trung mạnh vào Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) và chưng cất tri thức nâng cao để xây dựng các mô hình hiệu quả cao cho nhiều loại phần cứng khác nhau.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức:Alibaba Group
- Ngày: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
Đổi mới Kiến trúc
YOLOv7 Phân tích đường dẫn gradient và tái tham số hóa
YOLOv7 Bài viết tập trung mạnh vào Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) . Các tác giả đã thiết kế E-ELAN bằng cách phân tích đường dẫn gradient của mạng, đảm bảo rằng mạng có thể liên tục học mà không làm suy giảm đường dẫn gradient ban đầu. Hơn nữa, YOLOv7 Nó tận dụng hiệu quả việc tái tham số hóa mô hình trong quá trình suy luận, kết hợp liền mạch các lớp để giảm số phép tính FLOPs và tăng tốc thời gian thực thi. Điều này làm cho nó có khả năng cao trong suy luận thời gian thực trên các GPU hiện đại.
DAMO-YOLO: Tìm kiếm Kiến trúc Mạng nơ-ron và RepGFPN
DAMO-YOLO khác biệt bằng cách tận dụng mạnh mẽ Tìm kiếm Kiến trúc Mạng Thần kinh (NAS) dưới các ràng buộc về độ trễ. Nó sử dụng một framework gọi là MAE-NAS để khám phá các backbone tối ưu được tùy chỉnh cho phần cứng cụ thể, như thiết bị di động hoặc các bộ tăng tốc biên cụ thể. Đối với phần neck của nó, nó giới thiệu một RepGFPN hiệu quả (Mạng kim tự tháp đặc trưng tổng quát được tham số hóa lại), và nó sử dụng thiết kế ZeroHead để giảm thiểu gánh nặng tính toán trong các head dự đoán.
Sự khác biệt trong chưng cất
Trong khi YOLOv7 DAMO- dựa trên các tối ưu hóa kiến trúc vốn có mạnh mẽ. YOLO Phương pháp này phụ thuộc rất nhiều vào một quy trình chắt lọc kiến thức đa giai đoạn phức tạp. Nó đòi hỏi phải huấn luyện một mô hình giáo viên lớn để chắt lọc kiến thức thành một mô hình học sinh nhỏ hơn, điều này có thể tốn kém về mặt tính toán trong giai đoạn huấn luyện.
So sánh hiệu năng và số liệu
Khi so sánh các mô hình này, điều quan trọng là phải xem xét mAP (Độ chính xác trung bình) , tốc độ suy luận và độ phức tạp của mô hình.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Bảng trên cho thấy rằng YOLOv7 có khả năng mở rộng tốt sang các miền có độ chính xác cao (YOLOv7x), trong khi DAMO- YOLO Cung cấp các mô hình nhỏ được tối ưu hóa cao cho các môi trường hạn chế.
Hiệu quả đào tạo và yêu cầu về bộ nhớ
Một điểm khác biệt lớn giữa hai kiến trúc nằm ở phương pháp huấn luyện của chúng. Việc DAMO-YOLO dựa vào chưng cất có nghĩa là việc huấn luyện một mô hình mới từ đầu hoặc tinh chỉnh trên tập dữ liệu thị giác máy tính tùy chỉnh thường đòi hỏi nhiều VRAM và thời gian tính toán GPU hơn đáng kể.
Ngược lại, các mô hình được tích hợp vào Ultralytics hệ sinh thái, chẳng hạn như YOLOv7 và các phiên bản sau này, được tối ưu hóa mạnh mẽ về yêu cầu bộ nhớ . Chúng cho phép các nhà phát triển sử dụng kích thước lô lớn hơn trên phần cứng của người tiêu dùng mà không gặp lỗi hết bộ nhớ, đơn giản hóa quá trình theo dõi và lặp lại thử nghiệm .
Lợi thế của Ultralytics
Trong khi cả hai YOLOv7 và DAMO- YOLO Với những tính năng hấp dẫn, việc triển khai các mô hình trong hệ sinh thái Ultralytics mang đến trải nghiệm phát triển tuyệt vời chưa từng có.
- Dễ sử dụng: Gói Ultralytics Python cung cấp một API thống nhất, đơn giản. Bạn có thể nhanh chóng chuyển đổi giữa các kiến trúc mô hình, bắt đầu các vòng lặp huấn luyện hoặc chạy suy luận chỉ với vài dòng mã.
- Hệ sinh thái được duy trì tốt: Ultralytics cung cấp các bản cập nhật thường xuyên, đảm bảo khả năng tương thích gốc với các bản phát hành PyTorch và trình điều khiển CUDA mới nhất. Nó cũng đơn giản hóa việc xuất mô hình sang các định dạng như ONNX, TensorRT và OpenVINO.
- Tính linh hoạt: Không giống như DAMO-YOLO, vốn chỉ là một bộ detect đối tượng chuyên biệt, hệ sinh thái Ultralytics hỗ trợ đa dạng các tác vụ một cách tự nhiên. Các mô hình thuộc dòng Ultralytics có thể thực hiện detect hộp giới hạn tiêu chuẩn, ước tính tư thế, phân đoạn đối tượng và hộp giới hạn định hướng (OBB).
Ví dụ mã: Bắt đầu nhanh chóng
Đây là cách bạn có thể dễ dàng tải, huấn luyện và chạy suy luận bằng cách sử dụng Ultralytics mô hình:
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model (or newer models like yolo26n.pt)
model = YOLO("yolov7.pt")
# Train the model on the COCO8 dataset with automated hyperparameter handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX format for deployment
model.export(format="onnx")
Xuất mô hình
Với Ultralytics , xuất dữ liệu trọng lượng đã luyện tập của bạn sang nhiều định dạng hỗ trợ tăng tốc phần cứng khác nhau (như TensorRT hoặc CoreML Việc này được xử lý thông qua một đối số duy nhất trong lệnh xuất, giúp tiết kiệm hàng giờ cấu hình kịch bản phức tạp.
Thế hệ tiếp theo: YOLO26
Trong khi YOLOv7 Mặc dù vẫn giữ vững kiến trúc kế thừa mạnh mẽ, lĩnh vực này đã phát triển nhanh chóng. Đối với các triển khai mới, Ultralytics YOLO26 (phát hành tháng 1 năm 2026) là tiêu chuẩn được khuyến nghị, vượt trội hơn các thế hệ trước ở hầu hết mọi chỉ số.
- Thiết kế NMS-Free End-to-End: Lần đầu tiên được tiên phong trong YOLOv10, YOLO26 tự nhiên loại bỏ xử lý hậu kỳ Non-Maximum Suppression (NMS). Điều này đảm bảo suy luận có độ trễ cực thấp, mang tính xác định, rất quan trọng đối với robot và công nghệ tự lái.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến (như Kimi K2 của Moonshot AI), trình tối ưu hóa lai này kết hợp SGD và Muon để mang lại quá trình huấn luyện rất ổn định và hội tụ nhanh hơn trên các bộ dữ liệu.
- Tăng tốc suy luận trên CPU lên đến 43%: Bằng cách loại bỏ chiến lược Distribution Focal Loss (DFL), YOLO26 tăng cường hiệu suất đáng kể trên các nền tảng điện toán biên và CPU.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc detect vật thể nhỏ, khiến YOLO26 đặc biệt phù hợp cho ảnh chụp từ trên không và giám sát chi tiết.
Các trường hợp sử dụng lý tưởng
Khi nào nên chọn DAMO-YOLO
- Nghiên cứu học thuật về NAS: Nếu tổ chức của bạn đầu tư mạnh vào việc nghiên cứu các phương pháp Tìm kiếm Kiến trúc Mạng nơ-ron (Neural Architecture Search).
- Độ trễ bị ràng buộc cực kỳ trên phần cứng cụ thể: Nếu bạn có đủ tài nguyên để chạy các tìm kiếm NAS toàn diện nhằm tìm một kiến trúc tùy chỉnh cho chip tăng tốc AI tùy chỉnh.
Khi nào nên chọn YOLOv7
- Các pipeline GPU hiện có: Dành cho các nhóm duy trì các pipeline sản xuất kế thừa được tối ưu hóa sâu sắc xung quanh kiến trúc E-ELAN cụ thể của YOLOv7 trên phần cứng NVIDIA cao cấp.
Tại sao nên chuyển sang hệ thống hiện đại? Ultralytics Mô hình ( YOLO11 / YOLO26)
Đối với phần lớn các ứng dụng doanh nghiệp—từ phân tích bán lẻ và sản xuất thông minh đến chăm sóc sức khỏe—các giải pháp hiện đại đều cần thiết. Ultralytics Các mô hình này không có đối thủ. Việc tích hợp với Nền tảng Ultralytics cung cấp một quy trình học máy hoàn chỉnh, mang lại sự dễ sử dụng, tài liệu vượt trội, hỗ trợ cộng đồng mạnh mẽ và tính linh hoạt đa nhiệm. Cho dù theo dõi hàng tồn kho trên Raspberry Pi hay chạy phân tích chuyên sâu trên đám mây, các mô hình như YOLO26 đều mang lại sự cân bằng hiệu suất lý tưởng cho tương lai của thị giác máy tính.