YOLOv7 vs. DAMO- YOLO So sánh kỹ thuật toàn diện
Lĩnh vực phát hiện đối tượng thời gian thực đang liên tục phát triển, với các nhà nghiên cứu và kỹ sư nỗ lực tìm kiếm sự cân bằng tối ưu giữa tốc độ và độ chính xác. Trong bài so sánh kỹ thuật này, chúng ta sẽ đi sâu vào hai kiến trúc đáng chú ý từ năm 2022: YOLOv7 và DAMO- YOLO . Cả hai mô hình đều giới thiệu những khái niệm mới lạ cho cộng đồng thị giác máy tính, giải quyết các thách thức khác nhau trong huấn luyện mô hình, thiết kế kiến trúc và triển khai.
Thông tin cơ bản về mô hình và chi tiết kỹ thuật
Trước khi đi sâu vào kiến trúc của chúng, điều cần thiết là phải hiểu nguồn gốc của hai mô hình này. Cả hai đều được phát triển bởi các nhóm nghiên cứu hàng đầu và đã giới thiệu các phương pháp tiên tiến để vượt qua giới hạn của việc phát hiện đối tượng trong thời gian thực.
YOLOv7 Chi tiết
Được phát triển như một sự tiếp nối của YOLO gia đình, YOLOv7 Đã giới thiệu khái niệm "túi quà tặng miễn phí" có thể huấn luyện được để nâng cao đáng kể độ chính xác mà không làm tăng chi phí suy luận.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức:Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
- Tài liệu:https://docs.ultralytics.com/models/yolov7/
DAMO- YOLO Chi tiết
Được tạo ra bởi các nhà nghiên cứu tại Tập đoàn Alibaba, DAMO- YOLO Tập trung mạnh vào Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) và phương pháp chưng cất tri thức nâng cao để xây dựng các mô hình hiệu quả cao cho nhiều loại phần cứng khác nhau.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức:Alibaba Group
- Ngày: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
Đổi mới Kiến trúc
YOLOv7 Phân tích đường dẫn gradient và tái tham số hóa
YOLOv7 Bài viết tập trung mạnh vào Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) . Các tác giả đã thiết kế E-ELAN bằng cách phân tích đường dẫn gradient của mạng, đảm bảo rằng mạng có thể liên tục học mà không làm suy giảm đường dẫn gradient ban đầu. Hơn nữa, YOLOv7 Nó tận dụng hiệu quả việc tái tham số hóa mô hình trong quá trình suy luận, kết hợp liền mạch các lớp để giảm số phép tính FLOPs và tăng tốc thời gian thực thi. Điều này làm cho nó có khả năng cao trong suy luận thời gian thực trên các GPU hiện đại.
DAMO- YOLO Tìm kiếm kiến trúc mạng nơ-ron và RepGFPN
DAMO- YOLO Điểm khác biệt nằm ở việc tận dụng tối đa Tìm kiếm Kiến trúc Mạng thần kinh (NAS) trong điều kiện độ trễ thấp. Nó sử dụng một khung gọi là MAE-NAS để khám phá các kiến trúc xương sống tối ưu được thiết kế riêng cho phần cứng cụ thể, chẳng hạn như thiết bị di động hoặc bộ tăng tốc biên cụ thể. Đối với phần cổ, nó giới thiệu một RepGFPN (Mạng kim tự tháp đặc trưng tổng quát tham số hóa Rep) hiệu quả và sử dụng thiết kế ZeroHead để giảm thiểu gánh nặng tính toán trong các đầu dự đoán.
Sự khác biệt trong quá trình chưng cất
Trong khi YOLOv7 DAMO- dựa trên các tối ưu hóa kiến trúc vốn có mạnh mẽ. YOLO Phương pháp này phụ thuộc rất nhiều vào một quy trình chắt lọc kiến thức đa giai đoạn phức tạp. Nó đòi hỏi phải huấn luyện một mô hình giáo viên lớn để chắt lọc kiến thức thành một mô hình học sinh nhỏ hơn, điều này có thể tốn kém về mặt tính toán trong giai đoạn huấn luyện.
So sánh hiệu năng và số liệu
Khi so sánh các mô hình này, điều quan trọng là phải xem xét mAP (Độ chính xác trung bình) , tốc độ suy luận và độ phức tạp của mô hình.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Bảng trên cho thấy rằng YOLOv7 có khả năng mở rộng tốt sang các miền có độ chính xác cao (YOLOv7x), trong khi DAMO- YOLO Cung cấp các mô hình nhỏ được tối ưu hóa cao cho các môi trường hạn chế.
Hiệu quả đào tạo và yêu cầu về bộ nhớ
Một điểm khác biệt chính giữa hai kiến trúc này nằm ở phương pháp huấn luyện của chúng. DAMO- YOLO Việc dựa vào phương pháp chưng cất có nghĩa là việc huấn luyện một mô hình mới từ đầu hoặc tinh chỉnh trên một tập dữ liệu thị giác máy tính tùy chỉnh thường đòi hỏi nhiều VRAM và thời gian tính toán GPU hơn đáng kể.
Ngược lại, các mô hình được tích hợp vào Ultralytics hệ sinh thái, chẳng hạn như YOLOv7 và các phiên bản sau này, được tối ưu hóa mạnh mẽ về yêu cầu bộ nhớ . Chúng cho phép các nhà phát triển sử dụng kích thước lô lớn hơn trên phần cứng của người tiêu dùng mà không gặp lỗi hết bộ nhớ, đơn giản hóa quá trình theo dõi và lặp lại thử nghiệm .
Lợi thế của Ultralytics
Trong khi cả hai YOLOv7 và DAMO- YOLO Với những tính năng hấp dẫn, việc triển khai các mô hình trong hệ sinh thái Ultralytics mang đến trải nghiệm phát triển tuyệt vời chưa từng có.
- Dễ sử dụng: Ultralytics Python Gói này cung cấp một API thống nhất và đơn giản. Bạn có thể nhanh chóng chuyển đổi giữa các kiến trúc mô hình, bắt đầu các vòng lặp huấn luyện hoặc chạy suy luận chỉ với một vài dòng mã.
- Hệ sinh thái được duy trì tốt: Ultralytics Cung cấp các bản cập nhật thường xuyên, đảm bảo khả năng tương thích nguyên bản với các bản phát hành PyTorch mới nhất và CUDA Nó cũng giúp đơn giản hóa việc xuất mô hình sang các định dạng như ONNX , TensorRT và OpenVINO .
- Tính linh hoạt: Không giống như DAMO- YOLO , vốn chỉ là một bộ dò tìm đối tượng, Ultralytics Hệ sinh thái hỗ trợ nhiều tác vụ khác nhau một cách tự nhiên. Các mô hình từ Ultralytics Bộ công cụ này có thể thực hiện phát hiện hộp giới hạn tiêu chuẩn, ước lượng tư thế , phân đoạn đối tượng và hộp giới hạn định hướng (OBB) .
Ví dụ mã: Bắt đầu nhanh chóng
Đây là cách bạn có thể dễ dàng tải, huấn luyện và chạy suy luận bằng cách sử dụng Ultralytics mô hình:
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model (or newer models like yolo26n.pt)
model = YOLO("yolov7.pt")
# Train the model on the COCO8 dataset with automated hyperparameter handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX format for deployment
model.export(format="onnx")
Xuất mô hình
Với Ultralytics , xuất dữ liệu trọng lượng đã luyện tập của bạn sang nhiều định dạng hỗ trợ tăng tốc phần cứng khác nhau (như TensorRT hoặc CoreML Việc này được xử lý thông qua một đối số duy nhất trong lệnh xuất, giúp tiết kiệm hàng giờ cấu hình kịch bản phức tạp.
Thế hệ tiếp theo: YOLO26
Trong khi YOLOv7 Mặc dù vẫn giữ vững kiến trúc kế thừa mạnh mẽ, lĩnh vực này đã phát triển nhanh chóng. Đối với các triển khai mới, Ultralytics YOLO26 (phát hành tháng 1 năm 2026) là tiêu chuẩn được khuyến nghị, vượt trội hơn các thế hệ trước ở hầu hết mọi chỉ số.
- Thiết kế không cần NMS từ đầu đến cuối: Lần đầu tiên được tiên phong trong YOLOv10 , YOLO26 loại bỏ hoàn toàn hiện tượng Non-Maximum Suppression (NMS) một cách tự nhiên. NMS ) xử lý hậu kỳ. Điều này đảm bảo suy luận có tính xác định, độ trễ cực thấp, rất quan trọng đối với công nghệ robot và xe tự lái.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến (như Kimi K2 của Moonshot AI), bộ tối ưu hóa lai này kết hợp... SGD và Muon để cung cấp quá trình huấn luyện ổn định cao và tốc độ hội tụ nhanh hơn trên nhiều tập dữ liệu.
- Tăng tốc độ suy luận CPU lên đến 43%: Bằng cách loại bỏ một cách chiến lược hàm mất mát tiêu điểm phân phối (DFL), YOLO26 giúp tăng hiệu suất đáng kể trên các nền tảng điện toán biên và CPU.
- ProgLoss + STAL: Các hàm suy giảm tiên tiến này mang lại những cải tiến đáng kể trong việc phát hiện các vật thể nhỏ, giúp YOLO26 đặc biệt phù hợp cho ảnh chụp từ trên không và giám sát chi tiết.
Các trường hợp sử dụng lý tưởng
Khi nào nên chọn DAMO-YOLO
- Nghiên cứu học thuật về NAS: Nếu tổ chức của bạn đầu tư mạnh vào việc nghiên cứu các phương pháp tìm kiếm kiến trúc mạng thần kinh.
- Độ trễ cực kỳ hạn chế trên phần cứng chuyên dụng: Nếu bạn có đủ nguồn lực để thực hiện các tìm kiếm NAS chuyên sâu nhằm tìm ra một hệ thống xương sống phù hợp cho chip tăng tốc AI tùy chỉnh.
Khi nào nên chọn YOLOv7
- Các đường dẫn GPU hiện có: Dành cho các nhóm đang duy trì các đường dẫn sản xuất cũ đã được tối ưu hóa sâu xung quanh YOLOv7 Kiến trúc E-ELAN đặc thù của 's trên phân khúc cao cấp NVIDIA phần cứng.
Tại sao nên chuyển sang hệ thống hiện đại? Ultralytics Mô hình ( YOLO11 / YOLO26)
Đối với phần lớn các ứng dụng doanh nghiệp—từ phân tích bán lẻ và sản xuất thông minh đến chăm sóc sức khỏe—các giải pháp hiện đại đều cần thiết. Ultralytics Các mô hình này không có đối thủ. Việc tích hợp với Nền tảng Ultralytics cung cấp một quy trình học máy hoàn chỉnh, mang lại sự dễ sử dụng, tài liệu vượt trội, hỗ trợ cộng đồng mạnh mẽ và tính linh hoạt đa nhiệm. Cho dù theo dõi hàng tồn kho trên Raspberry Pi hay chạy phân tích chuyên sâu trên đám mây, các mô hình như YOLO26 đều mang lại sự cân bằng hiệu suất lý tưởng cho tương lai của thị giác máy tính.