DAMO- YOLO so với YOLOv7 Khám phá chuyên sâu về phát hiện đối tượng trong thời gian thực
Năm 2022 đánh dấu một thời điểm then chốt trong sự phát triển của thị giác máy tính, chứng kiến sự ra mắt của hai kiến trúc có ảnh hưởng lớn: DAMO YOLO và YOLOv7 . Cả hai mô hình đều hướng đến việc định nghĩa lại ranh giới của sự đánh đổi giữa tốc độ và độ chính xác, nhưng chúng tiếp cận thách thức này từ những triết lý kỹ thuật hoàn toàn khác nhau.
DAMO- YOLO Được phát triển bởi Tập đoàn Alibaba, công nghệ này tận dụng Tìm kiếm Kiến trúc Mạng thần kinh (NAS) và việc tái tham số hóa mạnh mẽ để tối ưu hóa hiệu suất phần cứng. Ngược lại, YOLOv7 Được tạo ra bởi các tác giả của YOLOv4, tập trung vào việc tối ưu hóa đường dẫn lan truyền gradient và các chiến lược huấn luyện "túi quà tặng miễn phí" để đạt được độ chính xác hàng đầu.
Hướng dẫn này cung cấp một so sánh kỹ thuật chặt chẽ giữa hai mô hình này, phân tích kiến trúc, các chỉ số hiệu suất và tính phù hợp của chúng đối với các ứng dụng thị giác máy tính hiện đại. Chúng ta cũng sẽ tìm hiểu xem bối cảnh đã thay đổi như thế nào với sự ra đời của Ultralytics YOLO26 , tích hợp những ưu điểm tốt nhất của các phương pháp truyền thống vào một khung phần mềm thống nhất, thân thiện với người dùng.
Các chỉ số hiệu suất và điểm chuẩn
Để hiểu rõ sự khác biệt thực tế giữa các kiến trúc này, điều cần thiết là phải xem xét hiệu năng của chúng trên các bộ dữ liệu chuẩn như bộ dữ liệu COCO . Bảng dưới đây so sánh các mô hình dựa trên Độ chính xác trung bình (Mean Average Precision) ( mAP ), tốc độ suy luận (độ trễ) và độ phức tạp tính toán.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Như số liệu minh họa, YOLOv7 nhìn chung vượt trội về độ chính xác thô, với... YOLOv7 - Biến thể X đạt được tỷ lệ ấn tượng 53,1%. mAP Điều này khiến nó trở thành ứng cử viên sáng giá cho những trường hợp mà độ chính xác là không thể thiếu, chẳng hạn như phân tích hình ảnh y tế hoặc xem xét tài liệu pháp y. Tuy nhiên, DAMO- YOLO nổi bật về hiệu quả, đặc biệt là với biến thể "Tiny", cung cấp độ trễ cực thấp (2,32 ms) trên... TensorRT - Phần cứng được tối ưu hóa, phù hợp cho việc phân loại công nghiệp tốc độ cao.
Đổi mới Kiến trúc
Sự khác biệt cốt lõi giữa hai mô hình này nằm ở cách thức thiết kế kiến trúc của chúng.
DAMO- YOLO Phương pháp tiếp cận của NAS
DAMO- YOLO (Mô hình tăng cường chưng cất) dựa rất nhiều vào Tìm kiếm kiến trúc mạng thần kinh (NAS) . Thay vì tự tay thiết kế từng khối, các tác giả đã sử dụng một phương pháp gọi là MAE-NAS để tự động khám phá các cấu trúc xương sống hiệu quả.
- RepGFPN: Nó giới thiệu một mạng lưới kim tự tháp đặc trưng tổng quát được tham số hóa lại hiệu quả. Điều này cho phép kết hợp các đặc trưng đa tỷ lệ vượt trội, đảm bảo phát hiện hiệu quả cả các đối tượng nhỏ và lớn.
- ZeroHead: Để giảm chi phí tính toán của đầu dò, DAMO- YOLO Nó sử dụng chiến lược "ZeroHead", đơn giản hóa các lớp cuối cùng để tiết kiệm những mili giây quan trọng trong quá trình suy luận.
- Chắt lọc kiến thức: Một phần quan trọng của quy trình huấn luyện liên quan đến việc chắt lọc kiến thức chuyên sâu, trong đó một mô hình giáo viên lớn hơn hướng dẫn mô hình học sinh nhỏ hơn, giúp tăng độ chính xác mà không làm tăng chi phí suy luận.
YOLOv7 Tối ưu hóa đường dẫn gradient
YOLOv7 Tập trung vào "các gói quà tặng miễn phí có thể huấn luyện" - những tối ưu hóa giúp cải thiện độ chính xác trong quá trình huấn luyện mà không làm tăng chi phí suy luận.
- E-ELAN: Mạng tổng hợp lớp hiệu quả mở rộng là xương sống của YOLOv7 Nó tạo ra một kiến trúc cho phép mạng học được nhiều đặc điểm hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, đảm bảo mạng hội tụ hiệu quả.
- Mở rộng mô hình: Không giống như các phiên bản trước chỉ đơn thuần mở rộng hoặc làm sâu thêm mạng lưới, YOLOv7 Sự kết hợp này tạo nên những đặc tính mở rộng, duy trì sự cân bằng tối ưu cho các hạn chế phần cứng khác nhau.
- Bộ xử lý phụ: Quá trình huấn luyện sử dụng bộ xử lý phụ để cung cấp sự giám sát sâu, giúp các lớp trung gian học được nhiều đặc điểm phong phú.
Giải pháp thay thế hiện đại: Ultralytics YOLO26
Trong khi DAMO- YOLO Và YOLOv7 Thể hiện những thành tựu kỹ thuật đáng kể, lĩnh vực này đã phát triển nhanh chóng. Đối với các nhà phát triển bắt đầu các dự án mới vào năm 2026, Ultralytics YOLO26 cung cấp một giải pháp thống nhất giải quyết những hạn chế của cả hai mô hình cũ.
YOLO26 không chỉ là một bản cập nhật nhỏ; nó là một sự thay đổi mang tính đột phá được thiết kế cho thế giới ưu tiên điện toán biên. Nó tích hợp độ chính xác cao liên quan đến... YOLOv7 và các mục tiêu hiệu quả của DAMO- YOLO nhưng với khả năng sử dụng vượt trội và những đột phá kiến trúc hiện đại.
Ưu điểm chính của YOLO26
- NMS từ đầu đến cuối - Thiết kế miễn phí: Không giống như YOLOv7 Trong khi YOLO26 yêu cầu sử dụng Non-Maximum Suppression ( NMS ) để lọc các phát hiện trùng lặp, thì YOLO26 lại hoạt động hoàn toàn từ đầu đến cuối. Điều này loại bỏ sự biến đổi độ trễ do gây ra. NMS Xử lý hậu kỳ, dẫn đến tốc độ suy luận xác định, điều rất quan trọng đối với robot thời gian thực.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) (cụ thể là Kimi K2 của Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa MuSGD . Sự kết hợp này của SGD Và Muon mang lại sự ổn định chưa từng có cho việc huấn luyện thị giác máy tính, cho phép các mô hình hội tụ nhanh hơn với số lượng epoch ít hơn.
- Hiệu quả ưu tiên xử lý cạnh: Bằng cách loại bỏ tổn hao tiêu điểm phân tán (DFL), YOLO26 đơn giản hóa đồ thị mô hình để xuất. Điều này giúp tăng tốc độ suy luận CPU lên tới 43% so với các thế hệ trước, biến nó trở thành lựa chọn vượt trội cho các thiết bị như Raspberry Pi hoặc điện thoại di động không có GPU.
- ProgLoss + STAL: Sự tích hợp giữa Hàm mất mát lập trình được (ProgLoss) và Gắn nhãn neo mục tiêu mềm (STAL) mang lại những cải tiến đáng kể trong việc phát hiện các vật thể nhỏ, một điểm yếu truyền thống của các mô hình nhẹ hơn như DAMO- YOLO -Nhỏ xíu.
Quy trình làm việc được tối ưu hóa với Ultralytics
Việc chuyển đổi từ kho lưu trữ nghiên cứu sang môi trường sản xuất thường gặp nhiều khó khăn do mã nguồn phân tán. Nền tảng Ultralytics giải quyết vấn đề này bằng cách cung cấp một giao diện thống nhất. Bạn có thể huấn luyện mô hình YOLO26, track các thí nghiệm và triển khai sang các định dạng như ONNX hoặc CoreML Chỉ với một cú nhấp chuột, điều này hoàn toàn trái ngược với các tập lệnh xuất thủ công cần thiết cho DAMO- YOLO .
Khả năng Sử dụng và Hệ sinh thái
Kiến trúc của một mô hình chỉ là một nửa câu chuyện; hệ sinh thái mới quyết định mức độ dễ dàng khi bạn triển khai nó.
DAMO- YOLO chủ yếu là một kho lưu trữ nghiên cứu. Mặc dù mã nguồn mở, nhưng nó thiếu một API tiêu chuẩn để dễ dàng tích hợp vào các hệ thống lớn hơn. Python các ứng dụng. Người dùng thường phải tự xử lý các trình tải dữ liệu, tệp cấu hình và tập lệnh xuất.
YOLOv7 Tôi đã cải thiện điều này bằng cách bổ sung tài liệu tốt hơn, nhưng nó vẫn dựa trên quy trình làm việc theo kịch bản truyền thống hơn (train.py, detect.py).
Các mô hình Ultralytics ưu tiên tính dễ sử dụng . Thư viện này cung cấp API kiểu Python, coi các mô hình như các đối tượng. Điều này cho phép tích hợp liền mạch vào các hệ thống phần mềm hiện có.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100)
# Run inference with NMS-free speed
# No post-processing steps required by the user
results = model("https://ultralytics.com/images/bus.jpg")
Hơn nữa, Ultralytics Các mẫu này nổi tiếng về tính linh hoạt . Trong khi DAMO- YOLO Đây hoàn toàn là một thiết bị phát hiện đối tượng. Ultralytics Khung phần mềm này hỗ trợ phân loại hình ảnh , phân đoạn đối tượng , ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) . Điều này cho phép một nhóm duy nhất xử lý nhiều nhiệm vụ thị giác máy tính khác nhau bằng một thư viện duy nhất, được bảo trì tốt.
Hiệu quả huấn luyện và Tài nguyên
Việc huấn luyện các mô hình thị giác hiện đại có thể tốn nhiều tài nguyên. YOLOv7 nổi tiếng với "kho tàng kiến thức miễn phí", ngụ ý rằng mô hình học rất hiệu quả, nhưng quá trình huấn luyện có thể ngốn nhiều bộ nhớ VRAM. Việc DAMO- YOLO dựa vào phương pháp chưng cất có nghĩa là bạn cần chạy hai mô hình (giáo viên và học sinh) trong quá trình huấn luyện, điều này làm tăng chi phí bộ nhớ và độ phức tạp của quy trình huấn luyện.
Ultralytics YOLO26 giải quyết vấn đề yêu cầu bộ nhớ bằng cách tối ưu hóa kiến trúc để giảm thiểu yêu cầu bộ nhớ. CUDA Việc này giúp giảm thiểu việc sử dụng bộ nhớ. Điều này cho phép các nhà phát triển sử dụng kích thước lô lớn hơn trên các GPU dành cho người tiêu dùng. Ngoài ra, việc loại bỏ các thành phần phức tạp như DFL và việc giới thiệu trình tối ưu hóa MuSGD đảm bảo quá trình huấn luyện không chỉ ổn định mà còn hiệu quả về mặt tính toán.
Kết luận
Cả DAMO- YOLO Và YOLOv7 Đây là những đóng góp mang tính bước ngoặt cho lĩnh vực Trí tuệ Nhân tạo . YOLOv7 đã đẩy giới hạn độ chính xác lên cao hơn bằng các tối ưu hóa thủ công, trong khi DAMO- YOLO Đã chứng minh sức mạnh của việc tìm kiếm kiến trúc tự động cho các ứng dụng có độ trễ thấp.
Tuy nhiên, đối với các nhà phát triển đang tìm kiếm một giải pháp mạnh mẽ, có khả năng đáp ứng nhu cầu trong tương lai vào năm 2026, Ultralytics YOLO26 là sự lựa chọn tối ưu. Nó kết hợp độ chính xác cao vốn có của... YOLO gia đình với những cải tiến hiện đại như NMS - Phát hiện lỗi và các thuật toán tối ưu hóa lấy cảm hứng từ LLM. Được hỗ trợ bởi tài liệu phong phú và cộng đồng năng động của... Ultralytics Trong hệ sinh thái này, YOLO26 mang đến sự cân bằng hoàn hảo giữa hiệu năng, tính dễ sử dụng và tính linh hoạt trong triển khai.
DAMO- YOLO Chi tiết
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức:Alibaba Group
- Ngày: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
YOLOv7 Chi tiết
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7