DAMO-YOLO so với YOLOv9: Những tiến bộ trong detect đối tượng thời gian thực
Lĩnh vực phát hiện đối tượng đang liên tục phát triển, với các nhà nghiên cứu không ngừng nỗ lực vượt qua giới hạn về độ chính xác, độ trễ và hiệu quả. Hai kiến trúc đáng chú ý đã tạo nên những ảnh hưởng lớn trong cộng đồng thị giác máy tính là DAMO- YOLO , được phát triển bởi Tập đoàn Alibaba, và YOLOv9 , được tạo ra bởi các nhà nghiên cứu tại Viện Hàn lâm Khoa học Trung Quốc.
Mặc dù cả hai mô hình đều hướng đến giải quyết thách thức phát hiện trong thời gian thực, nhưng chúng tiếp cận vấn đề với những triết lý kiến trúc khác nhau. DAMO- YOLO tận dụng Tìm kiếm Kiến trúc Mạng thần kinh (NAS) và việc tái tham số hóa mạnh mẽ để tối ưu hóa độ trễ thấp, trong khi đó YOLOv9 Giới thiệu các khái niệm như Thông tin Gradient có thể lập trình (Programmable Gradient Information - PGI) để tối đa hóa khả năng lưu giữ thông tin trong quá trình học sâu.
DAMO- YOLO Tăng hiệu quả thông qua tìm kiếm kiến trúc mạng nơ-ron
DAMO- YOLO (Distillation-Enhanced Neural Architecture Search for You Only Look Once) được giới thiệu vào cuối năm 2022, tập trung vào việc cân bằng nghiêm ngặt giữa hiệu năng và tốc độ cho các ứng dụng công nghiệp.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23/11/2022
Arxiv: DAMO- YOLO : Báo cáo về thiết kế phát hiện đối tượng thời gian thực
GitHub: tinyvision/DAMO- YOLO
Các tính năng kiến trúc chính
DAMO- YOLO Được xây dựng dựa trên ba công nghệ cốt lõi được thiết kế để tối ưu hóa hiệu năng từ nguồn tài nguyên phần cứng hạn chế:
- Hệ thống xương sống MAE-NAS: Không giống như các hệ thống xương sống được thiết kế thủ công, DAMO- YOLO Phương pháp này sử dụng thuật toán tìm kiếm kiến trúc mạng nơ-ron dựa trên Masked Autoencoder (MAE) để tìm ra cấu trúc mạng tối ưu. Kết quả là một cấu trúc được thiết kế phù hợp về mặt toán học cho các ràng buộc tính toán cụ thể.
- RepGFPN hiệu quả: Mô hình này sử dụng Mạng Kim tự tháp Đặc trưng Tổng quát (GFPN) được tăng cường bằng các cơ chế tái tham số hóa. Điều này cho phép mô hình tận dụng lợi ích của việc kết hợp các đặc trưng đa cấp phức tạp trong quá trình huấn luyện, đồng thời thu gọn thành một cấu trúc đơn giản hơn, nhanh hơn trong quá trình suy luận.
- ZeroHead & AlignedOTA: Đầu phát hiện, được gọi là "ZeroHead," được thiết kế cực kỳ gọn nhẹ để giảm gánh nặng tính toán cho các lớp đầu ra cuối cùng. Hơn nữa, chiến lược gán nhãn, AlignedOTA, giải quyết các vấn đề sai lệch giữa các nhiệm vụ phân loại và hồi quy trong quá trình huấn luyện.
Điểm mạnh và Điểm yếu
Điểm mạnh chính của DAMO- YOLO Điểm mạnh của nó nằm ở tỷ lệ độ trễ trên độ chính xác . Đối với phần cứng công nghiệp cụ thể, xương sống dựa trên NAS có thể cung cấp thông lượng vượt trội. Tuy nhiên, việc mô hình phụ thuộc vào một quy trình huấn luyện chưng cất phức tạp—trong đó một mô hình "giáo viên" lớn hơn phải được huấn luyện trước để hướng dẫn mô hình nhỏ hơn—có thể khiến quá trình huấn luyện trở nên rườm rà đối với các nhà phát triển cần lặp lại nhanh chóng. Ngoài ra, hệ sinh thái xung quanh DAMO- YOLO hoạt động kém tích cực hơn so với phạm vi rộng hơn. YOLO cộng đồng, điều này có thể hạn chế sự hỗ trợ cho các mục tiêu triển khai mới hơn.
YOLOv9 Học tập với phương pháp gradient lập trình được
YOLOv9 , được phát hành vào đầu năm 2024, giải quyết vấn đề mất mát thông tin trong các mạng nơ-ron sâu. Khi các mạng nơ-ron tích chập trở nên sâu hơn, dữ liệu thiết yếu cần thiết để ánh xạ đầu vào sang đầu ra thường bị mất đi — một hiện tượng được gọi là Nút thắt thông tin.
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc
Ngày: 21/02/2024
Arxiv: YOLOv9 : Học những gì bạn muốn học bằng cách sử dụng thông tin độ dốc có thể lập trình
GitHub: WongKinYiu/yolov9
Các tính năng kiến trúc chính
YOLOv9 Giới thiệu hai khái niệm đột phá để giảm thiểu mất mát thông tin:
- Thông tin độ dốc lập trình được (PGI): PGI là một khung giám sát phụ trợ tạo ra các độ dốc đáng tin cậy để cập nhật trọng số mạng, đảm bảo các lớp sâu giữ lại thông tin ngữ nghĩa quan trọng. Nó bao gồm một nhánh phụ trợ có thể đảo ngược, chỉ được sử dụng trong quá trình huấn luyện và bị loại bỏ trong quá trình suy luận, không phát sinh thêm chi phí khi triển khai.
- GELAN (Generalized Efficient Layer Aggregation Network): Kiến trúc này kết hợp những tính năng tốt nhất của CSPNet và ELAN. GELAN được thiết kế để có kích thước nhỏ gọn và tốc độ cao, đồng thời hỗ trợ các khối tính toán khác nhau, cho phép kiểm soát chặt chẽ số lượng tham số mà không làm giảm phạm vi tiếp nhận .
Điểm mạnh và Điểm yếu
YOLOv9 Nó vượt trội về độ chính xác , thiết lập các chuẩn mực mới trên tập dữ liệu COCO . Khả năng lưu giữ thông tin của nó làm cho nó trở nên đặc biệt hiệu quả trong việc phát hiện các đối tượng khó mà các mô hình khác có thể bỏ sót. Tuy nhiên, sự phức tạp về kiến trúc do các nhánh phụ trợ tạo ra có thể khiến mã nguồn khó sửa đổi hơn cho các tác vụ tùy chỉnh so với các thiết kế mô-đun đơn giản hơn. Mặc dù rất hiệu quả trên GPU, nhưng các tập hợp lớp cụ thể có thể chưa được tối ưu hóa hoàn toàn cho tất cả các trường hợp. CPU - Các thiết bị biên tập trung vào đối tượng mục tiêu so với các mô hình được thiết kế riêng cho các đối tượng đó.
So sánh hiệu suất
Bảng sau đây nêu bật các chỉ số hiệu suất của DAMO- YOLO Và YOLOv9 Lưu ý sự đánh đổi giữa số lượng tham số, tải tính toán (FLOPs) và độ chính xác ( mAP ).
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Mặc dù YOLOv9 thường đạt độ chính xác cao hơn (lên đến 55,6% mAP ), DAMO- YOLO cung cấp hiệu suất cạnh tranh trong chế độ mô hình nhỏ, mặc dù phải trả giá bằng số lượng tham số cao hơn cho biến thể 'tiny'. YOLOv9t nhẹ hơn đáng kể về FLOPs (7,7G so với 18,1G), khiến nó có tiềm năng tốt hơn cho các thiết bị cực kỳ hạn chế về tài nguyên mặc dù hiệu suất thấp hơn. mAP .
Lợi thế của Ultralytics: Giới thiệu YOLO26
Trong khi DAMO- YOLO Và YOLOv9 Đại diện cho những thành tựu học thuật đáng kể, các nhà phát triển tập trung vào sản xuất thực tế thường yêu cầu sự kết hợp giữa hiệu năng tiên tiến, dễ sử dụng và tính linh hoạt trong triển khai. Đây là lý do Ultralytics YOLO26 nổi bật như một lựa chọn vượt trội cho các ứng dụng AI hiện đại.
Tại sao lại là YOLO26?
Ra mắt vào tháng 1 năm 2026, YOLO26 kế thừa những ưu điểm của các thế hệ trước nhưng mang đến những thay đổi cơ bản về kiến trúc và tính ổn định trong quá trình huấn luyện.
- NMS từ đầu đến cuối - Thiết kế miễn phí: Không giống như YOLOv9 và DAMO- YOLO Trong khi các phần mềm thường yêu cầu sử dụng Non-Maximum Suppression ( NMS ) để lọc các hộp giới hạn trùng lặp, YOLO26 lại hỗ trợ xử lý đầu cuối từ đầu . Điều này loại bỏ được các hạn chế của việc sử dụng NMS. NMS Loại bỏ hoàn toàn bước xử lý hậu kỳ, giảm độ trễ và sự biến động trong suy luận, đồng thời đơn giản hóa đáng kể quy trình triển khai.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM), YOLO26 sử dụng trình tối ưu hóa MuSGD . Sự kết hợp này của... SGD và Muon (từ Kimi K2 của Moonshot AI) mang lại sự ổn định chưa từng có cho quá trình huấn luyện, đảm bảo sự hội tụ nhanh hơn và giảm nhu cầu tinh chỉnh siêu tham số phức tạp.
- Hiệu quả ưu tiên cạnh: Bằng cách loại bỏ tổn hao tiêu điểm phân tán (DFL) và tối ưu hóa kiến trúc cho CPU Khi thực thi, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% . Điều này làm cho nó trở thành ứng cử viên lý tưởng cho điện toán biên trên các thiết bị như Raspberry Pi hoặc điện thoại di động, nơi không có GPU.
- Phát hiện vật thể nhỏ được cải tiến: Với sự ra mắt của ProgLoss + STAL (Học neo tự học), YOLO26 đạt được những cải tiến đáng kể trong việc nhận dạng các vật thể nhỏ, một yêu cầu quan trọng đối với hình ảnh từ máy bay không người lái và cảm biến IoT.
Quy trình làm việc được tối ưu hóa với Ultralytics Nền tảng
Hãy quên đi các quy trình chưng cất phức tạp hoặc thiết lập môi trường thủ công. Với Nền tảng Ultralytics , bạn có thể quản lý tập dữ liệu của mình, huấn luyện các mô hình YOLO26 trên đám mây và triển khai ở bất kỳ định dạng nào ( ONNX , TensorRT , CoreML ) chỉ với một cú nhấp chuột.
Tính Đa Năng Vượt Trội
Trong khi DAMO- YOLO chủ yếu là một mô hình phát hiện, Ultralytics Hệ sinh thái đảm bảo rằng YOLO26 hỗ trợ đầy đủ các tác vụ ngay từ đầu. Cho dù bạn cần phân đoạn đối tượng , ước tính tư thế bằng phương pháp ước lượng logarit xác suất dư (RLE) hay phát hiện hộp giới hạn định hướng (OBB) cho khảo sát trên không, API vẫn nhất quán và đơn giản.
Ví dụ mã: Huấn luyện với Ultralytics
Bộ SDK Python Ultralytics giúp đơn giản hóa quá trình huấn luyện các mô hình nâng cao. Bạn có thể chuyển đổi giữa... YOLOv9 và YOLO26 một cách liền mạch.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
# Pre-trained on COCO for instant transfer learning
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
# No complex configuration files or distillation steps required
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Use GPU 0
)
# Run inference with NMS-free speed
# Results are ready immediately without post-processing tuning
results = model("https://ultralytics.com/images/bus.jpg")
Kết luận
Việc lựa chọn mô hình phù hợp phụ thuộc vào các yêu cầu cụ thể của bạn. DAMO- YOLO là một ứng cử viên sáng giá nếu bạn đang nghiên cứu kiến trúc NAS hoặc có phần cứng đặc biệt hưởng lợi từ cấu trúc RepGFPN của nó. YOLOv9 là lựa chọn tuyệt vời cho các trường hợp đòi hỏi độ chính xác cao nhất có thể trên các bộ dữ liệu chuẩn học thuật như COCO .
Tuy nhiên, đối với các nhà phát triển và doanh nghiệp đang tìm kiếm một giải pháp sẵn sàng cho sản xuất , Ultralytics YOLO26 cung cấp gói giải pháp hấp dẫn nhất. Thiết kế không cần NMS , tối ưu hóa CPU và tích hợp với Nền tảng Ultralytics giúp giảm đáng kể thời gian đưa sản phẩm ra thị trường. Bằng cách kết hợp những ưu điểm lý thuyết của các mô hình trước đó với những cải tiến thực tiễn như bộ tối ưu hóa MuSGD , YOLO26 đảm bảo bạn không chỉ nhận được một mô hình, mà là một giải pháp xử lý hình ảnh hoàn chỉnh, có khả năng đáp ứng nhu cầu tương lai.