DAMO-YOLO vs. YOLOv9: So sánh kỹ thuật toàn diện các Kiến trúc phát hiện đối tượng hiện đại

Lĩnh vực phát hiện đối tượng thời gian thực tiếp tục phát triển với tốc độ chóng mặt. Khi các nhóm kỹ sư và nhà nghiên cứu nỗ lực tìm kiếm sự cân bằng hoàn hảo giữa độ chính xác, tốc độ suy luận và hiệu quả tính toán, hai kiến trúc đáng chú ý đã nổi lên từ cộng đồng nghiên cứu: DAMO- YOLO và YOLOv9 . Cả hai mô hình đều giới thiệu những cải tiến kiến trúc quan trọng nhằm mục đích đẩy mạnh giới hạn của những gì có thể đạt được trong thị giác máy tính.

Hướng dẫn kỹ thuật chi tiết này cung cấp phân tích chuyên sâu về hai mô hình này, so sánh các phương pháp kiến trúc độc đáo, phương pháp huấn luyện và khả năng triển khai thực tế của chúng. Chúng ta cũng sẽ khám phá vai trò quan trọng của hệ sinh thái phần mềm rộng lớn hơn trong phát triển AI hiện đại, làm nổi bật những lợi thế của các nền tảng tích hợp như Nền tảng Ultralytics và thế hệ mô hình mới hơn như YOLO26 .

Tóm tắt: Lựa chọn kiến trúc phù hợp

Mặc dù cả hai mô hình đều đại diện cho những cột mốc quan trọng trong nghiên cứu học sâu, nhưng chúng lại phục vụ cho những triết lý triển khai hơi khác nhau.

DAMO-YOLO vượt trội trong các môi trường nơi có thể tận dụng mạnh mẽ Tìm kiếm Kiến trúc Mạng Thần kinh (NAS) để đạt được các cấu hình hiệu suất cụ thể, làm cho nó trở thành một nghiên cứu thú vị cho việc triển khai biên tùy chỉnh. Ngược lại, YOLOv9 tập trung mạnh vào việc giải quyết các nút thắt thông tin học sâu, mang lại hiệu quả tham số cực kỳ cao.

Tuy nhiên, đối với các triển khai sẵn sàng cho sản xuất, các nhóm kỹ thuật luôn khuyến nghị tận dụng hệ sinh thái Ultralytics thống nhất. Đối với các dự án mới, mẫu YOLO26 mới nhất mang đến những ưu điểm vượt trội: độ chính xác hàng đầu kết hợp với thiết kế tích hợp từ đầu đến cuối, loại bỏ nhu cầu xử lý hậu kỳ phức tạp.

Đảm bảo tính bền vững cho quy trình xử lý hình ảnh máy tính của bạn trong tương lai.

Trong khi DAMO- YOLO Và YOLOv9 Mặc dù các mô hình học thuật rất mạnh mẽ, việc triển khai chúng trong môi trường sản xuất thường đòi hỏi kỹ thuật tùy chỉnh đáng kể. Sử dụng Ultralytics YOLO26 cung cấp quyền truy cập vào hiệu năng tiên tiến với API được đơn giản hóa và dễ bảo trì.

Thông số kỹ thuật và tác giả

Việc hiểu rõ nguồn gốc và trọng tâm phát triển của các mô hình này sẽ cung cấp bối cảnh cần thiết để hiểu rõ những điểm mạnh riêng của chúng.

DAMO-YOLO

Được phát triển bởi các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO tập trung mạnh vào việc tạo kiến trúc tự động và hợp nhất đặc trưng hiệu quả.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức:Alibaba Group
Ngày phát hành: 23 tháng 11 năm 2022
Bài báo Arxiv:Bài báo nghiên cứu DAMO-YOLO
GitHub chính thức:Kho lưu trữ tinyvision/DAMO-YOLO
Tài liệu:README của DAMO-YOLO

Tìm hiểu thêm về DAMO-YOLO

YOLOv9

Được giới thiệu như một giải pháp cho vấn đề mất mát thông tin trong các mạng tích chập sâu, YOLOv9 Đẩy giới hạn lý thuyết của việc bảo toàn độ dốc trong quá trình huấn luyện.

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức:Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày phát hành: 21 tháng 2, 2024
Bài báo Arxiv:Bài báo nghiên cứu YOLOv9
GitHub chính thức:Kho lưu trữ WongKinYiu/yolov9
Tài liệu:Tài liệu Ultralytics YOLOv9

Tìm hiểu thêm về YOLOv9

Đổi mới Kiến trúc

DAMO-YOLO: Được thúc đẩy bởi Tìm kiếm Kiến trúc Mạng nơ-ron

DAMO-YOLO tự phân biệt thông qua các thành phần được tùy chỉnh cao, do máy tạo ra. Backbone của nó được tạo ra bằng cách sử dụng Tìm kiếm Kiến trúc Mạng Thần kinh (NAS), đặc biệt nhắm mục tiêu suy luận độ trễ thấp trên các phần cứng khác nhau.

Kiến trúc này sử dụng mạng RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả để kết hợp các đặc trưng, giúp tăng cường khả năng phát hiện đối tượng đa tỷ lệ mà không làm tăng quá nhiều chi phí tính toán. Hơn nữa, nó sử dụng thiết kế ZeroHead để đơn giản hóa đầu phát hiện và sử dụng AlignedOTA để gán nhãn, kết hợp với quy trình tăng cường chưng cất phức tạp trong quá trình huấn luyện. Mặc dù các kỹ thuật này mang lại khả năng suy luận nhanh, nhưng quy trình chưng cất nhiều giai đoạn thường yêu cầu lượng VRAM đáng kể và thời gian huấn luyện kéo dài.

YOLOv9: Giải quyết nút thắt thông tin

YOLOv9 Giải quyết một vấn đề cơ bản trong mạng nơ-ron sâu: sự mất mát dần thông tin dữ liệu đầu vào khi nó truyền qua các lớp kế tiếp.

Để khắc phục điều này, các tác giả đã giới thiệu Thông tin Gradient Lập trình (PGI) , một khung giám sát phụ trợ được thiết kế để giữ lại các chi tiết quan trọng cho các lớp sâu, tạo ra các gradient có độ tin cậy cao để cập nhật trọng số. Đi kèm với PGI là kiến trúc GELAN (Mạng Tổng hợp Lớp Hiệu quả Tổng quát) . GELAN tối ưu hóa hiệu quả tham số bằng cách kết hợp thế mạnh của CSPNet và ELAN, tối đa hóa luồng thông tin đồng thời giảm thiểu tối đa các phép toán dấu phẩy động (FLOP).

Phân tích hiệu suất và các chỉ số đo lường

Khi đánh giá hiệu năng, cả hai mô hình đều thể hiện độ chính xác trung bình cao (Average Precision). mAP ) trên các tiêu chuẩn đánh giá thông thường như COCO . YOLOv9 Đạt được độ chính xác tuyệt đối cao hơn trên các kích thước mô hình tương đương, tận dụng kiến trúc PGI để duy trì độ chính xác cao trên các tập dữ liệu khó.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Như đã trình bày ở trên, YOLOv9-E đạt độ chính xác cao nhất, trong khi các biến thể DAMO-YOLO và YOLOv9 nhỏ hơn duy trì tốc độ suy luận cạnh tranh cao thông qua tối ưu hóa TensorRT.

Phương pháp luận đào tạo và Hệ sinh thái

Mặc dù kiến trúc thô sơ rất quan trọng, nhưng khả năng sử dụng và hiệu quả đào tạo được quyết định bởi hệ sinh thái của mô hình mới là yếu tố tối quan trọng đối với ứng dụng thực tế.

Việc DAMO-YOLO dựa vào chưng cất tri thức thường đòi hỏi phải huấn luyện một mô hình "giáo viên" cồng kềnh trước khi chuyển giao tri thức cho mô hình "học sinh" mục tiêu. Cách tiếp cận nghiên cứu truyền thống này làm tăng đáng kể yêu cầu bộ nhớ và thời gian chu kỳ huấn luyện. Tương tự, kho lưu trữ YOLOv9 gốc yêu cầu điều hướng các tệp cấu hình phức tạp có thể làm chậm quá trình phát triển linh hoạt.

Ngược lại, việc tích hợp các mô hình vào Nền tảng Ultralytics làm thay đổi hoàn toàn trải nghiệm của nhà phát triển. Gói Ultralytics python loại bỏ mã boilerplate, cho phép các nhóm xử lý tăng cường dữ liệu, điều chỉnh siêu tham số và xuất mô hình một cách dễ dàng.

Các ứng dụng và trường hợp sử dụng trong thực tế

Các kiến trúc khác nhau tự nhiên vượt trội trong các ngành công nghiệp cụ thể dựa trên yêu cầu tài nguyên và hồ sơ độ chính xác của chúng.

DAMO-YOLO trong AI biên: Nhờ các backbone được tối ưu hóa bằng NAS, DAMO-YOLO thường được nghiên cứu trong các hệ thống nhúng nơi việc tái tham số hóa dành riêng cho phần cứng là một yêu cầu bắt buộc, chẳng hạn như triển khai ASIC tùy chỉnh trong kiểm soát chất lượng sản xuất cơ bản.
YOLOv9 trong phân tích chính xác: Với hiệu quả tham số cao và khả năng duy trì gradient được điều khiển bởi PGI, YOLOv9 rất xuất sắc cho các kịch bản detect đối tượng dày đặc, chẳng hạn như phân tích hình ảnh trên không hoặc track các đối tượng nhỏ trong môi trường bán lẻ đông đúc.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa DAMO-YOLO và YOLOv9 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO là một lựa chọn mạnh mẽ cho:

Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên chọn YOLOv9

YOLOv9 được khuyến nghị cho:

Nghiên cứu nút cổ chai thông tin: Các dự án học thuật nghiên cứu kiến trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
Nghiên cứu tối ưu hóa luồng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
Đánh giá hiệu suất detect độ chính xác cao: Các kịch bản cần hiệu suất benchmark COCO mạnh mẽ của YOLOv9 làm điểm tham chiếu cho việc so sánh kiến trúc.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Cái Ultralytics Ưu điểm: Tiến lên YOLO26

Đối với người dùng đang so sánh các kiến trúc cũ, việc chuyển đổi sang kiến trúc hiện đại là một bước quan trọng. Ultralytics Hệ sinh thái này, đặc biệt là các mẫu YOLO26 mới nhất , mang lại lợi thế vượt trội.

YOLO26 thay đổi căn bản bối cảnh triển khai thông qua thiết kế không cần hệ thống quản lý mạng NMS từ đầu đến cuối . Bằng cách loại bỏ hoàn toàn việc ngăn chặn các lỗi không tối đa (Non-Maximum Suppression) NMS Nhờ xử lý hậu kỳ, nó mang lại kiến trúc triển khai nhanh hơn và đơn giản hơn đáng kể. Kết hợp với việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL), YOLO26 cung cấp khả năng tương thích vượt trội cho các thiết bị biên và thiết bị công suất thấp.

Hơn nữa, YOLO26 tích hợp thuật toán tối ưu hóa MuSGD mang tính cách mạng, một sự kết hợp giữa thuật toán tối ưu hóa Gradient Descent ngẫu nhiên và Muon, lấy cảm hứng từ những cải tiến trong huấn luyện LLM. Điều này mang lại sự hội tụ huấn luyện rất ổn định trong khi vẫn duy trì mức sử dụng bộ nhớ thấp đáng kể so với các phương pháp thay thế sử dụng nhiều transformer.

Chương trình đào tạo được tối ưu hóa với YOLO26

Nhờ vào sự trực quan Ultralytics Với API này, bạn có thể huấn luyện một mô hình YOLO26 hiện đại với tính năng theo dõi thử nghiệm tích hợp chỉ với vài dòng mã. Python .

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

Cho dù bạn cần phân đoạn đối tượng nâng cao, ước tính tư thế với độ chính xác cao hay phát hiện hộp giới hạn tiêu chuẩn, tính linh hoạt của... Ultralytics Khung phần mềm này đảm bảo nhóm của bạn dành ít thời gian hơn cho việc cấu hình môi trường học sâu và nhiều thời gian hơn cho việc triển khai các giải pháp AI mạnh mẽ. Với những cải tiến chuyên biệt cho các tác vụ như ProgLoss + STAL để tăng cường khả năng nhận dạng vật thể nhỏ, YOLO26 là lựa chọn hàng đầu cho thế hệ ứng dụng thị giác tiếp theo.