DAMO- YOLO so với YOLOv10 Khám phá sự tiến hóa của công nghệ phát hiện đối tượng thời gian thực

Lĩnh vực phát hiện đối tượng thời gian thực đã phát triển nhanh chóng, được thúc đẩy bởi sự theo đuổi không ngừng nghỉ về độ trễ thấp hơn và độ chính xác cao hơn. Hai cột mốc quan trọng trong hành trình này là DAMO- YOLO , được phát triển bởi Tập đoàn Alibaba, và YOLOv10 , được tạo ra bởi các nhà nghiên cứu tại Đại học Thanh Hoa. Trong khi DAMO- YOLO đã giới thiệu các kỹ thuật Tìm kiếm Kiến trúc Mạng thần kinh (NAS) tiên tiến vào lĩnh vực này. YOLOv10 đã cách mạng hóa quy trình triển khai bằng cách loại bỏ Non-Maximming Suppression (Ngăn chặn tối đa không cần thiết) NMS ). Bản so sánh toàn diện này sẽ khám phá kiến trúc kỹ thuật, các chỉ số hiệu năng và lý do tại sao phiên bản mới nhất lại được đánh giá cao. Ultralytics Các mẫu như YOLO26 đại diện cho đỉnh cao của những tiến bộ này trong môi trường sản xuất.

So sánh các chỉ số hiệu suất

Bảng sau đây cung cấp sự so sánh trực tiếp các chỉ số hiệu suất chính. Lưu ý sự khác biệt về tốc độ suy luận, đặc biệt là ở những nơi nào. NMS - Các thiết kế không cần nạp tiền góp phần làm giảm độ trễ.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

DAMO- YOLO Kiến trúc và Phương pháp luận

DAMO- YOLO được các nhà nghiên cứu từ Tập đoàn Alibaba đề xuất vào tháng 11 năm 2022. Mục tiêu của nó là vượt qua giới hạn về hiệu năng bằng cách tích hợp các công nghệ tiên tiến vào một khung phát hiện thống nhất.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 2022-11-23
Bài báo: arXiv:2211.15444
GitHub:tinyvision/DAMO-YOLO

Các tính năng kiến trúc chính

DAMO- YOLO DAMO- được phân biệt bởi việc sử dụng Tìm kiếm Kiến trúc Thần kinh (NAS) . Không giống như các mô hình có cấu trúc xương sống được thiết kế thủ công, DAMO- YOLO Phương pháp này sử dụng NAS hiệu quả dựa trên nhận thức phương pháp (MAE-NAS) để tìm ra cấu trúc mạng tối ưu trong các ràng buộc cụ thể. Điều này dẫn đến một mạng trục có hiệu suất cao đối với phần cứng cụ thể mà nó được nhắm đến.

Ngoài ra, nó còn tích hợp một mạng RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả để kết hợp các đặc trưng và một phần đầu nhẹ được gọi là "ZeroHead". Một thành phần quan trọng trong chiến lược huấn luyện của nó là AlignedOTA , một cơ chế gán nhãn động giúp cải thiện sự phù hợp giữa các nhiệm vụ phân loại và hồi quy. Tuy nhiên, để đạt được hiệu suất cao nhất với DAMO- YOLO Điều này thường đòi hỏi một quy trình chưng cất phức tạp, cần đến một mô hình giáo viên chuyên sâu trong quá trình huấn luyện, có thể làm tăng đáng kể gánh nặng tính toán so với các phương pháp "túi quà tặng miễn phí" được sử dụng trong YOLOv8 .

Độ phức tạp của huấn luyện

Mặc dù mạnh mẽ, quy trình đào tạo cho DAMO- YOLO Quá trình này có thể tốn nhiều tài nguyên. Giai đoạn chưng cất thường yêu cầu huấn luyện một mô hình giáo viên lớn hơn trước, điều này làm phức tạp quy trình làm việc đối với các nhà phát triển cần lặp lại nhanh chóng trên các tập dữ liệu tùy chỉnh.

YOLOv10 Bước đột phá từ đầu đến cuối

Được Đại học Thanh Hoa phát hành vào tháng 5 năm 2024, YOLOv10 đánh dấu một bước ngoặt bằng cách giải quyết một trong những nút thắt cổ chai lâu đời nhất trong phát hiện đối tượng: Loại bỏ cực đại không đồng nhất (Non-Maximum Suppression). NMS ).

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 2024-05-23
Bài báo:arXiv:2405.14458
GitHub:THU-MIG/yolov10

Đổi mới Kiến trúc

Đặc điểm nổi bật của YOLOv10 Điểm nổi bật là thiết kế "Từ đầu đến cuối không cần NMS . Các bộ dò truyền thống tạo ra các hộp giới hạn dư thừa cần phải được lọc bỏ bởi... NMS , một bước xử lý hậu kỳ gây ra độ trễ và làm phức tạp quá trình triển khai. YOLOv10 Mô hình sử dụng phương pháp gán kép nhất quán trong quá trình huấn luyện—sử dụng cả phương pháp ghép cặp một-nhiều (để giám sát chi tiết) và một-một (để suy luận từ đầu đến cuối). Điều này cho phép mô hình dự đoán trực tiếp một hộp tốt nhất duy nhất cho mỗi đối tượng, loại bỏ nhu cầu phải thực hiện các bước tiếp theo. NMS suy luận.

Hơn nữa, YOLOv10 Giới thiệu một thiết kế mô hình toàn diện hướng đến hiệu quả và độ chính xác. Điều này bao gồm các đầu phân loại nhẹ, lấy mẫu giảm không gian-kênh tách rời và thiết kế khối hướng dẫn theo thứ hạng, dẫn đến một mô hình nhỏ hơn và nhanh hơn so với các thế hệ trước như YOLOv9 trong khi vẫn duy trì độ chính xác cạnh tranh.

Tìm hiểu thêm về YOLOv10

Lợi thế của Ultralytics: Tại sao chọn YOLO26?

Trong khi DAMO- YOLO Và YOLOv10 Mang lại những đóng góp học thuật quan trọng, hệ sinh thái Ultralytics đóng vai trò cầu nối giữa nghiên cứu tiên tiến và phần mềm sản xuất thực tiễn, đáng tin cậy. Phiên bản YOLO26 mới ra mắt được xây dựng dựa trên nền tảng đó. NMS - bước đột phá miễn phí của YOLOv10 nhưng tích hợp nó vào một khuôn khổ mạnh mẽ, cấp doanh nghiệp.

Hiệu suất và hiệu quả vượt trội

YOLO26 là lựa chọn được khuyến nghị cho các dự án mới, mang lại những ưu điểm vượt trội so với cả DAMO-. YOLO và tinh khiết YOLOv10 các triển khai:

NMS từ đầu đến cuối - Miễn phí: Giống như YOLOv10 YOLO26 là hệ thống end-to-end hoàn chỉnh. Nó loại bỏ... NMS Xử lý hậu kỳ giúp đơn giản hóa quy trình triển khai và giảm đáng kể sự biến động về độ trễ.
Tăng cường tính ổn định của quá trình huấn luyện: YOLO26 sử dụng Trình tối ưu hóa MuSGD , một sự kết hợp giữa... SGD và Muon được lấy cảm hứng từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM). Sự đổi mới này đảm bảo sự hội tụ nhanh hơn và tính ổn định cao hơn trong quá trình huấn luyện, giảm lượng bộ nhớ GPU cần thiết so với các kiến trúc nặng về Transformer.
Tối ưu hóa tại biên: Bằng cách loại bỏ tổn hao tiêu điểm phân phối (DFL), YOLO26 tối ưu hóa lớp đầu ra, giúp tăng tốc độ suy luận trên CPU lên đến 43% . Điều này rất quan trọng đối với các thiết bị biên, nơi mà... GPU Không có sẵn nguồn lực.

YOLO26 Bước tiến công nghệ

YOLO26 không chỉ là một bản cập nhật phiên bản; đó là một bản nâng cấp toàn diện.

ProgLoss + STAL: Các hàm mất mát được cải tiến giúp tăng cường đáng kể khả năng nhận dạng vật thể nhỏ, rất quan trọng đối với ảnh chụp từ máy bay không người lái và robot .
Tính linh hoạt: Không giống như DAMO- YOLO YOLO26, chủ yếu là một bộ dò, hỗ trợ ước lượng tư thế , phân đoạn , phân loại và OBB .

Dễ sử dụng và hệ sinh thái

Một trong những thách thức chính đối với các kho lưu trữ nghiên cứu như DAMO- YOLO Đó là sự phức tạp trong việc thiết lập và bảo trì. Ultralytics giải quyết vấn đề này bằng một giải pháp thống nhất. Python API. Cho dù bạn đang sử dụng YOLO11 , YOLOv10 Dù sử dụng YOLO26 hay YOLO26, quy trình làm việc vẫn nhất quán và đơn giản.

Nền tảng Ultralytics (trước đây là HUB) thúc đẩy hơn nữa quá trình phát triển bằng cách cung cấp các công cụ quản lý tập dữ liệu, chú thích tự động và xuất dữ liệu chỉ với một cú nhấp chuột sang các định dạng như... TensorRT , ONNX , Và CoreML .

Tìm hiểu thêm về YOLO26

Các trường hợp sử dụng lý tưởng

Việc lựa chọn mô hình phù hợp phụ thuộc vào các yêu cầu cụ thể của bạn:

Hãy chọn DAMO- YOLO nếu: Bạn đang nghiên cứu về Tìm kiếm Kiến trúc Mạng thần kinh (NAS) hoặc cần một cấu trúc xương sống chuyên dụng cho các ràng buộc phần cứng độc đáo mà các cấu trúc xương sống CSP/ELAN tiêu chuẩn không đáp ứng được.
Chọn YOLOv10 nếu: Bạn cần một tính năng cụ thể NMS - công cụ dò tìm miễn phí dùng cho mục đích đánh giá học thuật hoặc có yêu cầu kế thừa đối với kiến trúc cụ thể được đề xuất trong bài báo gốc của Đại học Thanh Hoa.
Hãy chọn Ultralytics YOLO26 nếu: Bạn cần một giải pháp hiện đại, sẵn sàng cho môi trường sản xuất. Thiết kế không cần hệ thống quản lý mạng NMS , kết hợp với độ ổn định của quá trình huấn luyện MuSGD và tốc độ CPU được tối ưu hóa , biến nó trở thành giải pháp toàn diện tốt nhất. Nó đặc biệt vượt trội cho các ứng dụng thời gian thực trong sản xuất, phân tích bán lẻ và hệ thống tự động, nơi mà việc triển khai dễ dàng và hỗ trợ lâu dài là rất quan trọng.

Ví dụ mã: Chạy YOLOv10 và YOLO26

Ultralytics Điều này giúp việc chuyển đổi giữa các kiến trúc này trở nên vô cùng dễ dàng. Bởi vì YOLOv10 được hỗ trợ trong Ultralytics Với gói phần mềm này, bạn có thể kiểm tra cả hai mô hình với những thay đổi mã tối thiểu.

Đang chạy YOLOv10

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Huấn luyện YOLO26

Để tận dụng những tiến bộ mới nhất trong YOLO26 , chẳng hạn như trình tối ưu hóa MuSGD và ProgLoss, việc huấn luyện trên tập dữ liệu tùy chỉnh rất đơn giản:

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset using the new optimizer settings (auto-configured)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for simplified edge deployment
model.export(format="onnx")

Kết luận

Cả DAMO- YOLO Và YOLOv10 đã thúc đẩy lĩnh vực này tiến lên—DAMO- YOLO thông qua NAS hiệu quả và YOLOv10 thông qua việc loại bỏ một cách có tầm nhìn NMS Tuy nhiên, đối với các nhà phát triển muốn xây dựng các ứng dụng mạnh mẽ, có khả năng đáp ứng nhu cầu trong tương lai vào năm 2026, Ultralytics YOLO26 mang lại lợi thế vượt trội. Bằng cách kết hợp... NMS - kiến trúc tự do của YOLOv10 với động lực huấn luyện vượt trội, nhanh hơn CPU suy luận và sự hỗ trợ vô song của Ultralytics Trong hệ sinh thái này, YOLO26 là sự lựa chọn hàng đầu dành cho các chuyên gia về thị giác máy tính.

Đối với những ai quan tâm đến việc khám phá các thế hệ ổn định trước đó, YOLO11 vẫn là một lựa chọn thay thế được hỗ trợ đầy đủ và có khả năng cao.