Chuyển đến nội dung

YOLOX so với... YOLOv9 So sánh thiết kế không cần neo với gradient lập trình được

Lĩnh vực thị giác máy tính đã được định hình bởi những đột phá kiến ​​trúc liên tục, cân bằng giữa hiệu quả tính toán và độ chính xác cao. Khi đánh giá các mô hình phát hiện đối tượng thời gian thực, sự so sánh giữa YOLOX của Megvii và Academia Sinica là rất cần thiết. YOLOv9 Bài viết này nêu bật hai triết lý khác biệt trong phát triển học sâu. Trong khi một triết lý tiên phong với mô hình đơn giản không cần điểm neo, triết lý còn lại giới thiệu các kỹ thuật định tuyến gradient tiên tiến để tối đa hóa khả năng lưu giữ thông tin.

Hướng dẫn kỹ thuật này sẽ khám phá những điểm khác biệt về kiến ​​trúc, tiêu chuẩn hiệu năng và các trường hợp sử dụng lý tưởng của chúng, đồng thời chứng minh cách các giải pháp hiện đại như Nền tảng Ultralytics và mô hình YOLO26 mới ra mắt cung cấp các lựa chọn thay thế vượt trội cho việc triển khai sẵn sàng cho môi trường sản xuất.

YOLOX: Tiên phong trong mô hình không cần neo

Ra mắt vào giữa năm 2021, YOLOX là một bước tiến lớn trong việc thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp. Bằng cách loại bỏ nhu cầu về các hộp neo được xác định trước, nó đã đơn giản hóa đáng kể việc điều chỉnh thuật toán cần thiết cho các tập dữ liệu tùy chỉnh.

Đổi mới Kiến trúc

YOLOX đã giới thiệu một số thay đổi quan trọng đối với quy trình phát hiện tiêu chuẩn. Nó đã triển khai một đầu xử lý tách rời, phân tách các tác vụ phân loại và hồi quy, giúp giảm đáng kể xung đột giữa việc xác định đối tượng và xác định ranh giới của nó. Hơn nữa, YOLOX đã áp dụng SimOTA, một chiến lược gán nhãn tiên tiến phân bổ động các mẫu tích cực trong quá trình huấn luyện, dẫn đến sự hội tụ nhanh hơn và hiệu suất tổng thể tốt hơn trên các tập dữ liệu chuẩn.

Điểm mạnh và hạn chế

Điểm mạnh chính của YOLOX nằm ở thiết kế đơn giản. Cơ chế không cần anchor giúp các nhà phát triển tiết kiệm thời gian chạy các thuật toán phân cụm để tìm kích thước anchor tối ưu cho dữ liệu cụ thể của họ. Tuy nhiên, do là kiến ​​trúc cũ được xây dựng nguyên bản mà không tận dụng những tiến bộ gần đây trong cơ chế tự chú ý (self-attention) hay định tuyến đường dẫn (gradient pathing), nó khó có thể sánh được với hiệu quả tham số của các mạng neural mới hơn. Nó cũng thiếu hỗ trợ native cho các tác vụ nâng cao như phân đoạn đối tượng (instance segmentation)ước tính tư thế (pose estimation) trong một API thống nhất.

Tìm hiểu thêm về YOLOX

YOLOv9 Tối đa hóa thông tin độ dốc

Hãy tua nhanh đến năm 2024, YOLOv9 Đã giới thiệu một phương pháp tiếp cận mang tính lý thuyết cao để giải quyết vấn đề tắc nghẽn thông tin vốn có trong các mạng nơ-ron tích chập sâu.

Đổi mới Kiến trúc

YOLOv9 Đặc điểm nổi bật của nó là Thông tin Độ dốc Lập trình được (Programmable Gradient Information - PGI), đảm bảo rằng dữ liệu ngữ nghĩa quan trọng không bị mất khi truyền qua nhiều lớp của mạng. Kết hợp với Mạng Tổng hợp Lớp Hiệu quả Tổng quát (Generalized Efficient Layer Aggregation Network - GELAN), YOLOv9 Đạt được tỷ lệ tham số trên độ chính xác đặc biệt cao. Điều này cho phép mô hình giữ lại các đạo hàm chính xác để cập nhật trọng số, giúp nó hoạt động hiệu quả cao ngay cả trong các phiên bản nhẹ.

Điểm mạnh và hạn chế

YOLOv9 Xuất sắc trong việc đẩy giới hạn lý thuyết về độ chính xác của mô hình . Nó mang lại kết quả tuyệt vời. mAP điểm số trên COCO , khiến nó trở thành lựa chọn ưa thích của các nhà nghiên cứu. Tuy nhiên, bất chấp hiệu quả của nó, YOLOv9 vẫn dựa vào phương pháp ức chế không tối đa truyền thống (Non-Maximmum Suppression) NMS ) cho quá trình xử lý hậu kỳ, điều này gây ra hiện tượng tăng đột biến độ trễ trong quá trình suy luận. Đối với các kỹ sư tập trung vào việc triển khai AI cho các thiết bị biên , việc quản lý NMS Logic này làm tăng thêm sự phức tạp không cần thiết cho quy trình triển khai.

Tìm hiểu thêm về YOLOv9

Các điểm nghẽn trong quá trình xử lý hậu kỳ

Các mẫu truyền thống như YOLOX và YOLOv9 yêu cầu Không triệt tiêu tối đa ( NMS (để lọc bỏ các hộp giới hạn trùng lặp). Bước này vốn dĩ là một quá trình tuần tự và thường tạo ra nút thắt cổ chai trên CPU, cho thấy sự cần thiết của các kiến ​​trúc đầu cuối tích hợp được tìm thấy trong các hệ thống mới nhất. Ultralytics mô hình.

So sánh hiệu suất

Khi so sánh các chỉ số tính toán thô của các kiến ​​trúc này, rõ ràng là YOLOv9 Cung cấp một nền tảng hiện đại hơn, trong khi YOLOX vẫn là một lựa chọn nhẹ nhàng cho các hệ thống cũ. Dưới đây là bảng phân tích chi tiết các mẫu tiêu chuẩn của chúng.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Trong khi YOLOv9 Thể hiện độ chính xác vượt trội trên các số lượng tham số tương đương, các nhà phát triển đang tìm kiếm sự cân bằng tối ưu giữa tốc độ, độ chính xác và tính dễ sử dụng nên xem xét những tiến bộ mới nhất từ... Ultralytics .

Cái Ultralytics Ưu điểm: Gặp gỡ YOLO26

Trong khi đánh giá các mô hình lịch sử như YOLOX và YOLOv9 Cung cấp bối cảnh có giá trị, công nghệ tiên tiến nhất hiện nay được định nghĩa bởi Ultralytics YOLO26 . Được phát hành vào đầu năm 2026, YOLO26 về cơ bản tái cấu trúc quy trình phát hiện cho môi trường doanh nghiệp hiện đại.

Những đổi mới kiến ​​trúc độc đáo chưa từng có

YOLO26 giải quyết hoàn toàn các nút thắt cổ chai trong quá trình xử lý hậu kỳ của các thế hệ trước với thiết kế hoàn toàn không cần NMS , đảm bảo triển khai đơn giản hơn trên mọi phần cứng. Hơn nữa, bằng cách loại bỏ Distribution Focal Loss (DFL) và tích hợp bộ tối ưu hóa MuSGD mới — sự kết hợp giữa Stochastic Gradient Descent và Muon — YOLO26 đạt được độ ổn định huấn luyện chưa từng có.

Đối với các nhà phát triển triển khai trên các môi trường hạn chế như Raspberry Pi , YOLO26 mang lại khả năng suy luận CPU nhanh hơn tới 43% . Nó cũng giới thiệu các hàm mất mát ProgLoss + STAL , dẫn đến những cải tiến đáng kể trong việc nhận dạng các vật thể nhỏ, điều rất quan trọng đối với hình ảnh trên không và phân tích dữ liệu từ máy bay không người lái.

Hệ sinh thái phát triển được tối ưu hóa

Không giống như các kho lưu trữ nghiên cứu độc lập, Ultralytics Hệ sinh thái này mang đến trải nghiệm phát triển tuyệt vời chưa từng có. Bằng cách sử dụng API Python Ultralytics , các kỹ sư có thể giảm đáng kể mã lặp lại. Hơn nữa, yêu cầu về bộ nhớ được tối ưu hóa cao, có nghĩa là bạn có thể huấn luyện các mô hình mạnh mẽ với ít tài nguyên hơn. GPU So sánh VRAM với các kiến ​​trúc dựa nhiều vào cơ chế chú ý.

from ultralytics import YOLO

# Load the highly optimized, NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to optimized deployment formats
model.export(format="engine", half=True)  # Exports to TensorRT

Ngoài khả năng phát hiện đối tượng, YOLO26 hỗ trợ liền mạch nhiều tác vụ khác nhau trong cùng một khuôn khổ. Cho dù bạn cần các hộp giới hạn định hướng (OBB) chính xác cho ảnh vệ tinh hay mặt nạ pixel chi tiết cho các ứng dụng hình ảnh y tế , quy trình làm việc vẫn hoàn toàn giống nhau. Đối với các nhóm đã đầu tư vào quy trình làm việc của các thế hệ trước, Ultralytics YOLO11 cũng có sẵn và được hỗ trợ đầy đủ.

Các trường hợp sử dụng lý tưởng và chiến lược triển khai

Việc lựa chọn kiến ​​trúc phù hợp hoàn toàn phụ thuộc vào môi trường triển khai mục tiêu và yêu cầu của dự án.

Điện toán biên và robot

Đối với các thiết bị công suất thấp, việc dựa vào các mô hình yêu cầu xử lý hậu kỳ phức tạp có thể làm giảm hiệu năng. Mặc dù YOLOX-Nano có kích thước cực kỳ nhỏ, độ chính xác của nó thường không đủ cho các tác vụ quan trọng về an toàn. YOLO26 là lựa chọn tối ưu trong trường hợp này; việc thiếu DFL và NMS cho phép nó hoạt động trơn tru trên dữ liệu thô. CPU Các sợi chỉ, khiến nó trở nên hoàn hảo cho robot tự hành hoặc quản lý bãi đỗ xe thông minh .

So sánh học thuật

Nếu mục tiêu duy nhất là phân tích dòng gradient và nghiên cứu các điểm nghẽn trong mạng nơ-ron sâu, YOLOv9 Đây vẫn là một chủ đề nghiên cứu xuất sắc. Khung PGI của nó cung cấp những hiểu biết thú vị về cách các đặc điểm được bảo toàn giữa các lớp mạng nơ-ron sâu, biến nó thành một công cụ có giá trị cho các nhà nghiên cứu đại học đang khám phá lý thuyết tích chập.

Phân tích video doanh nghiệp

Đối với các tác vụ xử lý video quy mô lớn như hệ thống báo động an ninh hoặc giám sát giao thông, tốc độ và khả năng xuất dữ liệu linh hoạt là vô cùng quan trọng. Các công cụ xuất dữ liệu gốc được cung cấp bởi... Ultralytics Khung phần mềm này cho phép các nhóm biên dịch YOLO26 trực tiếp sang TensorRT hoặc OpenVINO chỉ bằng một lệnh duy nhất, giúp giảm đáng kể thời gian đưa sản phẩm ra thị trường.

Bằng cách tận dụng các tính năng toàn diện của Ultralytics Nhờ hệ sinh thái này, các nhóm học máy có thể bỏ qua sự phức tạp của các cơ sở mã nghiên cứu thô và tập trung trực tiếp vào việc xây dựng các ứng dụng AI có khả năng mở rộng và ứng dụng thực tế.


Bình luận