Tài liệu tham khảo cho ultralytics/data/augment.py
Ghi
Tệp này có sẵn tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/dữ liệu/augment.py. Nếu bạn phát hiện ra một vấn đề, vui lòng giúp khắc phục nó bằng cách đóng góp Yêu cầu 🛠️ kéo. Cảm ơn bạn 🙏 !
ultralytics.data.augment.BaseTransform
Lớp cơ sở để biến đổi hình ảnh.
Đây là một lớp chuyển đổi chung có thể được mở rộng cho các nhu cầu xử lý hình ảnh cụ thể. Lớp được thiết kế để tương thích với cả nhiệm vụ phân loại và phân đoạn ngữ nghĩa.
Phương pháp:
Tên | Sự miêu tả |
---|---|
__init__ |
Khởi tạo đối tượng BaseTransform. |
apply_image |
Áp dụng chuyển đổi hình ảnh cho nhãn. |
apply_instances |
Áp dụng chuyển đổi cho các phiên bản đối tượng trong nhãn. |
apply_semantic |
Áp dụng phân đoạn ngữ nghĩa cho một hình ảnh. |
__call__ |
Áp dụng tất cả các phép chuyển đổi nhãn cho hình ảnh, phiên bản và mặt nạ ngữ nghĩa. |
Mã nguồn trong ultralytics/data/augment.py
__call__(labels)
Áp dụng tất cả các phép chuyển đổi nhãn cho hình ảnh, phiên bản và mặt nạ ngữ nghĩa.
__init__()
apply_image(labels)
apply_instances(labels)
ultralytics.data.augment.Compose
Lớp để sáng tác nhiều biến đổi hình ảnh.
Mã nguồn trong ultralytics/data/augment.py
__call__(data)
__getitem__(index)
Truy xuất một chuyển đổi cụ thể hoặc một tập hợp các biến đổi bằng cách sử dụng lập chỉ mục.
Mã nguồn trong ultralytics/data/augment.py
__init__(transforms)
__repr__()
__setitem__(index, value)
Truy xuất một chuyển đổi cụ thể hoặc một tập hợp các biến đổi bằng cách sử dụng lập chỉ mục.
Mã nguồn trong ultralytics/data/augment.py
append(transform)
insert(index, transform)
ultralytics.data.augment.BaseMixTransform
Lớp cho các phép biến đổi hỗn hợp cơ sở (MixUp / Mosaic).
Việc thực hiện này là từ mmyolo.
Mã nguồn trong ultralytics/data/augment.py
__call__(labels)
Áp dụng chuyển đổi tiền xử lý và biến đổi trộn/khảm cho dữ liệu nhãn.
Mã nguồn trong ultralytics/data/augment.py
__init__(dataset, pre_transform=None, p=0.0)
Khởi tạo đối tượng BaseMixTransform với tập dữ liệu, pre_transform và xác suất.
ultralytics.data.augment.Mosaic
Căn cứ: BaseMixTransform
Khảm tăng cường.
Lớp này thực hiện tăng cường khảm bằng cách kết hợp nhiều (4 hoặc 9) hình ảnh thành một hình ảnh khảm duy nhất. Việc tăng cường được áp dụng cho một tập dữ liệu với một xác suất nhất định.
Thuộc tính:
Tên | Kiểu | Sự miêu tả |
---|---|---|
dataset |
Tập dữ liệu mà trên đó tăng cường khảm được áp dụng. |
|
imgsz |
int
|
Kích thước hình ảnh (chiều cao và chiều rộng) sau đường ống khảm của một hình ảnh. Mặc định là 640. |
p |
float
|
Xác suất áp dụng tăng cường khảm. Phải nằm trong phạm vi 0-1. Mặc định là 1.0. |
n |
int
|
Kích thước lưới, 4 (cho 2x2) hoặc 9 (cho 3x3). |
Mã nguồn trong ultralytics/data/augment.py
177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 |
|
__init__(dataset, imgsz=640, p=1.0, n=4)
Khởi tạo đối tượng bằng tập dữ liệu, kích thước hình ảnh, xác suất và đường viền.
Mã nguồn trong ultralytics/data/augment.py
get_indexes(buffer=True)
Trả về danh sách các chỉ mục ngẫu nhiên từ tập dữ liệu.
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.MixUp
Căn cứ: BaseMixTransform
Lớp để áp dụng tăng cường MixUp cho tập dữ liệu.
Mã nguồn trong ultralytics/data/augment.py
__init__(dataset, pre_transform=None, p=0.0)
Khởi tạo đối tượng MixUp với tập dữ liệu, pre_transform và xác suất áp dụng MixUp.
ultralytics.data.augment.RandomPerspective
Thực hiện các phép biến đổi phối cảnh và afin ngẫu nhiên trên hình ảnh và các hộp, phân đoạn giới hạn tương ứng và Điểm mấu chốt. Những biến đổi này bao gồm xoay, dịch, chia tỷ lệ và cắt. Lớp học cũng cung cấp tùy chọn để áp dụng các phép biến đổi này có điều kiện với một xác suất xác định cụ thể.
Thuộc tính:
Tên | Kiểu | Sự miêu tả |
---|---|---|
degrees |
float
|
Phạm vi độ cho các vòng quay ngẫu nhiên. |
translate |
float
|
Phân số của tổng chiều rộng và chiều cao cho bản dịch ngẫu nhiên. |
scale |
float
|
Khoảng thời gian hệ số tỷ lệ, ví dụ: hệ số tỷ lệ 0,1 cho phép thay đổi kích thước từ 90% -110%. |
shear |
float
|
Cường độ cắt (góc tính bằng độ). |
perspective |
float
|
Hệ số méo phối cảnh. |
border |
tuple
|
Tuple chỉ định đường viền khảm. |
pre_transform |
callable
|
Một hàm / biến đổi để áp dụng cho hình ảnh trước khi bắt đầu chuyển đổi ngẫu nhiên. |
Phương pháp:
Tên | Sự miêu tả |
---|---|
affine_transform |
Áp dụng một loạt các biến đổi affine cho hình ảnh. |
apply_bboxes |
Biến đổi các hộp giới hạn bằng cách sử dụng ma trận affine được tính toán. |
apply_segments |
Biến đổi các phân đoạn và tạo các hộp giới hạn mới. |
apply_keypoints |
Biến đổi các điểm chính. |
__call__ |
Phương pháp chính để áp dụng các phép biến đổi cho cả hình ảnh và chú thích tương ứng của chúng. |
box_candidates |
Lọc ra các hộp giới hạn không đáp ứng các tiêu chí nhất định sau khi chuyển đổi. |
Mã nguồn trong ultralytics/data/augment.py
391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 |
|
__call__(labels)
Hình ảnh affine và mục tiêu.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
labels |
dict
|
Một mệnh lệnh của |
bắt buộc |
Mã nguồn trong ultralytics/data/augment.py
__init__(degrees=0.0, translate=0.1, scale=0.5, shear=0.0, perspective=0.0, border=(0, 0), pre_transform=None)
Khởi tạo đối tượng RandomPerspective với các tham số biến đổi.
Mã nguồn trong ultralytics/data/augment.py
affine_transform(img, border)
Áp dụng một chuỗi các phép biến đổi afin tập trung xung quanh trung tâm hình ảnh.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
img |
ndarray
|
Hình ảnh đầu vào. |
bắt buộc |
border |
tuple
|
Kích thước đường viền. |
bắt buộc |
Trở lại:
Tên | Kiểu | Sự miêu tả |
---|---|---|
img |
ndarray
|
Hình ảnh biến đổi. |
M |
ndarray
|
Ma trận biến đổi. |
s |
float
|
Hệ số quy mô. |
Mã nguồn trong ultralytics/data/augment.py
apply_bboxes(bboxes, M)
Chỉ áp dụng affine cho bbox.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
bboxes |
ndarray
|
Danh sách các bbox, định dạng XYXY, với hình dạng (num_bboxes, 4). |
bắt buộc |
M |
ndarray
|
ma trận affine. |
bắt buộc |
Trở lại:
Tên | Kiểu | Sự miêu tả |
---|---|---|
new_bboxes |
ndarray
|
hộp sau affine, [num_bboxes, 4]. |
Mã nguồn trong ultralytics/data/augment.py
apply_keypoints(keypoints, M)
Áp dụng affine vào các điểm chính.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
keypoints |
ndarray
|
điểm chính, [N, 17, 3]. |
bắt buộc |
M |
ndarray
|
ma trận affine. |
bắt buộc |
Trở lại:
Tên | Kiểu | Sự miêu tả |
---|---|---|
new_keypoints |
ndarray
|
điểm chính sau affine, [N, 17, 3]. |
Mã nguồn trong ultralytics/data/augment.py
apply_segments(segments, M)
Áp dụng affine cho các phân đoạn và tạo hộp mới từ các phân đoạn.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
segments |
ndarray
|
danh sách các phân khúc, [num_samples, 500, 2]. |
bắt buộc |
M |
ndarray
|
ma trận affine. |
bắt buộc |
Trở lại:
Tên | Kiểu | Sự miêu tả |
---|---|---|
new_segments |
ndarray
|
Danh sách các phân đoạn sau affine, [num_samples, 500, 2]. |
new_bboxes |
ndarray
|
hộp sau affine, [N, 4]. |
Mã nguồn trong ultralytics/data/augment.py
box_candidates(box1, box2, wh_thr=2, ar_thr=100, area_thr=0.1, eps=1e-16)
Ứng viên hộp điện toán dựa trên một tập hợp các ngưỡng. Phương pháp này so sánh các đặc tính của các hộp trước và sau khi tăng cường để quyết định xem một hộp có phải là ứng cử viên để xử lý thêm hay không.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
box1 |
ndarray
|
Hộp giới hạn 4,n trước khi tăng, được biểu diễn là [x1, y1, x2, y2]. |
bắt buộc |
box2 |
ndarray
|
Hộp giới hạn 4,n sau khi tăng, được biểu diễn là [x1, y1, x2, y2]. |
bắt buộc |
wh_thr |
float
|
Ngưỡng chiều rộng và chiều cao tính bằng pixel. Mặc định là 2. |
2
|
ar_thr |
float
|
Ngưỡng tỷ lệ khung hình. Mặc định là 100. |
100
|
area_thr |
float
|
Ngưỡng tỷ lệ diện tích. Mặc định là 0,1. |
0.1
|
eps |
float
|
Một giá trị epsilon nhỏ để ngăn chặn sự phân chia bằng không. Mặc định là 1e-16. |
1e-16
|
Trở lại:
Kiểu | Sự miêu tả |
---|---|
ndarray
|
Một mảng boolean cho biết hộp nào là ứng cử viên dựa trên các ngưỡng đã cho. |
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.RandomHSV
Lớp này chịu trách nhiệm thực hiện các điều chỉnh ngẫu nhiên đối với các kênh Hue, Saturation và Value (HSV) của một ảnh.
Các điều chỉnh là ngẫu nhiên nhưng trong giới hạn được đặt ra bởi hgain, sgain và vgain.
Mã nguồn trong ultralytics/data/augment.py
__call__(labels)
Áp dụng tăng cường HSV ngẫu nhiên cho một hình ảnh trong giới hạn được xác định trước.
Hình ảnh đã sửa đổi thay thế hình ảnh gốc trong lệnh 'nhãn' đầu vào.
Mã nguồn trong ultralytics/data/augment.py
__init__(hgain=0.5, sgain=0.5, vgain=0.5)
Khởi tạo lớp RandomHSV với lợi nhuận cho mỗi kênh HSV.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
hgain |
float
|
Biến thể tối đa cho màu sắc. Mặc định là 0,5. |
0.5
|
sgain |
float
|
Biến thể tối đa cho độ bão hòa. Mặc định là 0,5. |
0.5
|
vgain |
float
|
Biến thể tối đa cho giá trị. Mặc định là 0,5. |
0.5
|
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.RandomFlip
Áp dụng lật ngang hoặc dọc ngẫu nhiên cho hình ảnh với xác suất nhất định.
Đồng thời cập nhật bất kỳ trường hợp nào (hộp giới hạn, điểm chính, v.v.) cho phù hợp.
Mã nguồn trong ultralytics/data/augment.py
__call__(labels)
Áp dụng tính năng lật ngẫu nhiên cho hình ảnh và cập nhật bất kỳ trường hợp nào như hộp giới hạn hoặc điểm chính cho phù hợp.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
labels |
dict
|
Một từ điển chứa các khóa 'img' và 'instances'. 'img' là hình ảnh cần lật. 'instances' là một đối tượng chứa các hộp giới hạn và các keypoint tùy chọn. |
bắt buộc |
Trở lại:
Kiểu | Sự miêu tả |
---|---|
dict
|
Cùng một câu lệnh với hình ảnh lật và các phiên bản cập nhật dưới các phím 'img' và 'instances'. |
Mã nguồn trong ultralytics/data/augment.py
__init__(p=0.5, direction='horizontal', flip_idx=None)
Khởi tạo lớp RandomFlip với xác suất và hướng.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
p |
float
|
Xác suất áp dụng lật. Phải nằm trong khoảng từ 0 đến 1. Mặc định là 0,5. |
0.5
|
direction |
str
|
Hướng áp dụng lật. Phải là 'ngang' hoặc 'dọc'. Mặc định là 'ngang'. |
'horizontal'
|
flip_idx |
array - like
|
Ánh xạ chỉ mục để lật các điểm chính, nếu có. |
None
|
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.LetterBox
Thay đổi kích thước hình ảnh và đệm để phát hiện, phân đoạn phiên bản, tư thế.
Mã nguồn trong ultralytics/data/augment.py
__call__(labels=None, image=None)
Trả về nhãn và hình ảnh cập nhật có thêm đường viền.
Mã nguồn trong ultralytics/data/augment.py
__init__(new_shape=(640, 640), auto=False, scaleFill=False, scaleup=True, center=True, stride=32)
Khởi tạo đối tượng LetterBox với các tham số cụ thể.
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.CopyPaste
Thực hiện tăng cường Sao chép-Dán như được mô tả trong https://arxiv.org/abs/2012.07177 giấy. Lớp này là chịu trách nhiệm áp dụng tăng cường Sao chép-Dán trên hình ảnh và các trường hợp tương ứng của chúng.
Mã nguồn trong ultralytics/data/augment.py
__call__(labels)
Áp dụng tăng cường Sao chép-Dán cho hình ảnh và trường hợp đã cho.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
labels |
dict
|
Một từ điển chứa: - 'img': Hình ảnh để tăng cường. - 'cls': Nhãn lớp được liên kết với các phiên bản. - 'instances': Đối tượng chứa các hộp giới hạn, và tùy chọn, các điểm chính và phân đoạn. |
bắt buộc |
Trở lại:
Kiểu | Sự miêu tả |
---|---|
dict
|
Đọc chính tả với hình ảnh tăng cường và các phiên bản cập nhật trong các phím 'img', 'cls' và 'phiên bản'. |
Ghi chú
- Các phiên bản dự kiến sẽ có 'phân đoạn' là một trong những thuộc tính của chúng để phần bổ sung này hoạt động.
- Phương pháp này sửa đổi từ điển nhập 'nhãn' tại chỗ.
Mã nguồn trong ultralytics/data/augment.py
__init__(p=0.5)
Khởi tạo lớp CopyPaste với một xác suất nhất định.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
p |
float
|
Xác suất áp dụng tăng cường Sao chép-Dán. Phải nằm trong khoảng từ 0 đến 1. Mặc định là 0,5. |
0.5
|
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.Albumentations
Biến đổi albumentation.
Tùy chọn, gỡ cài đặt gói để vô hiệu hóa. Áp dụng Blur, Median Blur, chuyển đổi sang thang độ xám, Contrast Limited Adaptive Cân bằng biểu đồ, thay đổi ngẫu nhiên độ sáng và độ tương phản, RandomGamma và giảm chất lượng hình ảnh bằng cách Nén.
Mã nguồn trong ultralytics/data/augment.py
__call__(labels)
Tạo phát hiện đối tượng và trả về từ điển với kết quả phát hiện.
Mã nguồn trong ultralytics/data/augment.py
__init__(p=1.0)
Khởi tạo đối tượng transform cho YOLO bbox định dạng params.
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.Format
Định dạng chú thích hình ảnh để phát hiện đối tượng, phân đoạn phiên bản và đặt các tác vụ ước tính. Lớp học
chuẩn hóa hình ảnh và chú thích phiên bản sẽ được sử dụng bởi collate_fn
trong PyTorch Bộ nạp dữ liệu.
Thuộc tính:
Tên | Kiểu | Sự miêu tả |
---|---|---|
bbox_format |
str
|
Định dạng cho các hộp giới hạn. Mặc định là 'xywh'. |
normalize |
bool
|
Có nên bình thường hóa các hộp giới hạn hay không. Mặc định là True. |
return_mask |
bool
|
Trả về mặt nạ phiên bản để phân đoạn. Mặc định là False. |
return_keypoint |
bool
|
Trả về các điểm chính để ước tính tư thế. Mặc định là False. |
mask_ratio |
int
|
Tỷ lệ downsample cho khẩu trang. Mặc định là 4. |
mask_overlap |
bool
|
Có nên chồng lên khẩu trang hay không. Mặc định là True. |
batch_idx |
bool
|
Giữ chỉ mục hàng loạt. Mặc định là True. |
bgr |
float
|
Xác suất trả về hình ảnh BGR. Mặc định là 0.0. |
Mã nguồn trong ultralytics/data/augment.py
919 920 921 922 923 924 925 926 927 928 929 930 931 932 933 934 935 936 937 938 939 940 941 942 943 944 945 946 947 948 949 950 951 952 953 954 955 956 957 958 959 960 961 962 963 964 965 966 967 968 969 970 971 972 973 974 975 976 977 978 979 980 981 982 983 984 985 986 987 988 989 990 991 992 993 994 995 996 997 998 9991000100110021003100410051006100710081009101010111012101310141015101610171018 |
|
__call__(labels)
Trả về hình ảnh được định dạng, lớp, hộp giới hạn và điểm chính sẽ được sử dụng bởi 'collate_fn'.
Mã nguồn trong ultralytics/data/augment.py
__init__(bbox_format='xywh', normalize=True, return_mask=False, return_keypoint=False, return_obb=False, mask_ratio=4, mask_overlap=True, batch_idx=True, bgr=0.0)
Khởi tạo lớp Format với các tham số đã cho.
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.RandomLoadText
Lấy mẫu ngẫu nhiên các văn bản tích cực và văn bản tiêu cực và cập nhật các chỉ số lớp cho phù hợp với số lượng mẫu.
Thuộc tính:
Tên | Kiểu | Sự miêu tả |
---|---|---|
prompt_format |
str
|
Định dạng để nhắc. Mặc định là '{}'. |
neg_samples |
tuple[int]
|
Một ranger để lấy mẫu ngẫu nhiên các văn bản phủ định, Mặc định là (80, 80). |
max_samples |
int
|
Số lượng mẫu văn bản khác nhau tối đa trong một hình ảnh, Mặc định là 80. |
padding |
bool
|
Có nên đệm văn bản vào max_samples hay không. Mặc định là False. |
padding_value |
str
|
Văn bản đệm. Mặc định là "". |
Mã nguồn trong ultralytics/data/augment.py
1021 1022 1023 1024 1025 1026 1027 1028 1029 1030 1031 1032 1033 1034 1035 1036 1037 1038 1039 1040 1041 1042 1043 1044 1045 1046 1047 1048 1049 1050 1051 1052 1053 1054 1055 1056 1057 1058 1059 1060 1061 1062 1063 1064 1065 1066 1067 1068 1069 1070 1071 1072 1073 1074 1075 1076 1077 1078 1079 1080 1081 1082 1083 1084 1085 1086 1087 1088 1089 1090 1091 1092 1093 1094 1095 |
|
__call__(labels)
Trả lại các lớp học và văn bản cập nhật.
Mã nguồn trong ultralytics/data/augment.py
__init__(prompt_format='{}', neg_samples=(80, 80), max_samples=80, padding=False, padding_value='')
Khởi tạo lớp RandomLoadText với các tham số đã cho.
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.ClassifyLetterBox
YOLOv8 Lớp LetterBox để tiền xử lý hình ảnh, được thiết kế để trở thành một phần của quy trình chuyển đổi, ví dụ: T.Compose([LetterBox(size), ToTensor()]).
Thuộc tính:
Tên | Kiểu | Sự miêu tả |
---|---|---|
h |
int
|
Chiều cao mục tiêu của hình ảnh. |
w |
int
|
Chiều rộng mục tiêu của hình ảnh. |
auto |
bool
|
Nếu True, tự động giải quyết cho phía ngắn bằng cách sử dụng sải chân. |
stride |
int
|
Giá trị sải chân, được sử dụng khi 'auto' là True. |
Mã nguồn trong ultralytics/data/augment.py
__call__(im)
Thay đổi kích thước hình ảnh và đệm nó bằng phương pháp hộp thư.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
im |
ndarray
|
Hình ảnh đầu vào dưới dạng một mảng hình dạng HWC numpy. |
bắt buộc |
Trở lại:
Kiểu | Sự miêu tả |
---|---|
ndarray
|
Hình ảnh hộp thư và thay đổi kích thước thành một mảng numpy. |
Mã nguồn trong ultralytics/data/augment.py
__init__(size=(640, 640), auto=False, stride=32)
Khởi tạo lớp ClassifyLetterBox với kích thước mục tiêu, tự động gắn cờ và sải chân.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
size |
Union[int, Tuple[int, int]]
|
Kích thước mục tiêu (chiều cao, chiều rộng) cho hộp thư. |
(640, 640)
|
auto |
bool
|
Nếu True, tự động tính toán cạnh ngắn dựa trên sải chân. |
False
|
stride |
int
|
Giá trị sải chân, được sử dụng khi 'auto' là True. |
32
|
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.CenterCrop
YOLOv8 Lớp CenterCrop để tiền xử lý ảnh, được thiết kế để trở thành một phần của quy trình chuyển đổi, ví dụ: T.Compose([CenterCrop(size), ToTensor()]).
Mã nguồn trong ultralytics/data/augment.py
__call__(im)
Thay đổi kích thước và cắt trung tâm của hình ảnh bằng phương pháp hộp thư.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
im |
ndarray
|
Hình ảnh đầu vào dưới dạng một mảng hình dạng HWC numpy. |
bắt buộc |
Trở lại:
Kiểu | Sự miêu tả |
---|---|
ndarray
|
Hình ảnh được cắt xén ở giữa và thay đổi kích thước thành một mảng numpy. |
Mã nguồn trong ultralytics/data/augment.py
__init__(size=640)
ultralytics.data.augment.ToTensor
YOLOv8 Lớp ToTensor để tiền xử lý ảnh, tức là T.Compose([LetterBox(size), ToTensor()]).
Mã nguồn trong ultralytics/data/augment.py
__call__(im)
Chuyển đổi hình ảnh từ mảng numpy thành PyTorch tensor, áp dụng tùy chọn nửa chính xác và chuẩn hóa.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
im |
ndarray
|
Nhập hình ảnh dưới dạng mảng numpy với hình dạng (H, W, C) theo thứ tự BGR. |
bắt buộc |
Trở lại:
Kiểu | Sự miêu tả |
---|---|
Tensor
|
Hình ảnh được biến đổi như một PyTorch tensor trong float32 hoặc float16, được chuẩn hóa thành [0, 1]. |
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.v8_transforms(dataset, imgsz, hyp, stretch=False)
Chuyển đổi hình ảnh sang kích thước phù hợp với YOLOv8 Đào tạo.
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.classify_transforms(size=224, mean=DEFAULT_MEAN, std=DEFAULT_STD, interpolation=Image.BILINEAR, crop_fraction=DEFAULT_CROP_FRACTION)
Phân loại biến đổi để đánh giá / suy luận. Lấy cảm hứng từ timm/data/transforms_factory.py.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
size |
int
|
Kích thước hình ảnh |
224
|
mean |
tuple
|
giá trị trung bình của kênh RGB |
DEFAULT_MEAN
|
std |
tuple
|
giá trị std của kênh RGB |
DEFAULT_STD
|
interpolation |
InterpolationMode
|
chế độ nội suy. mặc định là T.InterpolationMode.BILINEAR. |
BILINEAR
|
crop_fraction |
float
|
một phần của hình ảnh để cắt. Mặc định là 1.0. |
DEFAULT_CROP_FRACTION
|
Trở lại:
Kiểu | Sự miêu tả |
---|---|
Compose
|
Torchvision biến đổi |
Mã nguồn trong ultralytics/data/augment.py
ultralytics.data.augment.classify_augmentations(size=224, mean=DEFAULT_MEAN, std=DEFAULT_STD, scale=None, ratio=None, hflip=0.5, vflip=0.0, auto_augment=None, hsv_h=0.015, hsv_s=0.4, hsv_v=0.4, force_color_jitter=False, erasing=0.0, interpolation=Image.BILINEAR)
Phân loại biến đổi với tăng cường cho đào tạo. Lấy cảm hứng từ timm/data/transforms_factory.py.
Thông số:
Tên | Kiểu | Sự miêu tả | Mặc định |
---|---|---|---|
size |
int
|
Kích thước hình ảnh |
224
|
scale |
tuple
|
Phạm vi tỷ lệ của hình ảnh. Mặc định là (0.08, 1.0) |
None
|
ratio |
tuple
|
Phạm vi tỷ lệ khung hình của hình ảnh. Mặc định là (3./4., 4./3.) |
None
|
mean |
tuple
|
giá trị trung bình của kênh RGB |
DEFAULT_MEAN
|
std |
tuple
|
giá trị std của kênh RGB |
DEFAULT_STD
|
hflip |
float
|
Xác suất lật ngang |
0.5
|
vflip |
float
|
Xác suất lật dọc |
0.0
|
auto_augment |
str
|
Chính sách tăng cường tự động. có thể là 'randaugment', 'augmix', 'autoaugment' hoặc None. |
None
|
hsv_h |
float
|
Hình ảnh HSV-Huế tăng cường (phân số) |
0.015
|
hsv_s |
float
|
hình ảnh HSV-Tăng độ bão hòa (phân số) |
0.4
|
hsv_v |
float
|
hình ảnh HSV-Tăng giá trị (phân số) |
0.4
|
force_color_jitter |
bool
|
buộc áp dụng chập chờn màu ngay cả khi tự động tăng cường được bật |
False
|
erasing |
float
|
Xác suất xóa ngẫu nhiên |
0.0
|
interpolation |
InterpolationMode
|
chế độ nội suy. mặc định là T.InterpolationMode.BILINEAR. |
BILINEAR
|
Trở lại:
Kiểu | Sự miêu tả |
---|---|
Compose
|
Torchvision biến đổi |
Mã nguồn trong ultralytics/data/augment.py
1186 1187 1188 1189 1190 1191 1192 1193 1194 1195 1196 1197 1198 1199 1200 1201 1202 1203 1204 1205 1206 1207 1208 1209 1210 1211 1212 1213 1214 1215 1216 1217 1218 1219 1220 1221 1222 1223 1224 1225 1226 1227 1228 1229 1230 1231 1232 1233 1234 1235 1236 1237 1238 1239 1240 1241 1242 1243 1244 1245 1246 1247 1248 1249 1250 1251 1252 1253 1254 1255 1256 1257 1258 1259 1260 1261 1262 1263 1264 1265 1266 1267 1268 1269 1270 1271 1272 1273 1274 1275 1276 1277 1278 |
|