Ir al contenido

Conjuntos de datos

Ultralytics Platform los conjuntos de datos ofrecen una solución optimizada para gestionar sus datos de entrenamiento. Una vez cargados, los conjuntos de datos pueden utilizarse inmediatamente para el entrenamiento de modelos, con procesamiento automático y generación de estadísticas.

Subir conjunto de datos

Ultralytics acepta múltiples formatos de carga para mayor flexibilidad.

Formatos de imagen compatibles

FormatoExtensionesNotas
JPEG.jpg, .jpegMás común, recomendado
PNG.pngApoya la transparencia.
WebP.webpModerno, buena compresión
BMP.bmpSin comprimir
GIF.gifPrimer fotograma extraído
TIFF.tiff, .tifAlta calidad
HEIC.heicFotos del iPhone
AVIF.avifFormato de última generación
JP2.jp2JPEG 2000
DNG.dngCámara sin procesar

Formatos de vídeo compatibles

Los vídeos se extraen automáticamente en fotogramas:

FormatoExtensionesExtracción
MP4.mp41 FPS, máximo 100 fotogramas
WebM.webm1 FPS, máximo 100 fotogramas
MOV.mov1 FPS, máximo 100 fotogramas
AVI.avi1 FPS, máximo 100 fotogramas
MKV.mkv1 FPS, máximo 100 fotogramas
M4V.m4v1 FPS, máximo 100 fotogramas

Límites de tamaño de archivo

TipoTamaño máximo
Imágenes50 MB cada uno
Vídeos1 GB cada uno
Archivos ZIP50 GB

Archivos

Se admiten archivos ZIP de hasta 50 GB con la estructura de carpetas conservada y extracción y procesamiento automáticos.

Preparación de su Conjunto de Datos

Para conjuntos de datos etiquetados, utilice el formato YOLO estándar:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

El archivo yaml define la configuración de su conjunto de datos:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Proceso de Carga

  1. Navegue a Conjuntos de datos en la barra lateral
  2. Haga clic en Cargar conjunto de datos o arrastre los archivos a la zona de carga
  3. Seleccione el tipo de tarea (detect, segment, pose, obb, classify)
  4. Añada un nombre y una descripción opcional
  5. Haga clic en Cargar

Tras la carga, la Plataforma procesa sus datos:

  1. Normalización: Imágenes grandes redimensionadas (máx. 4096px)
  2. Miniaturas: Previsualizaciones de 256px generadas
  3. Análisis de etiquetas: Etiquetas en formato YOLO extraídas
  4. Estadísticas: Distribuciones de clases calculadas
Validar Antes de la Carga

Puede validar su conjunto de datos localmente antes de cargarlo:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Explorar Imágenes

Visualice las imágenes de su conjunto de datos en múltiples diseños:

VerDescripción
CuadrículaCuadrícula de miniaturas con superposiciones de anotaciones
CompactoMiniaturas más pequeñas para un escaneo rápido
TablaLista con nombre de archivo, dimensiones y recuentos de etiquetas

Visor de Pantalla Completa

Haga clic en cualquier imagen para abrir el visor de pantalla completa con:

  • Navegación: Teclas de flecha o clic para navegar
  • Metadatos: Nombre de archivo, dimensiones, división, recuento de etiquetas
  • Anotaciones: Alternar visibilidad de anotaciones
  • Desglose por clase: Recuentos de etiquetas por clase

Filtrar por División

Filtre imágenes por su división de conjunto de datos:

DivisiónPropósito
EntrenarUtilizado para el entrenamiento del modelo
ValUtilizado para validación durante el entrenamiento
PruebaUtilizado para la evaluación final
DesconocidoSin división asignada

Estadísticas del Conjunto de Datos

La pestaña Estadísticas ofrece un análisis automático de su conjunto de datos:

Distribución de Clases

Gráfico de barras que muestra el número de anotaciones por clase:

Mapa de Calor de Ubicación

Visualización de la ubicación de las anotaciones en las imágenes:

Análisis de Dimensiones

Diagrama de dispersión de las dimensiones de la imagen (ancho vs. alto):

Caché de estadísticas

Las estadísticas se almacenan en caché durante 5 minutos. Los cambios en las anotaciones se reflejarán una vez que expire la caché.

Exportar Conjunto de Datos

Exporte su conjunto de datos en formato NDJSON para uso sin conexión:

  1. Abra el menú de acciones del conjunto de datos
  2. Haga clic en Exportar
  3. Descargue el archivo NDJSON

El formato NDJSON almacena un objeto JSON por línea:

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

Consulte la documentación del formato NDJSON de Ultralytics para conocer la especificación completa.

URI del Conjunto de Datos

Referencie los conjuntos de datos de la plataforma utilizando el ul:// formato URI:

ul://username/datasets/dataset-slug

Utilice esta URI para entrenar modelos desde cualquier lugar:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Entrene en cualquier lugar con datos de la plataforma

El ul:// La URI funciona desde cualquier entorno:

  • Máquina local: Entrene en su hardware, los datos se descargan automáticamente
  • Google Colab: Acceda a sus conjuntos de datos de la plataforma en cuadernos
  • Servidores remotos: Entrene en máquinas virtuales en la nube con acceso completo al conjunto de datos

Configuración de Visibilidad

Controla quién puede ver tu conjunto de datos:

ConfiguraciónDescripción
PrivadoSolo tú puedes acceder
PúblicoCualquiera puede visualizarlo en la página Explorar

Para cambiar la visibilidad:

  1. Abre el menú de acciones del conjunto de datos
  2. Haz clic en Editar
  3. Alterna la configuración de visibilidad
  4. Haz clic en Guardar

Editar Dataset

Actualiza el nombre, la descripción o la visibilidad del conjunto de datos:

  1. Abre el menú de acciones del conjunto de datos
  2. Haz clic en Editar
  3. Realiza los cambios
  4. Haz clic en Guardar

Eliminar conjunto de datos

Elimina un conjunto de datos que ya no necesites:

  1. Abre el menú de acciones del conjunto de datos
  2. Haz clic en Eliminar
  3. Confirma la eliminación

Papelera y Restaurar

Los conjuntos de datos eliminados se mueven a la Papelera durante 30 días. Puedes restaurarlos desde la página Papelera en Configuración.

Entrenar con el Conjunto de Datos

Inicia el entrenamiento directamente desde tu conjunto de datos:

  1. Haz clic en Entrenar Modelo en la página del conjunto de datos
  2. Selecciona un proyecto o crea uno nuevo
  3. Configura los parámetros de entrenamiento
  4. Inicia el entrenamiento

Consulta Entrenamiento en la Nube para más detalles.

Preguntas frecuentes

¿Qué sucede con mis datos después de la carga?

Sus datos se procesan y almacenan en la región seleccionada (EE. UU., UE o AP). Las imágenes son:

  1. Validado en cuanto a formato y tamaño
  2. Normalizado si es mayor de 4096px (conservando la relación de aspecto)
  3. Almacenado utilizando Almacenamiento Direccionable por Contenido (CAS) con hashing SHA-256
  4. Miniaturas generadas a 256px para una navegación rápida

¿Cómo funciona el almacenamiento?

La Plataforma Ultralytics utiliza Almacenamiento Direccionable por Contenido (CAS) para un almacenamiento eficiente:

  • Deduplicación: Las imágenes idénticas subidas por diferentes usuarios se almacenan solo una vez
  • Integridad: El hashing SHA-256 garantiza la integridad de los datos
  • Eficiencia: Reduce los costos de almacenamiento y acelera el procesamiento
  • Regional: Los datos permanecen en la región seleccionada (EE. UU., UE o AP)

¿Puedo añadir imágenes a un conjunto de datos existente?

Sí, utilice el botón Añadir imágenes en la página del conjunto de datos para subir imágenes adicionales. Las nuevas estadísticas se calcularán automáticamente.

¿Cómo muevo imágenes entre conjuntos de datos?

Utilice la función de selección masiva:

  1. Seleccione imágenes en la galería
  2. Haga clic en Mover o Copiar
  3. Seleccione el conjunto de datos de destino

¿Qué formatos de etiquetas son compatibles?

La Plataforma Ultralytics admite etiquetas en formato YOLO:

TareaFormatoEjemplo
Detectarclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentarclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Poseclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
ClasificarEstructura del directoriotrain/cats/, train/dogs/

Todas las coordenadas están normalizadas (rango 0-1). Indicadores de visibilidad de la pose: 0 = sin etiquetar, 1 = etiquetada pero oculta, 2 = etiquetada y visible.



📅 Creado hace 20 días ✏️ Actualizado hace 12 días
glenn-jocherLaughing-q

Comentarios