Conjuntos de datos
Ultralytics Platform los conjuntos de datos ofrecen una solución optimizada para gestionar sus datos de entrenamiento. Una vez cargados, los conjuntos de datos pueden utilizarse inmediatamente para el entrenamiento de modelos, con procesamiento automático y generación de estadísticas.
Subir conjunto de datos
Ultralytics acepta múltiples formatos de carga para mayor flexibilidad.
Formatos de imagen compatibles
| Formato | Extensiones | Notas |
|---|---|---|
| JPEG | .jpg, .jpeg | Más común, recomendado |
| PNG | .png | Apoya la transparencia. |
| WebP | .webp | Moderno, buena compresión |
| BMP | .bmp | Sin comprimir |
| GIF | .gif | Primer fotograma extraído |
| TIFF | .tiff, .tif | Alta calidad |
| HEIC | .heic | Fotos del iPhone |
| AVIF | .avif | Formato de última generación |
| JP2 | .jp2 | JPEG 2000 |
| DNG | .dng | Cámara sin procesar |
Formatos de vídeo compatibles
Los vídeos se extraen automáticamente en fotogramas:
| Formato | Extensiones | Extracción |
|---|---|---|
| MP4 | .mp4 | 1 FPS, máximo 100 fotogramas |
| WebM | .webm | 1 FPS, máximo 100 fotogramas |
| MOV | .mov | 1 FPS, máximo 100 fotogramas |
| AVI | .avi | 1 FPS, máximo 100 fotogramas |
| MKV | .mkv | 1 FPS, máximo 100 fotogramas |
| M4V | .m4v | 1 FPS, máximo 100 fotogramas |
Límites de tamaño de archivo
| Tipo | Tamaño máximo |
|---|---|
| Imágenes | 50 MB cada uno |
| Vídeos | 1 GB cada uno |
| Archivos ZIP | 50 GB |
Archivos
Se admiten archivos ZIP de hasta 50 GB con la estructura de carpetas conservada y extracción y procesamiento automáticos.
Preparación de su Conjunto de Datos
Para conjuntos de datos etiquetados, utilice el formato YOLO estándar:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
El archivo yaml define la configuración de su conjunto de datos:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Proceso de Carga
- Navegue a Conjuntos de datos en la barra lateral
- Haga clic en Cargar conjunto de datos o arrastre los archivos a la zona de carga
- Seleccione el tipo de tarea (detect, segment, pose, obb, classify)
- Añada un nombre y una descripción opcional
- Haga clic en Cargar
Tras la carga, la Plataforma procesa sus datos:
- Normalización: Imágenes grandes redimensionadas (máx. 4096px)
- Miniaturas: Previsualizaciones de 256px generadas
- Análisis de etiquetas: Etiquetas en formato YOLO extraídas
- Estadísticas: Distribuciones de clases calculadas
Validar Antes de la Carga
Puede validar su conjunto de datos localmente antes de cargarlo:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Explorar Imágenes
Visualice las imágenes de su conjunto de datos en múltiples diseños:
| Ver | Descripción |
|---|---|
| Cuadrícula | Cuadrícula de miniaturas con superposiciones de anotaciones |
| Compacto | Miniaturas más pequeñas para un escaneo rápido |
| Tabla | Lista con nombre de archivo, dimensiones y recuentos de etiquetas |
Visor de Pantalla Completa
Haga clic en cualquier imagen para abrir el visor de pantalla completa con:
- Navegación: Teclas de flecha o clic para navegar
- Metadatos: Nombre de archivo, dimensiones, división, recuento de etiquetas
- Anotaciones: Alternar visibilidad de anotaciones
- Desglose por clase: Recuentos de etiquetas por clase
Filtrar por División
Filtre imágenes por su división de conjunto de datos:
| División | Propósito |
|---|---|
| Entrenar | Utilizado para el entrenamiento del modelo |
| Val | Utilizado para validación durante el entrenamiento |
| Prueba | Utilizado para la evaluación final |
| Desconocido | Sin división asignada |
Estadísticas del Conjunto de Datos
La pestaña Estadísticas ofrece un análisis automático de su conjunto de datos:
Distribución de Clases
Gráfico de barras que muestra el número de anotaciones por clase:
Mapa de Calor de Ubicación
Visualización de la ubicación de las anotaciones en las imágenes:
Análisis de Dimensiones
Diagrama de dispersión de las dimensiones de la imagen (ancho vs. alto):
Caché de estadísticas
Las estadísticas se almacenan en caché durante 5 minutos. Los cambios en las anotaciones se reflejarán una vez que expire la caché.
Exportar Conjunto de Datos
Exporte su conjunto de datos en formato NDJSON para uso sin conexión:
- Abra el menú de acciones del conjunto de datos
- Haga clic en Exportar
- Descargue el archivo NDJSON
El formato NDJSON almacena un objeto JSON por línea:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
Consulte la documentación del formato NDJSON de Ultralytics para conocer la especificación completa.
URI del Conjunto de Datos
Referencie los conjuntos de datos de la plataforma utilizando el ul:// formato URI:
ul://username/datasets/dataset-slug
Utilice esta URI para entrenar modelos desde cualquier lugar:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
Entrene en cualquier lugar con datos de la plataforma
El ul:// La URI funciona desde cualquier entorno:
- Máquina local: Entrene en su hardware, los datos se descargan automáticamente
- Google Colab: Acceda a sus conjuntos de datos de la plataforma en cuadernos
- Servidores remotos: Entrene en máquinas virtuales en la nube con acceso completo al conjunto de datos
Configuración de Visibilidad
Controla quién puede ver tu conjunto de datos:
| Configuración | Descripción |
|---|---|
| Privado | Solo tú puedes acceder |
| Público | Cualquiera puede visualizarlo en la página Explorar |
Para cambiar la visibilidad:
- Abre el menú de acciones del conjunto de datos
- Haz clic en Editar
- Alterna la configuración de visibilidad
- Haz clic en Guardar
Editar Dataset
Actualiza el nombre, la descripción o la visibilidad del conjunto de datos:
- Abre el menú de acciones del conjunto de datos
- Haz clic en Editar
- Realiza los cambios
- Haz clic en Guardar
Eliminar conjunto de datos
Elimina un conjunto de datos que ya no necesites:
- Abre el menú de acciones del conjunto de datos
- Haz clic en Eliminar
- Confirma la eliminación
Papelera y Restaurar
Los conjuntos de datos eliminados se mueven a la Papelera durante 30 días. Puedes restaurarlos desde la página Papelera en Configuración.
Entrenar con el Conjunto de Datos
Inicia el entrenamiento directamente desde tu conjunto de datos:
- Haz clic en Entrenar Modelo en la página del conjunto de datos
- Selecciona un proyecto o crea uno nuevo
- Configura los parámetros de entrenamiento
- Inicia el entrenamiento
Consulta Entrenamiento en la Nube para más detalles.
Preguntas frecuentes
¿Qué sucede con mis datos después de la carga?
Sus datos se procesan y almacenan en la región seleccionada (EE. UU., UE o AP). Las imágenes son:
- Validado en cuanto a formato y tamaño
- Normalizado si es mayor de 4096px (conservando la relación de aspecto)
- Almacenado utilizando Almacenamiento Direccionable por Contenido (CAS) con hashing SHA-256
- Miniaturas generadas a 256px para una navegación rápida
¿Cómo funciona el almacenamiento?
La Plataforma Ultralytics utiliza Almacenamiento Direccionable por Contenido (CAS) para un almacenamiento eficiente:
- Deduplicación: Las imágenes idénticas subidas por diferentes usuarios se almacenan solo una vez
- Integridad: El hashing SHA-256 garantiza la integridad de los datos
- Eficiencia: Reduce los costos de almacenamiento y acelera el procesamiento
- Regional: Los datos permanecen en la región seleccionada (EE. UU., UE o AP)
¿Puedo añadir imágenes a un conjunto de datos existente?
Sí, utilice el botón Añadir imágenes en la página del conjunto de datos para subir imágenes adicionales. Las nuevas estadísticas se calcularán automáticamente.
¿Cómo muevo imágenes entre conjuntos de datos?
Utilice la función de selección masiva:
- Seleccione imágenes en la galería
- Haga clic en Mover o Copiar
- Seleccione el conjunto de datos de destino
¿Qué formatos de etiquetas son compatibles?
La Plataforma Ultralytics admite etiquetas en formato YOLO:
| Tarea | Formato | Ejemplo |
|---|---|---|
| Detectar | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segmentar | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Pose | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Clasificar | Estructura del directorio | train/cats/, train/dogs/ |
Todas las coordenadas están normalizadas (rango 0-1). Indicadores de visibilidad de la pose: 0 = sin etiquetar, 1 = etiquetada pero oculta, 2 = etiquetada y visible.