Ir al contenido

Conjuntos de datos

Ultralytics Platform los conjuntos de datos ofrecen una solución optimizada para gestionar sus datos de entrenamiento. Una vez cargados, los conjuntos de datos pueden utilizarse inmediatamente para el entrenamiento de modelos, con procesamiento automático y generación de estadísticas.

Subir conjunto de datos

Ultralytics acepta múltiples formatos de carga para mayor flexibilidad.

Formatos compatibles

FormatoExtensionesNotasTamaño máximo
JPEG.jpg, .jpegMás común, recomendado50 MB
PNG.pngApoya la transparencia.50 MB
WebP.webpModerno, buena compresión50 MB
BMP.bmpSin comprimir50 MB
TIFF.tiff, .tifAlta calidad50 MB
HEIC.heicFotos del iPhone50 MB
AVIF.avifFormato de última generación50 MB
JP2.jp2JPEG 200050 MB
DNG.dngCámara sin procesar50 MB
MPO.mpoObjeto multipictura50 MB

Los vídeos se extraen automáticamente a fotogramas en el lado del cliente a 1 FPS (máximo 100 fotogramas por vídeo).

FormatoExtensionesExtracciónTamaño máximo
MP4.mp41 FPS, máximo 100 fotogramas1 GB
WebM.webm1 FPS, máximo 100 fotogramas1 GB
MOV.mov1 FPS, máximo 100 fotogramas1 GB
AVI.avi1 FPS, máximo 100 fotogramas1 GB
MKV.mkv1 FPS, máximo 100 fotogramas1 GB
M4V.m4v1 FPS, máximo 100 fotogramas1 GB

Extracción de Fotogramas de Video

Los fotogramas de vídeo se extraen a una velocidad de 1 fotograma por segundo en el navegador antes de la carga. Un vídeo de 60 segundos produce 60 fotogramas. El máximo es de 100 fotogramas por vídeo, por lo que los vídeos de más de ~100 segundos se muestrearán.

Los archivos se extraen y procesan automáticamente.

FormatoExtensionesNotasTamaño máximo
CÓDIGO POSTAL.zipMás común10 GB
TAR.tarArchivo sin comprimir10 GB
TAR.GZ.tar.gz, .tgzArchivo comprimido10 GB
GZ.gzComprimido con Gzip10 GB

Preparación de su Conjunto de Datos

La plataforma admite dos formatos de anotación, además de cargas sin procesar: Ultralytics YOLO, COCOy sin procesar (imágenes sin anotaciones):

Utilice la estructura YOLO estándar YOLO con un data.yaml archivo:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

El archivo yaml define la configuración de su conjunto de datos:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Utilice archivos de anotación JSON con la COCO estándar:

my-coco-dataset/
├── train/
│   ├── _annotations.coco.json
│   ├── img001.jpg
│   └── img002.jpg
└── val/
    ├── _annotations.coco.json
    ├── img003.jpg
    └── img004.jpg

El archivo JSON contiene images, annotations, y categories matrices:

{
    "images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
    "annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
    "categories": [{ "id": 0, "name": "person" }]
}

COCO se convierten automáticamente durante la carga. Detección (bbox), segmentación (segmentation polígonos) y pose (keypoints) son compatibles. Los ID de categoría se reasignan a una secuencia densa indexada en 0 en todos los archivos de anotación. Para convertir entre formatos, consulte herramientas de conversión de formatos.

Subidas sin procesar

Sin procesar: Sube imágenes sin anotaciones (sin etiquetas). Útil cuando planeas anotar directamente en la plataforma utilizando el editor de anotaciones.

Estructura de directorios plana

También puede cargar imágenes sin la estructura de carpetas train/val. Las imágenes cargadas sin carpetas divididas se asignan a la carpeta train divididos por defecto. Puedes reasignarlos más tarde utilizando la función de mover a dividir en bloque.

Detección automática de formato

El formato se detecta automáticamente: conjuntos de datos con un data.yaml que contiene names, train, o val Las claves se tratan como YOLO. Conjuntos de datos con archivos COCO (que contienen images, annotations, y categories Las matrices se tratan como COCO. Los conjuntos de datos que solo contienen imágenes y no tienen anotaciones se tratan como datos sin procesar.

Para obtener detalles sobre el formato específico de cada tarea, consulte las tareas compatibles y la descripción general de los conjuntos de datos.

Proceso de Carga

  1. Navegar a Datasets en la barra lateral
  2. Haga clic New Dataset o arrastre los archivos a la zona de carga
  3. Seleccione el tipo de tarea (consulte las tareas compatibles).
  4. Añada un nombre y una descripción opcional
  5. Establecer la visibilidad (pública o privada) y la licencia opcional (ver licencias disponibles)
  6. Haga clic Create

Ultralytics Conjuntos de datos Cuadro de diálogo de carga Selector de tareas

Después de la carga, la plataforma procesa sus datos a través de un proceso de varias etapas:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. Validación: Comprobaciones de formato y tamaño
  2. Normalización: imágenes grandes redimensionadas (máximo 4096 píxeles, dimensión mínima 28 píxeles)
  3. Miniaturas: vistas previas WebP de 256 píxeles generadas.
  4. Análisis de etiquetas: YOLO y etiquetas COCO extraídas
  5. Estadísticas: Distribuciones de clases y dimensiones de imagen calculadas.

Barra de progreso de carga de conjuntos de datos de Ultralytics

Validar Antes de la Carga

Puede validar su conjunto de datos localmente antes de cargarlo:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Requisitos de tamaño de imagen

Las imágenes deben tener al menos 28 píxeles en su lado más corto. Las imágenes más pequeñas que esto se rechazan durante el procesamiento. Las imágenes más grandes que 4096 píxeles en su lado más largo se redimensionan automáticamente conservando la relación de aspecto.

Explorar Imágenes

Visualice las imágenes de su conjunto de datos en múltiples diseños:

VerDescripción
CuadrículaCuadrícula de miniaturas con superposiciones de anotaciones (predeterminado)
CompactoMiniaturas más pequeñas para un escaneo rápido
TablaLista con miniatura, nombre de archivo, dimensiones, tamaño, división, clases y recuento de etiquetas.

Galería de conjuntos de datos de Ultralytics Vista en cuadrícula con anotaciones

Clasificación y filtrado

Las imágenes se pueden ordenar y filtrar para facilitar la navegación:

OrdenarDescripción
Más recienteÚltimas incorporaciones
El más antiguoAñadido más recientemente
Nombre A-ZAlfabético
Nombre Z-AOrden alfabético inverso
Tamaño (más pequeño)Los archivos más pequeños primero
Tamaño (más grande)Los archivos más grandes primero
La mayoría de las etiquetasLa mayoría de las anotaciones
Menos etiquetasMenos anotaciones
FiltrarOpciones
Filtro divididoEntrenar, Val, Probar o Todo
Filtro de etiquetasTodas las imágenes, con anotaciones o sin anotaciones.
BuscarFiltrar imágenes por nombre de archivo

Búsqueda de imágenes sin etiquetar

Utilice el filtro de etiquetas configurado en Unannotated para encontrar rápidamente imágenes que aún necesitan anotación. Esto resulta especialmente útil para conjuntos de datos grandes en los que se desea track del progreso track .

Visor de Pantalla Completa

Haga clic en cualquier imagen para abrir el visor de pantalla completa con:

  • Navegación: teclas de flecha o vistas previas en miniatura para navegar.
  • Metadatos: nombre de archivo, dimensiones, insignia dividida, recuento de anotaciones
  • Anotaciones: Alternar la visibilidad de la superposición de anotaciones
  • Desglose por clase: recuento de etiquetas por clase con indicadores de color
  • Editar: Entra en el modo de anotación para añadir o modificar etiquetas.
  • Descargar: Descargar el archivo de imagen original
  • Eliminar: Elimina la imagen del conjunto de datos.
  • Zoom: Cmd/Ctrl+Scroll para acercar/alejar
  • Vista de píxeles: Activa o desactiva la representación pixelada para una inspección detallada.

Visor de pantalla completa de conjuntos de datos Ultralytics con panel de metadatos

Filtrar por División

Filtre imágenes por su división de conjunto de datos:

DivisiónPropósito
EntrenarUtilizado para el entrenamiento del modelo
ValUtilizado para validación durante el entrenamiento
PruebaUtilizado para la evaluación final

Pestañas del conjunto de datos

Cada página de conjunto de datos tiene cinco pestañas accesibles desde la barra de pestañas:

Pestaña Imágenes

La vista predeterminada muestra la galería de imágenes con anotaciones superpuestas. Admite los modos de vista en cuadrícula, compacta y tabla. Arrastra y suelta archivos aquí para añadir más imágenes.

Pestaña Clases

Gestiona las clases de anotación para tu conjunto de datos:

  • Histograma de clases: gráfico de barras que muestra el recuento de anotaciones por clase con alternancia entre escala lineal y logarítmica.
  • Tabla de clases: tabla ordenable y con función de búsqueda que incluye el nombre de la clase, el número de etiquetas y el número de imágenes.
  • Editar nombres de clases: Haga clic en cualquier nombre de clase para cambiarlo en línea.
  • Editar colores de clase: Haga clic en una muestra de color para cambiar el color de la clase.
  • Añadir nueva clase: Utiliza el campo de entrada de la parte inferior para añadir clases.

Ultralytics Conjuntos de datos Pestaña Clases Histograma y tabla

Escala logarítmica para conjuntos de datos desequilibrados

Si su conjunto de datos presenta un desequilibrio de clases (por ejemplo, 10 000 anotaciones de «persona» pero solo 50 de «bicicleta»), utilice el Log Scale Activa el histograma de clases para visualizar todas las clases con claridad.

Pestaña Gráficos

Estadísticas automáticas calculadas a partir de su conjunto de datos:

GráficoDescripción
Distribución divididaGráfico de donut con el recuento de imágenes de entrenamiento/validación/prueba y el porcentaje etiquetado.
Clases superioresGráfico circular de las 10 clases de anotaciones más frecuentes
Anchos de imagenHistograma de la distribución del ancho de la imagen con media
Alturas de imagenHistograma de la distribución de la altura de la imagen con media
Puntos por instanciaRecuento de vértices o puntos clave de polígonos por anotación (segment)
Ubicaciones de anotacionesMapa de calor 2D de las posiciones centrales de los cuadros delimitadores
Dimensiones de la imagenMapa de calor 2D de anchura frente a altura con líneas guía de relación de aspecto

Ultralytics Conjuntos de datos Pestaña Gráficos Cuadrícula de estadísticas

Caché de estadísticas

Las estadísticas se almacenan en caché durante 5 minutos. Los cambios en las anotaciones se reflejarán una vez que expire la caché.

Mapas de calor a pantalla completa

Haga clic en el botón de ampliar de cualquier mapa de calor para verlo en modo de pantalla completa. Esto proporciona una vista más grande y detallada, útil para comprender los patrones espaciales en grandes conjuntos de datos.

Pestaña Modelos

Ver todos los modelos entrenados con este conjunto de datos en una tabla con función de búsqueda:

ColumnaDescripción
NombreNombre del modelo con enlace
ProyectoProyecto principal con icono
EstadoInsignia de estado de formación
TareaTipo de YOLO
ÉpocasMejor época / épocas totales
mAP50-95Precisión media
mAP50mAP IoU ,50
CreadaFecha de creación

Ultralytics Conjuntos de datos Pestaña Modelos Tabla de modelos entrenados

Pestaña Errores

Las imágenes cuyo procesamiento ha fallado se enumeran aquí con:

  • Banner de error: Recuento total de imágenes fallidas y orientación
  • Tabla de errores: nombre de archivo, descripción del error fácil de entender, sugerencias para solucionarlo y miniatura de vista previa.
  • Los errores más comunes incluyen archivos dañados, formatos no compatibles, imágenes demasiado pequeñas (mínimo 28 píxeles) y modos de color no compatibles.
Errores comunes en el procesamiento
ErrorCausaArreglar
No se puede leer el archivo de imagen.Formato dañado o no compatibleReexportar desde el editor de imágenes
Incompleto o dañadoEl archivo se truncó durante la transferencia.Vuelva a descargar el archivo original.
Imagen demasiado pequeñaDimensión mínima inferior a 28 píxeles.Utilice imágenes originales con mayor resolución.
Modo de color no compatibleCMYK o modo de color indexadoConvertir al modo RGB

Exportar Conjunto de Datos

Exporta tu conjunto de datos en formato NDJSON para su uso sin conexión:

  1. Haga clic en el icono de descarga en el encabezado del conjunto de datos.
  2. El archivo NDJSON se descarga automáticamente.

Exportación de conjuntos de datos de Ultralytics Descarga Ndjson

El formato NDJSON almacena un objeto JSON por línea. La primera línea contiene los metadatos del conjunto de datos, seguidos de una línea por imagen:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}

URL firmadas

Las URL de las imágenes en el NDJSON exportado están firmadas y son válidas durante 7 días. Si necesita URL nuevas, vuelva a exportar el conjunto de datos.

Consulte la documentación del formato NDJSON de Ultralytics para conocer la especificación completa.

Operaciones masivas

Gestiona imágenes de forma masiva utilizando el menú contextual de la vista de tabla:

Traslado a Split

Reasignar las imágenes seleccionadas a una división diferente dentro del mismo conjunto de datos:

  1. Cambiar a la vista de tabla
  2. Selecciona imágenes utilizando las casillas de verificación.
  3. Haga clic con el botón derecho para abrir el menú contextual.
  4. Elige Move to split > Entrenar, Validación, o Prueba

También puede arrastrar y soltar imágenes en las pestañas del filtro dividido en la vista de cuadrícula.

Organización de trenes/divisiones Val

Cargue todas las imágenes en un conjunto de datos y, a continuación, utilice la función de mover y dividir por lotes para organizar los subconjuntos en divisiones de entrenamiento, validación y prueba.

Eliminación masiva

Eliminar varias imágenes a la vez:

  1. Seleccionar imágenes en la vista de tabla
  2. Haga clic con el botón derecho y seleccione Delete
  3. Confirma la eliminación

URI del Conjunto de Datos

Referencie los conjuntos de datos de la plataforma utilizando el ul:// Formato URI (véase Uso de Conjuntos de Datos de la Plataforma):

ul://username/datasets/dataset-slug

Utilice esta URI para entrenar modelos desde cualquier lugar:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Entrene en cualquier lugar con datos de la plataforma

El ul:// La URI funciona desde cualquier entorno:

  • Máquina local: Entrene en su hardware, los datos se descargan automáticamente
  • Google Colab: Acceda a sus conjuntos de datos de la plataforma en cuadernos
  • Servidores remotos: Entrene en máquinas virtuales en la nube con acceso completo al conjunto de datos

Licencias disponibles

La Plataforma admite las siguientes licencias para conjuntos de datos:

LicenciaTipo
NingunoNo se ha seleccionado ninguna licencia.
CC0-1.0Dominio público
CC-BY-2.5Permisivo
CC-BY-4.0Permisivo
CC-BY-SA-4.0Copyleft
CC-BY-NC-4.0No comercial
CC-BY-NC-SA-4.0Copyleft
CC-BY-ND-4.0Sin derivados
CC-BY-NC-ND-4.0No comercial
Apache 2.0Permisivo
MITPermisivo
AGPL-3.0Copyleft
GPL-3.0Copyleft
Solo para investigaciónRestringido
OtrosPersonalizado

Licencias Copyleft

Al clonar un conjunto de datos con una licencia copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), el clon hereda la licencia y el selector de licencia se bloquea.

Configuración de Visibilidad

Controla quién puede ver tu conjunto de datos:

ConfiguraciónDescripción
PrivadoSolo tú puedes acceder
PúblicoCualquiera puede visualizarlo en la página Explorar

La visibilidad se establece al crear un conjunto de datos en el New Dataset diálogo utilizando un interruptor de palanca. Los conjuntos de datos públicos son visibles en el Explorar página.

Editar Dataset

Los metadatos del conjunto de datos se editan directamente en la página del conjunto de datos, sin necesidad de dialogar:

  • Nombre: Haga clic en el nombre del conjunto de datos para editarlo. Los cambios se guardan automáticamente al salir del campo. Enter.
  • Descripción: Haga clic en la descripción (o en el marcador de posición «Añadir una descripción...») para editarla. Los cambios se guardan automáticamente.
  • Tipo de tarea: Haga clic en la insignia de la tarea para seleccionar un tipo de tarea diferente.
  • Licencia: Haga clic en el selector de licencia para cambiar la licencia del conjunto de datos.

Cambiar el tipo de tarea

Cambiar el tipo de tarea puede afectar a la forma en que se visualizan las anotaciones existentes. Las anotaciones incompatibles no se mostrarán.

Clonar Conjunto de Datos

Al visualizar un conjunto de datos público que no es de su propiedad, haga clic en Clone Dataset para crear una copia en tu espacio de trabajo. La copia incluye todas las imágenes, anotaciones y definiciones de clases. Si el conjunto de datos original tiene una licencia copyleft, la copia la hereda y el selector de licencia queda bloqueado.

Estrella y compartir

  • Estrella: Haga clic en el botón con la estrella para marcar un conjunto de datos como favorito. El número de estrellas es visible para todos los usuarios.
  • Compartir: Para conjuntos de datos públicos, haga clic en el botón «Compartir» para copiar un enlace o compartirlo en redes sociales.

Eliminar conjunto de datos

Elimina un conjunto de datos que ya no necesites:

  1. Abre el menú de acciones del conjunto de datos
  2. Haga clic Delete
  3. Confirma en el cuadro de diálogo: «Esto moverá [nombre] a la papelera. Puedes restaurarlo en un plazo de 30 días».

Papelera y Restaurar

Los conjuntos de datos eliminados se mueven a la Papelera, no se eliminan de forma permanente. Puede restaurarlos en un plazo de 30 días a partir de Settings > Trash.

Entrenar con el Conjunto de Datos

Inicia el entrenamiento directamente desde tu conjunto de datos:

  1. Haga clic New Model en la página del conjunto de datos
  2. Selecciona un proyecto o crea uno nuevo
  3. Configura los parámetros de entrenamiento
  4. Inicia el entrenamiento
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Consulta Entrenamiento en la Nube para más detalles.

Preguntas frecuentes

¿Qué sucede con mis datos después de la carga?

Sus datos se procesan y almacenan en la región seleccionada (EE. UU., UE o AP). Las imágenes son:

  1. Validado en cuanto a formato y tamaño
  2. Rechazado si la dimensión mínima es inferior a 28 píxeles.
  3. Normalizado si es mayor que 4096 píxeles (conservando la relación de aspecto; codificado para un almacenamiento optimizado).
  4. Almacenado utilizando almacenamiento direccionable por contenido (CAS) con hash XXH3-128.
  5. Miniaturas generadas a 256 píxeles en formato WebP para una navegación rápida.

¿Cómo funciona el almacenamiento?

La Plataforma Ultralytics utiliza Almacenamiento Direccionable por Contenido (CAS) para un almacenamiento eficiente:

  • Deduplicación: Las imágenes idénticas subidas por diferentes usuarios se almacenan solo una vez
  • Integridad: el hash XXH3-128 garantiza la integridad de los datos.
  • Eficiencia: Reduce los costos de almacenamiento y acelera el procesamiento
  • Regional: Los datos permanecen en la región seleccionada (EE. UU., UE o AP)

¿Puedo añadir imágenes a un conjunto de datos existente?

Sí, arrastre y suelte los archivos en la página del conjunto de datos o utilice el botón de carga para añadir imágenes adicionales. Las nuevas estadísticas se calcularán automáticamente.

¿Cómo puedo mover imágenes entre divisiones?

Utilice la función de mover y dividir en bloque:

  1. Seleccionar imágenes en la vista de tabla
  2. Haga clic con el botón derecho y seleccione Move to split
  3. Selecciona la división objetivo (Entrenamiento, Validación o Prueba).

¿Qué formatos de etiquetas son compatibles?

Ultralytics admite dos formatos de anotación para la carga:

Uno .txt archivo por imagen con coordenadas normalizadas (rango 0-1):

TareaFormatoEjemplo
Detectarclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentarclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Poseclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
ClasificarEstructura del directoriotrain/cats/, train/dogs/

Indicadores de visibilidad de la pose: 0 = sin etiquetar, 1 = etiquetada pero oculta, 2 = etiquetada y visible.

Archivos JSON con images, annotations, y categories matrices. Admite la detección (bbox), segmentación (polígono) y pose (keypoints). COCO coordenadas de píxeles absolutas que se convierten automáticamente a formato normalizado durante la carga.



📅 Creado hace 1 mes ✏️ Actualizado hace 5 días
glenn-jochersergiuwaxmannLaughing-q

Comentarios