Reference for `ultralytics/models/sam/modules/tiny_encoder.py`

Improvements

This page is sourced from https://github.com/ultralytics/ultralytics/blob/main/ultralytics/models/sam/modules/tiny_encoder.py. Have an improvement or example to add? Open a Pull Request — thank you! 🙏

Summary

class `ultralytics.models.sam.modules.tiny_encoder.Conv2d_BN`

def __init__(
    self,
    a: int,
    b: int,
    ks: int = 1,
    stride: int = 1,
    pad: int = 0,
    dilation: int = 1,
    groups: int = 1,
    bn_weight_init: float = 1,
)

Bases: torch.nn.Sequential

A sequential container that performs 2D convolution followed by batch normalization.

This module combines a 2D convolution layer with batch normalization, providing a common building block for convolutional neural networks. The batch normalization weights and biases are initialized to specific values for optimal training performance.

Args

Name	Type	Description	Default
`a`	`int`	Number of input channels.	required
`b`	`int`	Number of output channels.	required
`ks`	`int, optional`	Kernel size for the convolution.	`1`
`stride`	`int, optional`	Stride for the convolution.	`1`
`pad`	`int, optional`	Padding for the convolution.	`0`
`dilation`	`int, optional`	Dilation factor for the convolution.	`1`
`groups`	`int, optional`	Number of groups for the convolution.	`1`
`bn_weight_init`	`float, optional`	Initial value for batch normalization weight.	`1`

Attributes

Name	Type	Description
`c`	`torch.nn.Conv2d`	2D convolution layer.
`bn`	`torch.nn.BatchNorm2d`	Batch normalization layer.

Examples

>>> conv_bn = Conv2d_BN(3, 64, ks=3, stride=1, pad=1)
>>> input_tensor = torch.randn(1, 3, 224, 224)
>>> output = conv_bn(input_tensor)
>>> print(output.shape)
torch.Size([1, 64, 224, 224])

Source code in ultralytics/models/sam/modules/tiny_encoder.py

Name	Type	Description	Default
`in_chans`	`int`	Number of input channels.	required
`embed_dim`	`int`	Dimension of the embedding.	required
`resolution`	`int`	Input image resolution.	required
`activation`	`nn.Module`	Activation function to use between convolutions.	required

Name	Type	Description
`patches_resolution`	`tuple[int, int]`	Resolution of the patches after embedding.
`num_patches`	`int`	Total number of patches.
`in_chans`	`int`	Number of input channels.
`embed_dim`	`int`	Dimension of the embedding.
`seq`	`nn.Sequential`	Sequence of convolutional and activation layers for patch embedding.

Name	Type	Description	Default
`input_resolution`	`tuple[int, int]`	The input resolution (height, width) of the feature map.	required
`dim`	`int`	The input dimension of the feature map.	required
`out_dim`	`int`	The output dimension after merging and projection.	required
`activation`	`nn.Module`	The activation function used between convolutions.	required

Name	Type	Description	Default
`dim`	`int`	The dimensionality of the input and output.	required
`input_resolution`	`tuple[int, int]`	The resolution of the input image.	required
`depth`	`int`	The number of MBConv layers in the block.	required
`activation`	`nn.Module`	Activation function applied after each convolution.	required
`drop_path`	`float \| list[float], optional`	Drop path rate. Single float or a list of floats for each MBConv.	`0.0`
`downsample`	`Optional[nn.Module], optional`	Function for downsampling the output. None to skip downsampling.	`None`
`use_checkpoint`	`bool, optional`	Whether to use gradient checkpointing to save memory.	`False`
`out_dim`	`Optional[int], optional`	Output dimensions. None means it will be the same as `dim`.	`None`
`conv_expand_ratio`	`float, optional`	Expansion ratio for the MBConv layers.	`4.0`

Name	Type	Description
`dim`	`int`	Dimensionality of the input and output.
`input_resolution`	`tuple[int, int]`	Resolution of the input image.
`depth`	`int`	Number of MBConv layers in the block.
`use_checkpoint`	`bool`	Whether to use gradient checkpointing to save memory.
`blocks`	`nn.ModuleList`	List of MBConv layers.
`downsample`	`Optional[nn.Module]`	Function for downsampling the output.

Name	Type	Description	Default
`in_features`	`int`	Number of input features.	required
`hidden_features`	`Optional[int], optional`	Number of hidden features.	`None`
`out_features`	`Optional[int], optional`	Number of output features.	`None`
`activation`	`nn.Module`	Activation function applied after the first fully-connected layer.	`nn.GELU`
`drop`	`float, optional`	Dropout probability.	`0.0`

Name	Type	Description
`norm`	`nn.LayerNorm`	Layer normalization applied to the input.
`fc1`	`nn.Linear`	First fully-connected layer.
`fc2`	`nn.Linear`	Second fully-connected layer.
`act`	`nn.Module`	Activation function applied after the first fully-connected layer.
`drop`	`nn.Dropout`	Dropout layer applied after the activation function.

Name	Type	Description
`num_heads`	`int`	Number of attention heads.
`scale`	`float`	Scaling factor for attention scores.
`key_dim`	`int`	Dimensionality of the keys and queries.
`nh_kd`	`int`	Product of num_heads and key_dim.
`d`	`int`	Dimensionality of the value vectors.
`dh`	`int`	Product of d and num_heads.
`attn_ratio`	`float`	Attention ratio affecting the dimensions of the value vectors.
`norm`	`nn.LayerNorm`	Layer normalization applied to input.
`qkv`	`nn.Linear`	Linear layer for computing query, key, and value projections.
`proj`	`nn.Linear`	Linear layer for final projection.
`attention_biases`	`nn.Parameter`	Learnable attention biases.
`attention_bias_idxs`	`torch.Tensor`	Indices for attention biases.
`ab`	`torch.Tensor`	Cached attention biases for inference, deleted during training.

Name	Description
`forward`	Apply multi-head attention with spatial awareness and trainable attention biases.
`train`	Set the module in training mode and handle the 'ab' attribute for cached attention biases.

Name	Type	Description	Default
`dim`	`int`	Dimensionality of the input and output features.	required
`input_resolution`	`tuple[int, int]`	Spatial resolution of the input feature map (height, width).	required
`num_heads`	`int`	Number of attention heads.	required
`window_size`	`int, optional`	Size of the attention window. Must be greater than 0.	`7`
`mlp_ratio`	`float, optional`	Ratio of MLP hidden dimension to embedding dimension.	`4.0`
`drop`	`float, optional`	Dropout rate.	`0.0`
`drop_path`	`float, optional`	Stochastic depth rate.	`0.0`
`local_conv_size`	`int, optional`	Kernel size of the local convolution.	`3`
`activation`	`nn.Module`	Activation function for MLP.	`nn.GELU`

Name	Description
`extra_repr`	Return a string representation of the TinyViTBlock's parameters.
`forward`	Apply self-attention, local convolution, and MLP operations to the input tensor.

Name	Description
`extra_repr`	Return a string with the layer's parameters for printing.
`forward`	Process input through TinyViT blocks and optional downsampling.

Name	Description
`_init_weights`	Initialize weights for linear and normalization layers in the TinyViT model.
`forward`	Perform the forward pass through the TinyViT model, extracting features from the input image.
`forward_features`	Process input through feature extraction layers, returning spatial features.
`no_weight_decay_keywords`	Return a set of keywords for parameters that should not use weight decay.
`set_imgsz`	Set image size to make model compatible with different image sizes.
`set_layer_lr_decay`	Set layer-wise learning rate decay for the TinyViT model based on depth.

Name	Type	Description	Default
`img_size`	`int, optional`	Size of the input image.	`224`
`in_chans`	`int, optional`	Number of input channels.	`3`
`num_classes`	`int, optional`	Number of classes for classification.	`1000`
`embed_dims`	`tuple[int, int, int, int], optional`	Embedding dimensions for each stage.	`(96, 192, 384, 768)`
`depths`	`tuple[int, int, int, int], optional`	Number of blocks in each stage.	`(2, 2, 6, 2)`
`num_heads`	`tuple[int, int, int, int], optional`	Number of attention heads in each stage.	`(3, 6, 12, 24)`
`window_sizes`	`tuple[int, int, int, int], optional`	Window sizes for each stage.	`(7, 7, 14, 7)`
`mlp_ratio`	`float, optional`	Ratio of MLP hidden dim to embedding dim.	`4.0`
`drop_rate`	`float, optional`	Dropout rate.	`0.0`
`drop_path_rate`	`float, optional`	Stochastic depth rate.	`0.1`
`use_checkpoint`	`bool, optional`	Whether to use checkpointing to save memory.	`False`
`mbconv_expand_ratio`	`float, optional`	Expansion ratio for MBConv layer.	`4.0`
`local_conv_size`	`int, optional`	Kernel size for local convolutions.	`3`
`layer_lr_decay`	`float, optional`	Layer-wise learning rate decay factor.	`1.0`

Name	Type	Description
`img_size`	`int`	Input image size.
`num_classes`	`int`	Number of classification classes.
`depths`	`tuple[int, int, int, int]`	Number of blocks in each stage.
`num_layers`	`int`	Total number of layers in the network.
`mlp_ratio`	`float`	Ratio of MLP hidden dimension to embedding dimension.
`patch_embed`	`PatchEmbed`	Module for patch embedding.
`patches_resolution`	`tuple[int, int]`	Resolution of embedded patches.
`layers`	`nn.ModuleList`	List of network layers.
`norm_head`	`nn.LayerNorm`	Layer normalization for the classifier head.
`head`	`nn.Linear`	Linear layer for final classification.
`neck`	`nn.Sequential`	Neck module for feature refinement.

Reference for ultralytics/models/sam/modules/tiny_encoder.py

class ultralytics.models.sam.modules.tiny_encoder.Conv2d_BN

class ultralytics.models.sam.modules.tiny_encoder.PatchEmbed

method ultralytics.models.sam.modules.tiny_encoder.PatchEmbed.forward

class ultralytics.models.sam.modules.tiny_encoder.MBConv

method ultralytics.models.sam.modules.tiny_encoder.MBConv.forward

class ultralytics.models.sam.modules.tiny_encoder.PatchMerging

method ultralytics.models.sam.modules.tiny_encoder.PatchMerging.forward

class ultralytics.models.sam.modules.tiny_encoder.ConvLayer

method ultralytics.models.sam.modules.tiny_encoder.ConvLayer.forward

class ultralytics.models.sam.modules.tiny_encoder.MLP

method ultralytics.models.sam.modules.tiny_encoder.MLP.forward

class ultralytics.models.sam.modules.tiny_encoder.Attention

method ultralytics.models.sam.modules.tiny_encoder.Attention.forward

method ultralytics.models.sam.modules.tiny_encoder.Attention.train

class ultralytics.models.sam.modules.tiny_encoder.TinyViTBlock

method ultralytics.models.sam.modules.tiny_encoder.TinyViTBlock.extra_repr

method ultralytics.models.sam.modules.tiny_encoder.TinyViTBlock.forward

class ultralytics.models.sam.modules.tiny_encoder.BasicLayer

method ultralytics.models.sam.modules.tiny_encoder.BasicLayer.extra_repr

method ultralytics.models.sam.modules.tiny_encoder.BasicLayer.forward

class ultralytics.models.sam.modules.tiny_encoder.TinyViT

method ultralytics.models.sam.modules.tiny_encoder.TinyViT._init_weights

method ultralytics.models.sam.modules.tiny_encoder.TinyViT.forward

method ultralytics.models.sam.modules.tiny_encoder.TinyViT.forward_features

method ultralytics.models.sam.modules.tiny_encoder.TinyViT.no_weight_decay_keywords

method ultralytics.models.sam.modules.tiny_encoder.TinyViT.set_imgsz

method ultralytics.models.sam.modules.tiny_encoder.TinyViT.set_layer_lr_decay

Reference for `ultralytics/models/sam/modules/tiny_encoder.py`

class `ultralytics.models.sam.modules.tiny_encoder.Conv2d_BN`

class `ultralytics.models.sam.modules.tiny_encoder.PatchEmbed`

method `ultralytics.models.sam.modules.tiny_encoder.PatchEmbed.forward`

class `ultralytics.models.sam.modules.tiny_encoder.MBConv`

method `ultralytics.models.sam.modules.tiny_encoder.MBConv.forward`

class `ultralytics.models.sam.modules.tiny_encoder.PatchMerging`

method `ultralytics.models.sam.modules.tiny_encoder.PatchMerging.forward`

class `ultralytics.models.sam.modules.tiny_encoder.ConvLayer`

method `ultralytics.models.sam.modules.tiny_encoder.ConvLayer.forward`

class `ultralytics.models.sam.modules.tiny_encoder.MLP`

method `ultralytics.models.sam.modules.tiny_encoder.MLP.forward`

class `ultralytics.models.sam.modules.tiny_encoder.Attention`

method `ultralytics.models.sam.modules.tiny_encoder.Attention.forward`

method `ultralytics.models.sam.modules.tiny_encoder.Attention.train`

class `ultralytics.models.sam.modules.tiny_encoder.TinyViTBlock`

method `ultralytics.models.sam.modules.tiny_encoder.TinyViTBlock.extra_repr`

method `ultralytics.models.sam.modules.tiny_encoder.TinyViTBlock.forward`

class `ultralytics.models.sam.modules.tiny_encoder.BasicLayer`

method `ultralytics.models.sam.modules.tiny_encoder.BasicLayer.extra_repr`

method `ultralytics.models.sam.modules.tiny_encoder.BasicLayer.forward`

class `ultralytics.models.sam.modules.tiny_encoder.TinyViT`

method `ultralytics.models.sam.modules.tiny_encoder.TinyViT._init_weights`

method `ultralytics.models.sam.modules.tiny_encoder.TinyViT.forward`

method `ultralytics.models.sam.modules.tiny_encoder.TinyViT.forward_features`

method `ultralytics.models.sam.modules.tiny_encoder.TinyViT.no_weight_decay_keywords`

method `ultralytics.models.sam.modules.tiny_encoder.TinyViT.set_imgsz`

method `ultralytics.models.sam.modules.tiny_encoder.TinyViT.set_layer_lr_decay`