vit_pytorch/extractor.py

import torch
from torch import nn

def exists(val):
    return val is not None

def identity(t):
    return t

def clone_and_detach(t):
    return t.clone().detach()

def apply_tuple_or_single(fn, val):
    if isinstance(val, tuple):
        return tuple(map(fn, val))
    return fn(val)

class Extractor(nn.Module):
    def __init__(
        self,
        vit,
        device = None,
        layer = None,
        layer_name = 'transformer',
        layer_save_input = False,
        return_embeddings_only = False,
        detach = True
    ):
        super().__init__()
        self.vit = vit

        self.data = None
        self.latents = None
        self.hooks = []
        self.hook_registered = False
        self.ejected = False
        self.device = device

        self.layer = layer
        self.layer_name = layer_name
        self.layer_save_input = layer_save_input # whether to save input or output of layer
        self.return_embeddings_only = return_embeddings_only

        self.detach_fn = clone_and_detach if detach else identity

    def _hook(self, _, inputs, output):
        layer_output = inputs if self.layer_save_input else output
        self.latents = apply_tuple_or_single(self.detach_fn, layer_output)

    def _register_hook(self):
        if not exists(self.layer):
            assert hasattr(self.vit, self.layer_name), 'layer whose output to take as embedding not found in vision transformer'
            layer = getattr(self.vit, self.layer_name)
        else:
            layer = self.layer

        handle = layer.register_forward_hook(self._hook)
        self.hooks.append(handle)
        self.hook_registered = True

    def eject(self):
        self.ejected = True
        for hook in self.hooks:
            hook.remove()
        self.hooks.clear()
        return self.vit

    def clear(self):
        del self.latents
        self.latents = None

    def forward(
        self,
        img,
        return_embeddings_only = False
    ):
        assert not self.ejected, 'extractor has been ejected, cannot be used anymore'
        self.clear()
        if not self.hook_registered:
            self._register_hook()

        pred = self.vit(img)

        target_device = self.device if exists(self.device) else img.device
        latents = apply_tuple_or_single(lambda t: t.to(target_device), self.latents)

        if return_embeddings_only or self.return_embeddings_only:
            return latents

        return pred, latents
add extractor wrapper 2021-12-21 11:11:39 -08:00			`import torch`
			`from torch import nn`

			`def exists(val):`
			`return val is not None`

offer way for extractor to return latents without detaching them 2022-07-16 16:22:40 -07:00			`def identity(t):`
			`return t`

			`def clone_and_detach(t):`
			`return t.clone().detach()`

make extractor flexible for layers that output multiple tensors, show CrossViT example 2022-06-19 08:11:41 -07:00			`def apply_tuple_or_single(fn, val):`
			`if isinstance(val, tuple):`
			`return tuple(map(fn, val))`
			`return fn(val)`

add extractor wrapper 2021-12-21 11:11:39 -08:00			`class Extractor(nn.Module):`
allow extractor to only return embeddings, to ready for vision transformers to be used in x-clip 2021-12-25 12:31:21 -08:00			`def __init__(`
			`self,`
			`vit,`
			`device = None,`
be able to accept a reference to a layer within the model for forward hooking and extracting the embedding output, for regionvit to work with extractor 2022-06-19 08:22:18 -07:00			`layer = None,`
allow extractor to only return embeddings, to ready for vision transformers to be used in x-clip 2021-12-25 12:31:21 -08:00			`layer_name = 'transformer',`
add ViT for small datasets https://arxiv.org/abs/2112.13492 2021-12-28 10:58:21 -08:00			`layer_save_input = False,`
offer way for extractor to return latents without detaching them 2022-07-16 16:22:40 -07:00			`return_embeddings_only = False,`
			`detach = True`
allow extractor to only return embeddings, to ready for vision transformers to be used in x-clip 2021-12-25 12:31:21 -08:00			`):`
add extractor wrapper 2021-12-21 11:11:39 -08:00			`super().__init__()`
			`self.vit = vit`

			`self.data = None`
			`self.latents = None`
			`self.hooks = []`
			`self.hook_registered = False`
			`self.ejected = False`
			`self.device = device`

be able to accept a reference to a layer within the model for forward hooking and extracting the embedding output, for regionvit to work with extractor 2022-06-19 08:22:18 -07:00			`self.layer = layer`
allow extractor to only return embeddings, to ready for vision transformers to be used in x-clip 2021-12-25 12:31:21 -08:00			`self.layer_name = layer_name`
add ViT for small datasets https://arxiv.org/abs/2112.13492 2021-12-28 10:58:21 -08:00			`self.layer_save_input = layer_save_input # whether to save input or output of layer`
allow extractor to only return embeddings, to ready for vision transformers to be used in x-clip 2021-12-25 12:31:21 -08:00			`self.return_embeddings_only = return_embeddings_only`

offer way for extractor to return latents without detaching them 2022-07-16 16:22:40 -07:00			`self.detach_fn = clone_and_detach if detach else identity`

add ViT for small datasets https://arxiv.org/abs/2112.13492 2021-12-28 10:58:21 -08:00			`def _hook(self, _, inputs, output):`
make extractor flexible for layers that output multiple tensors, show CrossViT example 2022-06-19 08:11:41 -07:00			`layer_output = inputs if self.layer_save_input else output`
offer way for extractor to return latents without detaching them 2022-07-16 16:22:40 -07:00			`self.latents = apply_tuple_or_single(self.detach_fn, layer_output)`
add extractor wrapper 2021-12-21 11:11:39 -08:00
			`def _register_hook(self):`
be able to accept a reference to a layer within the model for forward hooking and extracting the embedding output, for regionvit to work with extractor 2022-06-19 08:22:18 -07:00			`if not exists(self.layer):`
			`assert hasattr(self.vit, self.layer_name), 'layer whose output to take as embedding not found in vision transformer'`
			`layer = getattr(self.vit, self.layer_name)`
			`else:`
			`layer = self.layer`

allow extractor to only return embeddings, to ready for vision transformers to be used in x-clip 2021-12-25 12:31:21 -08:00			`handle = layer.register_forward_hook(self._hook)`
add extractor wrapper 2021-12-21 11:11:39 -08:00			`self.hooks.append(handle)`
			`self.hook_registered = True`

			`def eject(self):`
			`self.ejected = True`
			`for hook in self.hooks:`
			`hook.remove()`
			`self.hooks.clear()`
			`return self.vit`

			`def clear(self):`
			`del self.latents`
			`self.latents = None`

allow extractor to only return embeddings, to ready for vision transformers to be used in x-clip 2021-12-25 12:31:21 -08:00			`def forward(`
			`self,`
			`img,`
			`return_embeddings_only = False`
			`):`
add extractor wrapper 2021-12-21 11:11:39 -08:00			`assert not self.ejected, 'extractor has been ejected, cannot be used anymore'`
			`self.clear()`
			`if not self.hook_registered:`
			`self._register_hook()`

			`pred = self.vit(img)`

			`target_device = self.device if exists(self.device) else img.device`
make extractor flexible for layers that output multiple tensors, show CrossViT example 2022-06-19 08:11:41 -07:00			`latents = apply_tuple_or_single(lambda t: t.to(target_device), self.latents)`
allow extractor to only return embeddings, to ready for vision transformers to be used in x-clip 2021-12-25 12:31:21 -08:00
			`if return_embeddings_only or self.return_embeddings_only:`
			`return latents`

add extractor wrapper 2021-12-21 11:11:39 -08:00			`return pred, latents`