mindformers.models.vit.ViTProcessor¶

class mindformers.models.vit.ViTProcessor(image_processor=None, return_tensors='ms')[源代码]¶: Vit processor, consists of a feature extractor (BaseFeatureEXtractor) for image input, and a tokenizer (BaseTokenizer) for text input.