开始
安装
设计
快速入门
特性使用指南
调试调优
最佳实践
API
模型&任务
FAQ
Vit processor, consists of a feature extractor (BaseFeatureEXtractor) for image input, and a tokenizer (BaseTokenizer) for text input.