mindformers.models.glm.GLMConfig¶

class mindformers.models.glm.GLMConfig(batch_size: int = 1, vocab_size: int = 130528, hidden_size: int = 4096, num_layers: int = 28, num_heads: int = 32, inner_hidden_size: int = 16384, seq_length: int = 512, embedding_dropout_prob: float = 0.0, attention_dropout_rate: float = 0.0, hidden_dropout_rate: float = 0.0, hidden_size_per_attention_head: ~typing.Optional[bool] = None, layernorm_order: str = 'post', layernorm_epsilon: float = 1e-05, use_final_layernorm: bool = True, op_parallel_config: ~mindformers.modules.transformer.op_parallel_config.OpParallelConfig = <mindformers.modules.transformer.op_parallel_config.OpParallelConfig object>, embed_parallel_config: ~mindformers.modules.transformer.transformer.EmbeddingOpParallelConfig = <mindformers.modules.transformer.transformer.EmbeddingOpParallelConfig object>, parallel_config: ~mindformers.modules.transformer.transformer.TransformerOpParallelConfig = <mindformers.modules.transformer.transformer.TransformerOpParallelConfig object>, moe_config: ~mindformers.modules.transformer.moe.MoEConfig = <mindformers.modules.transformer.moe.MoEConfig object>, use_past: bool = False, activation_func: str = 'GELU', position_encoding_2d: bool = True, param_init_type: str = 'float16', layernorm_compute_type: str = 'float32', softmax_compute_type: str = 'float32', compute_dtype: str = 'float16', bos_token_id: int = 130004, eos_token_id: int = 130005, mask_token_id: int = 130000, gmask_token_id: int = 130001, pad_token_id: int = 3, is_enhanced_encoder: bool = True, is_sample_acceleration: bool = False, checkpoint_name_or_path: str = '', max_decode_length: int = 2048, top_k: int = 1, top_p: float = 1, repetition_penalty: float = 1.0, do_sample: bool = True, ignore_index: int = -100, **kwargs)[源代码]¶: GLM config class which defines the model size