大小与训练要求极低:该模型只有约 2700 万参数,并且仅用 1000 条样本进行训练,无预训练、无 chain-of-th