塔吉克语轻量级基础模型Soro发布
「研究团队推出Soro,一款面向塔吉克语的轻量级对话大模型,通过持续预训练和指令微调,在资源受限环境下显著提升塔吉克语性能。」
在人工智能领域,语言模型的本地化适配一直是推动技术普惠的关键方向。近日,一个研究团队发布了名为Soro的塔吉克语专用对话大语言模型家族,旨在解决塔吉克斯坦在计算资源和网络连接受限条件下的实际部署需求。该研究论文已提交至arXiv预印本平台,详细阐述了模型的设计思路、训练过程及评估结果。
Soro模型基于开源权重Gemma 3检查点进行开发。研究人员首先构建了一个包含19亿个token的塔吉克语语料库,该语料库经过精心筛选,涵盖过滤后的网页文本、PDF文档以及符合课程标准的教学材料。在此基础上,他们对Gemma 3模型进行了塔吉克语专属的持续预训练,使得模型能够更深入地理解塔吉克语的语法结构、语义特征和文化背景。随后,团队利用4万个塔吉克语教师风格示例进行了监督指令微调,进一步增强了模型在对话场景中的表现能力。
为了全面评估Soro的性能,研究团队面临一个挑战:塔吉克语在标准基准测试中的覆盖范围有限。为此,他们专门引入了一套塔吉克语基准测试集,涵盖通用知识、语言能力以及中小学和大学入学考试领域。这套基准测试集已在Hugging Face平台开源,为后续的塔吉克语自然语言处理研究提供了重要的评估工具。测试结果显示,在塔吉克语基准上,Soro显著优于同等规模的Gemma 3基线模型,同时在标准数据集上仍能保持较强的英语性能,体现了其在多语言能力上的平衡。
轻量化和边缘部署是Soro的另一大亮点。研究团队进一步验证了FP8和INT4量化技术对模型的影响。实验表明,量化后的Soro在保留大部分塔吉克语性能提升的同时,大幅降低了内存需求,使其更适合在边缘设备上运行。这一特性对于塔吉克斯坦的教育领域试点项目尤为重要——该项目正在学校中推广Soro,并计划逐步扩大部署范围。通过降低对高性能硬件的依赖,Soro有望为网络基础设施薄弱地区的教育信息化提供有力支持。
Soro的发布不仅填补了塔吉克语大语言模型的空白,也为其他低资源语言的模型适配提供了可借鉴的路径。其开源的数据集和模型权重,将进一步推动全球AI社区对低资源语言的关注与研究。随着教育领域试点的推进,Soro的实际应用效果值得持续关注。
来源:Heooo AI工具导航