从ChatGPT到Claude、Gemini,再到国内的通义千问、DeepSeek等,近年来,大语言模型的发展速度超乎想象,在多语种的翻译任务中已达到接近人类译者的水平,极大提升了译文的语言自然度、术语一致性与语篇连贯性等,正在深刻改变翻译行业、教育方式与研究范式。
从翻译学和语言学的角度来看,大语言模型在翻译任务中依然存在一些问题,例如大语言模型无法理解复杂语言结构和深层语义,专业领域知识薄弱,汉语理解与生成问题突出等,因此,我们迫切需要构建一个系统化、可解释的评测机制,以评估大模型在多语翻译任务中的真实能力,进一步促进大语言模型翻译能力的提升。
基于北二外多年的外语学科与教学积淀、结合前期翻译评测研究成果,学校集中英语、日语、俄语、法语、阿拉伯语五个语种师生力量,面向ChatGPT、Claude、Gemini、Grok、DeepSeek和通义千问六个国内外语言大模型,从当代文学、党政文献和外事新闻三个领域开展翻译质量评测研究。