近日,山东大学计算机学院体系结构与嵌入式系统研究中心提交的研究论文ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation被国际软件工程测试与分析领域顶级会议ACM SIGSOFT International Symposium on Software Testing and Analysis(ISSTA 2025)正式录用。山东大学计算机科学与技术学院本科生薛鹏宇、吴林昊为论文第一作者,山东大学助理教授杨振为通讯作者。该论文的第一作者及通讯作者单位均为山东大学,该论文亦是山东大学在ISSTA会议上的首篇录用论文。
论文针对当前主流大模型代码翻译研究普遍停留在函数级、片段级别、难以反映真实软件开发任务的局限,首次提出了面向类级别的代码翻译评测集ClassEval-T。该评测集在构建过程中共投入360人时,支持Python、Java、C++三种主流语言和94项实际开发任务,并配备完备的高覆盖率测试用例(语句覆盖率达99.7%,分支覆盖率达98.2%)。在此基础上,论文进一步设计了三种具备工程实践意义的翻译策略(整体式、最小依赖式、独立式),系统评估了八个当前主流大模型(涵盖GPT 4o、Claude 3.5、DeepSeek V3等)在类级翻译中的表现差异,并对1243个失败样本进行了人工错误分类与机制分析。
实验结果显示,大模型在类级代码翻译中普遍面临准确率大幅下降、依赖项识别困难、语法/语义错误频发等挑战。相关研究不仅揭示了现有大模型在实用软件迁移中的瓶颈,也为后续模型设计与评测基准建设提供了新的视角与方法。
研究不仅填补了当前类级别代码翻译评测标准缺失的空白,也为推动代码翻译研究向工程化、仓库级任务演进提供了理论支撑与实验基础,具有重要的学术价值和工程实践意义。目前项目代码已开源(https://github.com/wLinHoo/ClassEval-T),为该领域的研究和实践提供助力。
ACM SIGSOFT International Symposium on Software Testing and Analysis是软件工程测试与分析领域最具影响力的国际会议,为中国计算机学会(CCF)推荐的软件工程四大A类会议之一。该会议关注自动测试、程序分析、软件质量保障等关键技术,本届ISSTA共收到550篇高水平投稿,最终录用107篇,录用率仅为19.4%。会议将于2025年6月在挪威特隆赫姆举行。