欢迎光临散文网 会员登陆 & 注册

王卓然AI 大模型全栈工程师培养计划

2023-08-16 21:01 作者:每天2个拼课技巧  | 我要投稿

一是中文友好的代码生成。目前诸多大模型的预训练语料数据都是以英文为主,中文语料占比仅为 3% 至 5%。在 IDE 中采用对话式交互时,中文的表现要远远逊色于英文。如何在语料有限的情况下,在保障模型性能的条件下,增强中文语义的理解能力,满足利用中文 / 英文描述同等的代码生成能力,是当前一大关注点。

二是 Prompt 优化与交互式 Input 改进。大模型一大特性就是,在交互时描述越精准, Prompt 写得越好,生成的内容质量就越好。如何在用户意图表达不那么明确的情况下,也能判断用户输入的任务描述完整性和合理性,并通过交互明确意图,提高代码生成准确率很是关键。

三是集成学习探索。当前大模型动辄就是百亿级、千亿级、万亿级参数,要把如此大规模的数据 “吃下去”,推断成本非常高。因此,能否结合预训练模型,在满足推断准确率的情况下,利用参数量更小的模型达到更大规模模型的推断效果,达到提升推断效率的目的呢?

四是体验评估与优化。构建客观且贴近真实工程的评估指标 / 手段,能够更好地帮助行业良性发展。

五是模型在线学习。用户的数据反馈对于模型能力的提升非常有帮助。在保护用户隐私的前提下,基于用户的显式和隐式反馈对在线的大模型进行微调,实现在线模型实时更新,都是业内要探讨的问题。

六是低成本 SFT。如何实现各种研发场景的训练 / 验证数据集快速低成本建设,以及模型的训练及自动验证部署也很关键。

七是后处理。后处理对于提升模型在实际应用场景的效果非常关键。根据项目上下文,检查和修复所生成代码的编译运行错误;结合单元测试,修复生成程序中的逻辑性错误。虽然解决的都是小问题、小错误,但是能让整个代码的生成质量更上一层楼。尤其是未来,将会有更多大模型将同步生成代码和生成测试,两两匹配,在闭环中提升代码整体质量。在这种情况下,后处理对于大模型整体能力的提升非常有帮助。


王卓然AI 大模型全栈工程师培养计划的评论 (共 条)

分享到微博请遵守国家法律