1. 引言与背景 在近两年,大语言模型领域的更新迭代速度令人瞩目,从各种 GPT 系列、Claude 系列到开源的 LLaMa、Qwen 以及 DeepSeek 系列等纷纷崭露头角。一个核心趋势在于: 当我们需要让模型不仅“通晓”各类文本信息,而且能做多步逻辑推理、数学推导、编程验证时,传统的纯文本/对话式训练往往不足以覆盖深层次的推理能力; 于是…
近年来,伴随大语言模型(LLM)的进步,“RAG”(Retrieval-Augmented Generation,检索增强生成)成为了热门技术路径。传统 RAG 通过检索外部文本作为上下文来辅助模型生成答案,大大缓解了大型模型在线回答问题时的“幻觉”问题。然而,如何在海量信息中高效而精准地检索并组织知识,始终是一个亟待解决的难点。本文将围绕以下问题…
在自然语言处理领域,大型语言模型(LLM)的出现为各类任务带来了显著的性能提升。然而,在实际应用中,我们常常面临训练数据有限的情况。本文将详细介绍如何在少量样本下,对LLM进行监督微调(SFT),以获得理想的效果。 一、背景介绍 在许多实际场景中,获取大量的高质量标注数据成本高昂,甚至难以实现。当我们只有1000条左右的标注数据时,如何利用这些数据…
在大规模深度学习模型的训练过程中,资源的高效利用和训练效率的提升至关重要。DeepSpeed 作为一个开源的深度学习优化库,为训练和推理提供了一系列强大的优化技术。其中,Stage 2 和 Stage 3 是 DeepSpeed 的两个重要优化阶段。本文将详细探讨这两种优化阶段在性能表现、训练速度、显存占用以及对模型性能的影响等方面的区别,帮助您在…
在深度学习的世界中,微调(Fine-tuning)预训练模型已成为提升模型性能的关键步骤。尤其是在大规模语言模型的微调过程中,合理的参数配置和优化策略直接影响到训练效率和模型效果。本文将详细介绍在微调过程中常见的优化方法,帮助您有效提升收敛速度,同时确保模型具备良好的泛化能力。 目录 序列长度(--cutoff_len)的影响 梯度累计(Gradi…