分类: 大语言模型

5 篇文章

thumbnail
DeepSeek R1 深度剖析:从 MoE 架构、原生 CoT,到大规模强化学习与蒸馏
1. 引言与背景 在近两年,大语言模型领域的更新迭代速度令人瞩目,从各种 GPT 系列、Claude 系列到开源的 LLaMa、Qwen 以及 DeepSeek 系列等纷纷崭露头角。一个核心趋势在于: 当我们需要让模型不仅“通晓”各类文本信息,而且能做多步逻辑推理、数学推导、编程验证时,传统的纯文本/对话式训练往往不足以覆盖深层次的推理能力; 于是…
thumbnail
RAG × 知识图谱:从文本检索到结构化知识的演进
近年来,伴随大语言模型(LLM)的进步,“RAG”(Retrieval-Augmented Generation,检索增强生成)成为了热门技术路径。传统 RAG 通过检索外部文本作为上下文来辅助模型生成答案,大大缓解了大型模型在线回答问题时的“幻觉”问题。然而,如何在海量信息中高效而精准地检索并组织知识,始终是一个亟待解决的难点。本文将围绕以下问题…
thumbnail
基于少量样本微调大型语言模型的实践指南
在自然语言处理领域,大型语言模型(LLM)的出现为各类任务带来了显著的性能提升。然而,在实际应用中,我们常常面临训练数据有限的情况。本文将详细介绍如何在少量样本下,对LLM进行监督微调(SFT),以获得理想的效果。 一、背景介绍 在许多实际场景中,获取大量的高质量标注数据成本高昂,甚至难以实现。当我们只有1000条左右的标注数据时,如何利用这些数据…
thumbnail
深入理解 DeepSpeed 的 Stage 2 和 Stage 3 优化:性能、速度、显存及模型表现的全面比较
在大规模深度学习模型的训练过程中,资源的高效利用和训练效率的提升至关重要。DeepSpeed 作为一个开源的深度学习优化库,为训练和推理提供了一系列强大的优化技术。其中,Stage 2 和 Stage 3 是 DeepSpeed 的两个重要优化阶段。本文将详细探讨这两种优化阶段在性能表现、训练速度、显存占用以及对模型性能的影响等方面的区别,帮助您在…
thumbnail
微调大模型的优化指南:提升收敛速度与模型泛化能力
在深度学习的世界中,微调(Fine-tuning)预训练模型已成为提升模型性能的关键步骤。尤其是在大规模语言模型的微调过程中,合理的参数配置和优化策略直接影响到训练效率和模型效果。本文将详细介绍在微调过程中常见的优化方法,帮助您有效提升收敛速度,同时确保模型具备良好的泛化能力。 目录 序列长度(--cutoff_len)的影响 梯度累计(Gradi…