大语言模型 – ELE-yufo

DeepSeek R1 深度剖析：从 MoE 架构、原生 CoT，到大规模强化学习与蒸馏

2025-1-28 18:55

|

4,630

|

0

|

大语言模型,机器学习

5634 字

|

22 分钟

1. 引言与背景在近两年，大语言模型领域的更新迭代速度令人瞩目，从各种 GPT 系列、Claude 系列到开源的 LLaMa、Qwen 以及 DeepSeek 系列等纷纷崭露头角。一个核心趋势在于：当我们需要让模型不仅“通晓”各类文本信息，而且能做多步逻辑推理、数学推导、编程验证时，传统的纯文本/对话式训练往往不足以覆盖深层次的推理能力；于是…

RAG × 知识图谱：从文本检索到结构化知识的演进

2025-1-07 11:57

|

376

|

0

|

大语言模型,机器学习

2593 字

|

10 分钟

近年来，伴随大语言模型（LLM）的进步，“RAG”（Retrieval-Augmented Generation，检索增强生成）成为了热门技术路径。传统 RAG 通过检索外部文本作为上下文来辅助模型生成答案，大大缓解了大型模型在线回答问题时的“幻觉”问题。然而，如何在海量信息中高效而精准地检索并组织知识，始终是一个亟待解决的难点。本文将围绕以下问题…

基于少量样本微调大型语言模型的实践指南

2024-12-17 16:09

|

367

|

0

|

大语言模型,机器学习

2301 字

|

9 分钟

在自然语言处理领域，大型语言模型（LLM）的出现为各类任务带来了显著的性能提升。然而，在实际应用中，我们常常面临训练数据有限的情况。本文将详细介绍如何在少量样本下，对LLM进行监督微调（SFT），以获得理想的效果。一、背景介绍在许多实际场景中，获取大量的高质量标注数据成本高昂，甚至难以实现。当我们只有1000条左右的标注数据时，如何利用这些数据…

深入理解 DeepSpeed 的 Stage 2 和 Stage 3 优化：性能、速度、显存及模型表现的全面比较

2024-11-30 15:08

|

1,493

|

0

|

大语言模型,机器学习

3883 字

|

16 分钟

在大规模深度学习模型的训练过程中，资源的高效利用和训练效率的提升至关重要。DeepSpeed 作为一个开源的深度学习优化库，为训练和推理提供了一系列强大的优化技术。其中，Stage 2 和 Stage 3 是 DeepSpeed 的两个重要优化阶段。本文将详细探讨这两种优化阶段在性能表现、训练速度、显存占用以及对模型性能的影响等方面的区别，帮助您在…

微调大模型的优化指南：提升收敛速度与模型泛化能力

2024-11-30 14:44

|

2,691

|

0

|

大语言模型,机器学习

5667 字

|

24 分钟

在深度学习的世界中，微调（Fine-tuning）预训练模型已成为提升模型性能的关键步骤。尤其是在大规模语言模型的微调过程中，合理的参数配置和优化策略直接影响到训练效率和模型效果。本文将详细介绍在微调过程中常见的优化方法，帮助您有效提升收敛速度，同时确保模型具备良好的泛化能力。目录序列长度（--cutoff_len）的影响梯度累计（Gradi…

分类： 大语言模型

分类：大语言模型