深度学习 – ELE-yufo

基于少量样本微调大型语言模型的实践指南

2024-12-17 16:09

|

10

|

0

|

深度学习

2301 字

|

9 分钟

在自然语言处理领域，大型语言模型（LLM）的出现为各类任务带来了显著的性能提升。然而，在实际应用中，我们常常面临训练数据有限的情况。本文将详细介绍如何在少量样本下，对LLM进行监督微调（SFT），以获得理想的效果。一、背景介绍在许多实际场景中，获取大量的高质量标注数据成本高昂，甚至难以实现。当我们只有1000条左右的标注数据时，如何利用这些数据…

深入理解 DeepSpeed 的 Stage 2 和 Stage 3 优化：性能、速度、显存及模型表现的全面比较

2024-11-30 15:08

|

666

|

0

|

深度学习

3883 字

|

16 分钟

在大规模深度学习模型的训练过程中，资源的高效利用和训练效率的提升至关重要。DeepSpeed 作为一个开源的深度学习优化库，为训练和推理提供了一系列强大的优化技术。其中，Stage 2 和 Stage 3 是 DeepSpeed 的两个重要优化阶段。本文将详细探讨这两种优化阶段在性能表现、训练速度、显存占用以及对模型性能的影响等方面的区别，帮助您在…

LLM入门知识：词袋模型与嵌入模型优劣对比

2024-7-31 14:57

|

191

|

0

|

深度学习

1524 字

|

7 分钟

在自然语言处理（NLP）中，如何有效地表示文本数据是一个关键问题。词袋模型（Bag of Words, BoW）和嵌入模型（Embedding Models）是两种常见的方法。本文将深入探讨这两种模型的基本概念、数学原理、优缺点，并通过实例对比它们在文本表示中的应用。 1. 词袋模型（Bag of Words, BoW） 1.1 基本概念词袋模型…

分类： 深度学习

分类：深度学习