1. 引言与背景 在近两年,大语言模型领域的更新迭代速度令人瞩目,从各种 GPT 系列、Claude 系列到开源的 LLaMa、Qwen 以及 DeepSeek 系列等纷纷崭露头角。一个核心趋势在于: 当我们需要让模型不仅“通晓”各类文本信息,而且能做多步逻辑推理、数学推导、编程验证时,传统的纯文本/对话式训练往往不足以覆盖深层次的推理能力; 于是…
人工智能(AI)自 20 世纪中叶萌芽以来,经过数十年的探索、争议与演进,逐渐形成了三大相对独立却又交互互补的研究流派: 符号主义(Symbolism) 连接主义(Connectionism) 行为主义(Behaviorism) 在每个发展阶段,我们不仅见证了不同流派的崛起与衰退,也见证了新算法的涌现与旧方法的革新。如今,融合多种思路的混合式系统(…
近年来,伴随大语言模型(LLM)的进步,“RAG”(Retrieval-Augmented Generation,检索增强生成)成为了热门技术路径。传统 RAG 通过检索外部文本作为上下文来辅助模型生成答案,大大缓解了大型模型在线回答问题时的“幻觉”问题。然而,如何在海量信息中高效而精准地检索并组织知识,始终是一个亟待解决的难点。本文将围绕以下问题…
在自然语言处理领域,大型语言模型(LLM)的出现为各类任务带来了显著的性能提升。然而,在实际应用中,我们常常面临训练数据有限的情况。本文将详细介绍如何在少量样本下,对LLM进行监督微调(SFT),以获得理想的效果。 一、背景介绍 在许多实际场景中,获取大量的高质量标注数据成本高昂,甚至难以实现。当我们只有1000条左右的标注数据时,如何利用这些数据…
在大规模深度学习模型的训练过程中,资源的高效利用和训练效率的提升至关重要。DeepSpeed 作为一个开源的深度学习优化库,为训练和推理提供了一系列强大的优化技术。其中,Stage 2 和 Stage 3 是 DeepSpeed 的两个重要优化阶段。本文将详细探讨这两种优化阶段在性能表现、训练速度、显存占用以及对模型性能的影响等方面的区别,帮助您在…
在深度学习的世界中,微调(Fine-tuning)预训练模型已成为提升模型性能的关键步骤。尤其是在大规模语言模型的微调过程中,合理的参数配置和优化策略直接影响到训练效率和模型效果。本文将详细介绍在微调过程中常见的优化方法,帮助您有效提升收敛速度,同时确保模型具备良好的泛化能力。 目录 序列长度(--cutoff_len)的影响 梯度累计(Gradi…
在自然语言处理(NLP)中,如何有效地表示文本数据是一个关键问题。词袋模型(Bag of Words, BoW)和嵌入模型(Embedding Models)是两种常见的方法。本文将深入探讨这两种模型的基本概念、数学原理、优缺点,并通过实例对比它们在文本表示中的应用。 1. 词袋模型(Bag of Words, BoW) 1.1 基本概念 词袋模型…
最近搬运了大佬的226G BeatSaber曲包,附上链接 https://share.wgzeyu.vip 但是曲包文件过大,非常冗余,导致每次进入游戏加载曲包文件夹要很久,于是写了这个小工具。 用途是从茫茫曲海中选择自己个人歌单里有的歌曲,选出自己喜欢的歌曲,并提取到一个文件夹里,做成一个独立的属于自己的曲包。 食用…
就像Python的编码问题一样,网络协议问题也总是在工程的开展中犹如一个幽灵一样经常困扰着我。现在回想起来学习网工的时候关于TCP也只是了解即可,几乎没有让我操控的场景。直到接触到Socket网络编程以及TCP性能调优之后,才知道深度了解TCP协议的重要性。前两天看了一本书,书名为《Wireshark网络分析就这么简单》。虽然内容和书名严重不符,完…