提拉的Studio

发表于2025-07-18|大模型

TransformerTransformer是一种基于自注意力机制的神经网络架构，专为处理序列数据（如文本、语音）而设计。其核心由编码器encoder和解码器decoder组成，编码器负责提取输入序列的全局特征，解码器则根据编码结果生成输出。通过位置编码保留序列顺序信息，并通过多头注意力机制并行捕捉不同维度的语义关联。 Transformer就像一个超级大脑，它的设计让它可以同时并行分析一句话里所有词的关系，不需要像传统模型那样逐字读。 Transformer原理Transformer通过一种叫“自注意力”的技术，能够同时关注句子中的所有单词，理解它们之间的关系。 Transformer实践案例GPT系列：基于纯解码器架构，通过海量文本预训练生成连贯内容，如写文章、编程代码。BERT：基于编码器的模型，擅长理解语义，用于搜索引擎优化和问答系统。Sora：结合扩散模型与transformer，生成高质量视频，体现多模态扩展能力。 GPT像作家，输入主题就能编故事；BERT像学霸，擅长考试中的阅读理解；Sora则是导演，用文字描述就能生成视频。它们的共同点是用transformer分...

From Large Language Models to Reasoning Language Models - 计算时代的3个发展阶段

发表于2025-07-18|2025 WAIC 论坛笔记

From Large Language Models to Reasoning Language Models - Three Eras in The Age of Computation. Era of model size scaling 模型规模扩展的时代2017 - Transformers “Attention is All you Need” 核心思想与贡献目标：用纯注意力机制（无需RNN/CNN）解决序列建模问题，实现并行化训练并捕获长距离依赖。关键创新： **自注意力（Self-Attention）**：动态计算序列中所有位置间的关联权重。 **多头注意力（Multi-Head Attention）**：并行学习不同子空间的注意力模式。 **位置编码（Positional Encoding）**：注入序列顺序信息，替代RNN的时序性。

k-means聚类

发表于2025-07-18|机器学习

k-均值聚类kmeans算法是一种常用的聚类算法，属于无监督学习的一种。KMeans算法的基本原理是通过迭代的方式将数据集划分为K个簇，使得每个簇内的数据点尽可能相似，而不同簇之间的数据点尽可能不同。具体步骤初始化：随机选择K个数据点作为初始的聚类中心。分配：计算每个数据点到各个聚类中心的距离，将每个数据点分配到距离最近的聚类中心所在的簇。更新：重新计算每个簇的中心点，通常是取该簇所有数据点的均值。迭代：重复步骤2和3，直到聚类中心不再发生变化或达到预设的迭代次数。 KMeans算法的应用场景和优缺点KMeans算法因其简单高效，被广泛应用于数据挖掘、数据分析、异常检测、模式识别等领域。优点：简单高效：实现简单，收敛速度快。应用广泛：适用于大规模数据集。可解释性强：结果直观，易于理解。缺点：对初始值敏感：初始聚类中心的选择会影响最终结果。可能陷入局部最优：算法容易陷入局部最优解而非全局最优解。需要预先指定K值：K值的选取对结果有较大影响，通常需要根据经验或多次试验来确定。 KMeans算法的改进方法K值选择：可以通过肘部法则、轮廓系数等方法来确定最佳的K值。初始化方法：采用...

决策树分类

发表于2025-07-18|机器学习

决策树基本定义决策树是一种利用树形图进行决策的预测模型，表现出对象属性与对象值的一种映射关系，用于分类和回归任务。它是通过训练数据，采用自顶而下的贪婪算法选择最合适的属性作为节点生成的决策树。属性选择标准信息增益（ID3算法）信息熵 H(D)用来描述系统信息量的不确定度，越混乱，信息熵越高。H(D|A)表示属性A的情况下的熵值。Gain值表示属性A对于系统统一性作出的贡献值，对比所有属性的Gain值，Gain值最高的属性适合做决策树的第一个节点。条件熵： eg. 风力weak的情况有8次，风力strong的情况6次。week情况下，8次中有6次出去玩，2次不出去玩。strong的情况下，6次中有3次出去玩，3次不出去玩。根据熵公式，Entroy(weak) = -(0.25* $\log_2 0.25$) - （0.75* $\log_2 0.75$）= 0.8112781244591328Entroy(strong) = -(0.5* $\log_2 0.5$) - （0.5* $\log_2 0.5$）= 1.0 12...

大模型幻觉

发表于2025-07-18|大模型

大模型幻觉 Model Hallucination大模型幻觉指模型生成的内容存在不符合现实事实（事实性幻觉）或偏离用户指令/上下文（忠实性幻觉）的现象。事实性幻觉：分为“事实不一致”（错误引用信息）和“事实捏造”（无中生有）。忠实性幻觉：包括指令、上下文或逻辑不一致（如答非所问、自相矛盾）。为什么有幻觉幻觉源于数据缺陷（错误、偏见、过时知识）、训练过程问题（模型架构偏差、对齐目标冲突）和推理阶段的不确定性（随机抽样、解码策略不完美）。总的来说就是3个方面，1是喂的数据本身不够客观，模型学坏了。2是训练方法没调好，导致模型学歪。3是推理时像抽奖，模型可能随便蒙答案。怎么解决幻觉检测：用外部知识库验证事实性幻觉（如查百科），通过逻辑分析、指令匹配检测忠实性幻觉。减轻：清洗数据、更新知识；优化训练策略（如强化对齐），推理时增加事实验证步骤（如引用权威来源）。通俗说就是让模型自己在回答问题前去查资料，检查是否按要求答题以及答题是否符合事实规律，自行再调整。喂给模型更干净、与时俱进的数据，训练时盯紧目标（比如教它诚实），生成答案时候强制引用真实信息。总结大模型幻觉是“一...

思维链

发表于2025-07-18|大模型

思维链 Chain of thought思维链CoT是大语言模型通过分步骤推理提升答案准确性的技术。其核心是将复杂问题拆解为多个子任务，生成中间推理结果（如PPI），再整合为最终输出，模仿人类逐步思考的过程。思维链的原理传统模型直接从输入到输出，而CoT通过算法函数（R函数拆解任务、E函数整合结果）实现分步推理。模型参数规模（如137B）越大，CoT能力越强，但依赖人工设计提示词，且单模态场景有局限。思维链实践案例Deepseek R1交互：页面展示分步推理过程，如先展示思考过程再生成结果。提示词工程：提问时加“请逐步思考”，准确率显著提升，如文献综述分阶段完成。知识图谱生成：用CoT拆解任务为实体提取、关系分析等步骤。总结CoT通过分步推理提升大模型答案的准确性和可解释性，但依赖人工设计提示词，且对创新性问题（如数学猜想）泛化能力有限。它是当前提升模型表现的有效工具，但非终极方案。

朴素贝叶斯分类

发表于2025-07-18|机器学习

朴素贝叶斯分类贝叶斯分类是一类分类算法的总称，这类算法以贝叶斯定理为基础。而朴素贝叶斯分类是贝叶斯分类中最简单与常见的一种分类方法，它与贝叶斯分类的区别点是加了一个前提假设：所有的条件对结果都是独立发生作用的，即所有的特征之间相互独立。（比如某人是篮球运动员与某人有运动天赋，这两个特征之间是有关联的，不能算作完全独立。而特征有关联性会导致朴素贝叶斯概率误差较大）贝叶斯公式先验概率（Prior Probability）：P(A)基于过去的经验认知，对某个事件发生概率的初步估计。后验概率（Posterior Probability）：P(A|B)表示在特征B已知的情况下，类别A发生的概率。后验概率是基于先验概率和新的证据，通过贝叶斯定理修正后的概率。在实际情况中，我们利用贝叶斯算法去判断类别时，往往是基于多个特征，极大似然估计MLE是朴素贝叶斯分类模型的简化版，在计算出先验概率和条件概率之后，直接将两者对应乘积。下图中x表示特征，等式表示n个特征情况下是c类别的概率，即条件概率P(B|A)。当特征数据离散时如何求概率：需要处理数据1.数据离散化：等宽法，等频法，聚类法等。2...

模型参数

发表于2025-07-18|大模型

模型参数模型参数是神经网络中通过训练调整的权重值，用于将输入数据映射到输出结果。在大模型中，参数规模通常以十亿（B）或万亿（T）为单位，例如GPT-3包含1750亿参数。参数决定了模型对输入数据的处理逻辑，如语言规则、图像特征提取等。参数是模型的经验值，就像人经历越多越聪明，模型参数调整得越准，就能把输入和输出匹配得越好。参数多了，模型还能举一反三，比如从猫咪联想到喵星人。为什么大模型参数重要参数通过海量数据训练调整，使模型学会从输入到输出的映射规则。训练过程利用反向传播算法，根据预测误差逐步优化参数，最终让模型在翻译、问答等任务中表现更优。参数越多，模型能存储的知识越丰富，例如同时理解语法、语义和上下文。模型参数怎么用GPT-4通过千亿级参数实现了复杂语言任务（如写代码、创作故事），而谷歌PaLM则在翻译和多轮对话中表现优异。训练时，企业会分阶段优化参数：预训练（用全网数据打基础）、指令微调（教模型按指令执行）、对齐微调（确保输出符合人类价值观）。总结参数是什么：模型的脑细胞，数量越多越聪明，但算力需求也越大。为什么重要：参数决定模型能学多深、记多细，像超级图书馆的书架越...

模型微调

发表于2025-07-18|大模型

模型微调大模型微调是指在预训练的大型语言模型（如GPT-3、BERT）基础上，通过特定领域或任务的数据进行二次训练，使模型适应具体需求的技术。预训练模型已具备通用语言理解能力，微调通过调整模型参数，使其在特定任务（如医疗诊断、法律文本分析）中表现更优，同时保留原有知识。就像是让一个通才学霸转行为专科专家。微调的原理微调的核心是参数调整：预训练模型通过海量数据学习通用规律（如语法、逻辑），参数已初步稳定。微调时，用特定领域数据重新计算损失函数（衡量模型输出与预期差距），反向传播更新部分或全部参数，使模型更贴合新任务。高效微调技术（如LoRA、P-Tuning）通过冻结大部分参数、仅训练少量适配层，降低计算成本。模型微调实践案例金融情感分析：银行微调模型分析客户评论，识别负面情绪以优化服务，准确率提升30%。医疗诊断助手：某医院微调模型读取CT报告，生成诊断建议，减少医生工作量。中国通信院案例：涵盖工业、能源等领域，如某电力公司微调模型预测设备故障，降低维护成本。总结大模型微调是让通用AI快速转行的技术。原理上，它基于预训练模型的知识底子，用少量数据调整参数，变成专业工具。实践...

模型蒸馏

发表于2025-07-18|大模型

模型蒸馏 Knowledge Distillation模型蒸馏是一种将大型模型（教师模型）的知识迁移到小型模型（学生模型）的技术，旨在让小模型在保持性能的同时降低计算资源消耗。其核心是通过对齐两者的输出分布（如概率或特征），使学生模型模仿教师模型的决策逻辑。根据实现方式，分为黑盒蒸馏（仅利用教师模型的输出结果）和白盒蒸馏（额外利用中间层信息）。蒸馏原理蒸馏的底层逻辑是知识迁移。教师模型的输出（如分类概率）包含隐式知识（软目标），通过损失函数（如KL散度）驱动学生模型的输出与之对齐。同时，学生模型的结构可能被简化或调整，以适配资源限制。例如，白盒蒸馏会利用中间层的特征相似性，而黑盒蒸馏仅依赖最终预测结果。模型蒸馏实践案例Qwen2.5系列：通过白盒蒸馏实现，利用前向KL散度对齐教师和学生模型的输出，代码开源且效果接近原模型。Deekseek R1：蒸馏过的小模型（8B参数的Deepseek-R1-Distill）在医疗领域微调，性能媲美大模型，且部署成本降低90%。OpenAI实践：通过蒸馏将500B参数模型压缩到100B，训练时间从1个月缩短至1周，大幅降低成本。总结模型蒸...