2025，我（普通人）学习大模型的方法和步骤-58码农网

对于普通人来说，学习大模型可以按照以下方法和步骤进行：
### 1. 了解基础知识 - "学习编程基础"：熟悉Python编程语言，因为大多数大模型都是用Python开发的。 - "了解机器学习和深度学习"：学习基本的机器学习算法和深度学习概念，如神经网络、卷积神经网络（CNN）、循环神经网络（RNN）等。 - "数据处理"：学习如何处理和清洗数据，因为大模型需要大量的数据进行训练。
### 2. 学习相关工具和框架 - "深度学习框架"：学习使用TensorFlow、PyTorch等深度学习框架。 - "自然语言处理（NLP）工具"：学习使用NLTK、spaCy等自然语言处理工具。 - "数据处理工具"：学习使用Pandas、NumPy等数据处理工具。
### 3. 学习大模型的基本原理 - "Transformer模型"：了解Transformer模型的基本原理，如BERT、GPT等。 - "预训练和微调"：学习如何预训练大模型并在特定任务上进行微调。 - "模型部署"：学习如何将训练好的模型部署到实际应用中。
### 4. 实践项目 - "小型项目"：从一些小型项目开始，如文本分类、情感分析等，逐步积累经验。 - "参与开源项目"：参与一些开源项目，学习其他开发者的代码和经验。 - "实战项目"：尝试

相关内容：

自从今年年初DeepSeek火了之后，每个公司估计都或多或少的准备了解和积累大模型知识了。我们公司也不例外，领导安排大家每天都要花一小时来学习大模型，每周大家聚在一起总结一次经验。

一开始，我对大模型的认知，是停留在ChatGPT的使用上，只知道大模型可以对话聊天，像一个真人，感觉很神奇，但是不知道是怎么实现的。也听说过一些名词，比如神经网络、向量、卷积、权重之类的，也不敢和别人深聊，因为都不知道是什么意思，感觉是很深的数学知识和科学知识。到现在，两个月时间，我基本上已经掌握了大模型原理和微调方法，并成功的在企业落地了一个应用（通过语音安排任务，难点：名字模糊匹配（音同词不同））。

我对大模型的学习之路，分以下几个步骤：

1.了解现在有多少种大模型

通过搜索发现，有ChatGPT，DeepSeek，文心一言，通义千问，豆包，KIMI，讯飞等。然后我分别试用了一下，对于我这种不用也不想用科学上网的人来说，ChatGPT等国外的也就跳过了（包括我后面对大模型的使用和微调，也是都选用国内的工具来完成），那些没有免费试用额度的也跳过了。

2.了解哪些有API接口

因为最终是要在企业应用落地的，所以需要有对接接口才行。其实调用接口，接入自己的系统，这个是很简单的事情，通过看接口文档，正确传参数就可以了。但是这种只能用来对话，做个聊天工具还可以。而企业应用一般需要基于内部知识库，这个应该怎么和企业内部知识对接呢，于是我又了解到，大模型除了对话之外，还有RAG，Agent，Function Calling这种概念。

3.寻找一站式综合平台

同事推荐了dify，我上去看了一下，没怎么看懂。我自己找了阿里百炼，在上面注册个账号，拖拖拽拽出一个Agent，能够直观的看到输入输出，在自己开发的demo里面调用也很方便。后面又找类似的，发现还有扣子。至于百度的那些，我就不找了，我对这家公司有点偏见。

领导也经常发一些DeepSeek的使用说明和应用案例。迷失在各种Agent一段时间后，经过各种测试和踩坑，我发现这些Agent能力不行，不能满足我的要求。调用Function Calling时，也是时好时坏。这时我发现，大模型的能力原来不咋地，智商就像个三岁孩子。

4.开始接触原理

对于一个新事物，我习惯从根上开始了解。于是我开始搜索大模型是怎么实现的。先从向量和卷积开始，于是看了一些数学老师介绍向量和卷积的视频（后来发现大模型用的不是这些）。然后开始了解Transformer架构，下图是谷歌那篇著名的论文《Attention Is All You Need》中的架构。

当第一次看到这张图的时候，啥也不知道，只觉得是高大上的东西。后面了解原理后，基本也能讲清楚图中的意思了。

我是从几个方面开始入手学习的

（1）刷抖音精选，看Transformer架构的入门介绍和原理，先看短视频，逐渐看长视频。

（2）知乎上看文章

（3）看书，系统学习

通过刷文章，发现了一本书，老外写的《Build a Large Language Model (From Scratch)》，如获至宝，从第一页开始看起，顺便又学了一下Python。

5.开始微调

当原理看的津津有味，全情投入的时候，公司的业务不能等我研究透了才开始做。于是开始学习怎么微调，这个我也是直接网上找视频教程看。现在的视频，卖课的越来越少，都是直接上干货。我看了一些，没怎么看明白，直到发现了一个最好的视频。我听任何视频，都是1.5倍速，而且听最多2个小时就够了，唯独这个视频，是一个声音很甜美的小姐姐讲的（因为有很多人转发，也不知道谁是原作者。我是喜欢直接关注原作者。如果没错的话，是B站的堂吉诃德拉曼查的英豪），一个多小时的时长，我是一点也没有快进，而且反复听了好几遍。然后按照步骤，自己微调成功了一个大模型，从此打开了微调的思路。现在再看各种微调方法和工具，也都可以很快的看懂和上手了。

6.后期计划

（1）各种微调工具（LLaMa-Factory，MS-SWIFT，unsloth），包括超参数要熟练掌握。

（2）继续在B站听课，持续关注最新的大模型技术和行业动态。

（3）老外写的原理的这本书也要继续看完，前面是往上生长，看原理是往下生长，都重要。

（4）尝试在不同领域设计解决方案，看看能不能有所突破。

后续我也会持续发文详细报告进度，学习路漫漫，与君共勉。

相关内容：

给这篇文章的作者打赏

关于作者: 网站小编

相关文章

[记录] SSMS 20 geometry 支援度

[AI] Azure Document Intelligence自订模型的栏位

苹果手机快捷指令更换“图标”的方式

热门文章

1轻松连接,台式电脑蓝牙耳机使用指南

2手机轻松拍出戏剧感海景！实用技巧助你捕捉美丽海景瞬间

3喷头安装标准流程详解,图解安装示意图指引

4告别拍照求人时代,SEAJIC落地开磁吸自拍杆，一键解决自拍难题

5苹果17拍照新搭档推荐,SEAJIC自拍杆，落地即弹开，磁吸一触即达，完美搭档！