对于普通人来说,学习大模型可以按照以下方法和步骤进行:
### 1. 了解基础知识
- "学习编程基础":熟悉Python编程语言,因为大多数大模型都是用Python开发的。
- "了解机器学习和深度学习":学习基本的机器学习算法和深度学习概念,如神经网络、卷积神经网络(CNN)、循环神经网络(RNN)等。
- "数据处理":学习如何处理和清洗数据,因为大模型需要大量的数据进行训练。
### 2. 学习相关工具和框架
- "深度学习框架":学习使用TensorFlow、PyTorch等深度学习框架。
- "自然语言处理(NLP)工具":学习使用NLTK、spaCy等自然语言处理工具。
- "数据处理工具":学习使用Pandas、NumPy等数据处理工具。
### 3. 学习大模型的基本原理
- "Transformer模型":了解Transformer模型的基本原理,如BERT、GPT等。
- "预训练和微调":学习如何预训练大模型并在特定任务上进行微调。
- "模型部署":学习如何将训练好的模型部署到实际应用中。
### 4. 实践项目
- "小型项目":从一些小型项目开始,如文本分类、情感分析等,逐步积累经验。
- "参与开源项目":参与一些开源项目,学习其他开发者的代码和经验。
- "实战项目":尝试
相关内容:
自从今年年初DeepSeek火了之后,每个公司估计都或多或少的准备了解和积累大模型知识了。我们公司也不例外,领导安排大家每天都要花一小时来学习大模型,每周大家聚在一起总结一次经验。一开始,我对大模型的认知,是停留在ChatGPT的使用上,只知道大模型可以对话聊天,像一个真人,感觉很神奇,但是不知道是怎么实现的。也听说过一些名词,比如神经网络、向量、卷积、权重之类的,也不敢和别人深聊,因为都不知道是什么意思,感觉是很深的数学知识和科学知识。到现在,两个月时间,我基本上已经掌握了大模型原理和微调方法,并成功的在企业落地了一个应用(通过语音安排任务,难点:名字模糊匹配(音同词不同))。
当第一次看到这张图的时候,啥也不知道,只觉得是高大上的东西。后面了解原理后,基本也能讲清楚图中的意思了。我是从几个方面开始入手学习的(1)刷抖音精选,看Transformer架构的入门介绍和原理,先看短视频,逐渐看长视频。(2)知乎上看文章(3)看书,系统学习通过刷文章,发现了一本书,老外写的《Build a Large Language Model (From Scratch)》,如获至宝,从第一页开始看起,顺便又学了一下Python。
我对大模型的学习之路,分以下几个步骤:
1.了解现在有多少种大模型
通过搜索发现,有ChatGPT,DeepSeek,文心一言,通义千问,豆包,KIMI,讯飞等。然后我分别试用了一下,对于我这种不用也不想用科学上网的人来说,ChatGPT等国外的也就跳过了(包括我后面对大模型的使用和微调,也是都选用国内的工具来完成),那些没有免费试用额度的也跳过了。2.了解哪些有API接口
因为最终是要在企业应用落地的,所以需要有对接接口才行。其实调用接口,接入自己的系统,这个是很简单的事情,通过看接口文档,正确传参数就可以了。但是这种只能用来对话,做个聊天工具还可以。而企业应用一般需要基于内部知识库,这个应该怎么和企业内部知识对接呢,于是我又了解到,大模型除了对话之外,还有RAG,Agent,Function Calling这种概念。3.寻找一站式综合平台
同事推荐了dify,我上去看了一下,没怎么看懂。我自己找了阿里百炼,在上面注册个账号,拖拖拽拽出一个Agent,能够直观的看到输入输出,在自己开发的demo里面调用也很方便。后面又找类似的,发现还有扣子。至于百度的那些,我就不找了,我对这家公司有点偏见。领导也经常发一些DeepSeek的使用说明和应用案例。迷失在各种Agent一段时间后,经过各种测试和踩坑,我发现这些Agent能力不行,不能满足我的要求。调用Function Calling时,也是时好时坏。这时我发现,大模型的能力原来不咋地,智商就像个三岁孩子。4.开始接触原理
对于一个新事物,我习惯从根上开始了解。于是我开始搜索大模型是怎么实现的。先从向量和卷积开始,于是看了一些数学老师介绍向量和卷积的视频(后来发现大模型用的不是这些)。然后开始了解Transformer架构,下图是谷歌那篇著名的论文《Attention Is All You Need》中的架构。

5.开始微调
当原理看的津津有味,全情投入的时候,公司的业务不能等我研究透了才开始做。于是开始学习怎么微调,这个我也是直接网上找视频教程看。现在的视频,卖课的越来越少,都是直接上干货。我看了一些,没怎么看明白,直到发现了一个最好的视频。我听任何视频,都是1.5倍速,而且听最多2个小时就够了,唯独这个视频,是一个声音很甜美的小姐姐讲的(因为有很多人转发,也不知道谁是原作者。我是喜欢直接关注原作者。如果没错的话,是B站的堂吉诃德拉曼查的英豪),一个多小时的时长,我是一点也没有快进,而且反复听了好几遍。然后按照步骤,自己微调成功了一个大模型,从此打开了微调的思路。现在再看各种微调方法和工具,也都可以很快的看懂和上手了。6.后期计划
(1)各种微调工具(LLaMa-Factory,MS-SWIFT,unsloth),包括超参数要熟练掌握。(2)继续在B站听课,持续关注最新的大模型技术和行业动态。(3)老外写的原理的这本书也要继续看完,前面是往上生长,看原理是往下生长,都重要。(4)尝试在不同领域设计解决方案,看看能不能有所突破。后续我也会持续发文详细报告进度,学习路漫漫,与君共勉。