按:2024年或之前,也关注过大模型,但深入研究还是今年春节DeepSeek大火之后。
学习越多,越感觉如果能采用“一句话的方式”表达清楚,对其他人是很受益的事(学习成本、知识鸿沟是当下最大的问题),能用一句话说清楚,又是对人最大的挑战(世界之复杂,一句话能说清楚本质)!
“一句话”或“一张图”的方式表达,不是一个结果,而是一个不断认识和不断实践的过程。也希望读者愿意留言探讨,以丰富或改进“一句话”或“一张图”的表达。
当下的人工智能(AI),或者更准确地说,大语言模型(也常简称为大模型)是什么?
如果用一句话来概括,我建议用“是一个免费的博士级别的大脑”来比喻或理解。也就是说,当我们现在随时随地访问DeepSeek、豆包或混元等大模型时,就意味着我们随时随地有一个博士级别的大脑可以利用,帮助我们做任何工作,或生活!
几点补充说明:
1、这个大脑(即大语言模型)是如何训练出来的呢?
是利用神经网络算法(即模仿人类大脑学习的方式),通过几千亿参数,将人类海量的语言(知识)进行学习和训练得到的。比如DeepSeek-V3的参数规模为6710亿(671B,这么大的参数量,可以理解为很聪明),预训练数据量为14.8万亿token,覆盖多语言文本、代码、科学文献等高质量数据(14.8T tokens,这么大的数据量,可以理解为学习了很多知识)。
2、这个大脑还比单个人类个体掌握的知识多得多。
大语言模型是一个通用的,即全科的,或者说是懂“所有专业”的博士大脑!这个大脑比单个个体掌握的知识多得多,用北京智源人工智能研究院理事长黄铁军的观点,可以表示为下图。也可以说一个个体的知识与大模型的知识相比,只是很小的一个部分。
3、这个博士级别的大脑还在不断“进化”、优化和发展。
大语言模型既遵循Scaling Law(Scaling Law是大模型预训练第一性原理,即随着模型参数数量、数据规模、计算资源的增加,模型有更好的表现),在算法上还在不断突破和创新,使得模型可以越来越好。
4、如何更好地使用这个博士级别的“大脑”呢?
其实也有不少挑战,这就是提示词工程所要解决的问题,也就是说,如果不掌握“提示词的一些技巧或工程”,你也就很难与这个“大脑”沟通、交流,也就不能很好地利用这个大脑。
有哪些(不足的)特点么?
5、领域知识(即某些领域的专业知识)不足。
由于预训练的数据采用的大多是通用的、公开的知识,在某些领域、或某些专业方面的数据是不够的,就会导致没有掌握这方面的知识。
目前的解决方案一般是采用微调或RAG方案。
6、及时性或实时性不足。
由于一次预训练的花费极大(常常是几百万美元,甚至更高),在一次训练结束后的数据就不会被“大脑”学习,所以一些比较新的知识,大模型(大脑)就没有学习,也就导致没有掌握。
目前的解决方案一般是“联网搜索”+RAG方案。
7、当然最大的问题是“幻觉”。
Transformer架构的注意力机制无法充分捕捉所有重要信息,基于概率预测下一个词,等都不可避免地生成看似合理但实际错误的内容。
还有一些数据质量、上下文长度、模型结构等也不可避免会导致“AI幻觉”。
虽然可以通过一些解决方案减少幻觉,但完全避免AI幻觉是一件不可能的事! 如何辨别,或者说在使用AI的过程中,能辨别“幻觉”是今后最关键一项能力!
发表评论 取消回复