大型语言模型(LLMs)是主要的文本处理人工智能种类,并且它们正越来越多地出现在我们的生活中。ChatGPT是迄今为止最著名的使用LLM的工具——它由OpenAI的GPT模型的特别调优版本驱动。但还有很多其他的聊天机器人和文本生成器——包括从Google的Bard和Anthropic的Claude到Writesonic和Jasper——都是基于LLMs构建的。
将AI与自动化结合将改变你的工作方式
LLMs自2010年代末以来一直在研究实验室中慢慢发展,但在ChatGPT(展示了GPT的能力)发布后,它们从实验室爆发到了现实世界。
有些LLMs已经开发多年。其他的则是为了追赶最新的炒作周期而迅速启动。还有更多是开源的研究工具。在这里,我将介绍当前最重要的LLMs。
2024年最佳LLMs
有数十种主要的LLMs,以及数百种可能因某些原因而具有重要意义的LLMs。列出它们所有几乎是不可能的,而且由于LLMs的快速发展,即使列出来,几天后也可能过时。
这里的“最佳”一词需谨慎理解:我试图通过提供最重要、最有趣和最受欢迎的LLMs(和LMMs)列表来缩小范围,而不是那些在基准测试中表现最好的(尽管大多数确实如此)。我还主要关注你可以使用的LLMs——而不是那些超级有趣的研究论文的主题——因为我们喜欢保持实用性。
在深入研究之前的最后一件事:许多AI驱动的应用并不列出它们依赖的LLMs。有些我们可以猜测,或从他们的营销材料中明确,但对于很多应用,我们就是不知道。这就是为什么你会在下面的表格中看到“未公开”——这只是意味着我们不知道任何主要应用使用该LLM,尽管有些可能确实使用了。
以下是一些主要的LLMs及其开发者和应用情况的概览:
LLM | 开发者 | 使用它的流行应用 | 参数数量 | 访问方式 |
---|---|---|---|---|
GPT | OpenAI | Microsoft, Duolingo, Stripe, Zapier, Dropbox, ChatGPT | 1750亿+ | API |
Gemini | Bard的一些查询 | 纳米: 18亿 & 32.5亿; 其他未知 | API | |
PaLM 2 | Google Bard, Docs, Gmail, 和其他Google应用 | 3400亿 | API | |
Llama 2 | Meta | 未公开 | 7亿, 13亿, 和 70亿 | 开源 |
Vicuna | LMSYS Org | Chatbot Arena | 7亿, 13亿, 和 33亿 | 开源 |
Claude 2 | Anthropic | Slack, Notion, Zoom | 未知 | API |
Stable Beluga | Stability AI | 未公开 | 7亿, 13亿, 和 70亿 | 开源 |
StableLM | Stability AI | 未公开 | 7亿, 13亿, 和 70亿 | 开源 |
Coral | Cohere | HyperWrite, Jasper, Notion, LongShot | 未知 | API |
Falcon | Technology Innovation Institute | 未公开 | 1.3亿, 7.5亿, 40亿, 和 180亿 | 开源 |
MPT | Mosaic | 未公开 | 7亿 和 30亿 | 开源 |
Mixtral 8x7B | Mistral AI | 未公开 | 46.7亿 | 开源 |
XGen-7B | Salesforce | 未公开 | 7亿 | 开源 |
Grok | xAI | Grok Chatbot | 未知 | 聊天机器人 |
什么是LLM?
LLM,或大型语言模型,是一种通用的AI文本生成器。它是所有AI聊天机器人和AI写作生成器背后的技术。
LLMs是超级自动完成工具。去掉花哨的界面和其他变通方法,它们所做的就是接收一个提示并使用一系列看似合理的后续文本来生成答案。建立在LLMs之上的聊天机器人不是在寻找关键词以便用一个预设的回应来回答——而是尽力理解被询问的内容并适当地回复。
这就是LLMs真正大放异彩的原因:相同的模型(有时候会进行一些额外的训练)可以用来回应客户查询、编写营销材料、总结会议记录,并做许多其他事情。
LLMs是如何工作的?
早期的LLMs,如GPT-1,在生成几句话后就会崩溃并开始产生胡言乱语,但今天的LLMs,如GPT-4,可以生成成千上万的词语,而且都是有意义的。
为了达到这一点,LLMs在庞大的数据集上进行了训练。不同的LLMs在使用材料的权利获取上有一些小的区别——但一般来说,你可以认为它们已经在相当于整个公开互联网和每一本重要书籍上进行了训练。这就是为什么LLMs可以在如此广泛的主题上生成听起来很权威的文本。
通过这些训练数据,LLMs能够使用高维向量模拟不同单词(或确切地说,词语的一小部分,称为tokens)之间的关系。这里的东西变得非常复杂和数学化,但基本原理是每个单独的token都有一个独特的ID,而且相似的概念被分组在一起。然后,这被用来生成一个神经网络,这是一种基于人类大脑工作方式的多层算法——这是每个LLM的核心。
神经网络有一个输入层,一个输出层和多个隐藏层,每层都有多个节点。这些节点计算输入后应该跟随什么词语,不同的节点有不同的权重。例如,如果输入字符串包含“Apple”,神经网络将不得不决定是接着出现像“Mac”或“iPad”这样的东西,还是像“pie”或“crumble”这样的东西,或者完全是其他的东西。当我们谈论一个LLM有多少参数时,我们基本上是在比较底层神经网络中有多少层和节点。一般来说,节点越多,模型能够理解和生成的文本就越复杂。
当然,一个在开放互联网上训练且几乎没有指导的AI模型听起来像是噩梦的材料。而且它可能也不会很有用,所以在这一点上,LLMs会经过进一步的训练和微调,以引导它们生成安全且有用的回应。这主要是通过调整不同节点的权重来实现的,尽管还有其他方面。
信息图展示了自然语言处理的工作原理
所有这些都是说,虽然LLMs是黑盒子,但它们内部的工作并不是魔法。一旦你对它们的工作方式有了一点了解,就很容易看出它们为什么能够很好地回答某些类型的问题。这也容易理解为什么它们倾向于编造(或幻想)随机的事物。
例如,看看这样的问题:
- 股骨连接到哪些骨头?
- 美国使用什么货币?
- 世界上最高的山是哪座?
对LLMs来说,这些问题很容易,因为它们被训练的文本很可能已经生成了一个倾向于正确回应的神经网络。
然后看看这样的问题:
- 玛格特·罗比因为《芭比》赢得奥斯卡奖是哪一年?
- 一吨羽毛和一吨铁哪个更重?
- 中国为什么加入欧盟?
你更有可能得到一些奇怪的回答。神经网络仍然会生成后续文本,但因为问题是棘手的或错误的,正确的可能性就较低。
LLMs可以用于什么?
LLMs之所以强大,主要是因为它们可以被泛化到如此多的不同情况和用途。尽管它们所做的一切都是基于生成文本,但它们被提示做的具体方式改变了它们似乎拥有的功能。
以下是LLMs常用于的一些任务:
- 通用聊天机器人(如ChatGPT和Google Bard)
- 客户服务聊天机器人,这些机器人经过您的业务文档和数据的训练
- 将文本从一种语言翻译成另一种语言
- 将文本转换为计算机代码,或将一种语言转换成另一种语言
- 生成社交媒体帖子、博客帖子和其他营销副本
- 情感分析
- 内容审核
- 纠正和编辑写作
- 数据分析
还有数百种其他用途。我们只是当前AI革命的早期日子。
但也有很多事情是LLMs不能做的,但其他类型的AI模型可以做。一些例子包括:
- 解释图像
- 生成图像
- 将文件转换成不同的格式
- 在网上搜索
- 执行数学和其他逻辑操作
当然,一些LLMs和聊天机器人似乎能做其中的一些事情。但在大多数情况下,有另一个AI服务介入协助。当一个模型处理几种不同类型的输入时,它实际上不再被认为是一个大型语言模型,而是成为所谓的大型多模态模型(虽然,在一定程度上,这只是语义上的区别)。