当Meta的LLaMA代码在GitHub上泄露后,全球的研究人员都能够访问第一个GPT级别的大型语言模型(LLM)。随之而来的是一系列的LLM,给开源人工智能带来了全新的维度。LLaMA为Stanford的Alpaca和Vicuna-13B等模型的到来铺平了道路,因此成为了开源的冠军。
然而,现在似乎我们可能有了一个新的竞争者,名为Falcon。Falcon由阿联酋阿布扎比的科技创新研究所(TII)开发,其性能比LLaMA更好。它有三个变种,分别是1B、7B和40B。
根据该研究所的说法,FalconLM是迄今为止最强大的开源语言模型。它最大的变种Falcon 40B,拥有40亿个参数,相对于拥有65亿个参数的LLaMA来说相对较小。阿联酋高级技术研究委员会(ATRC)的秘书长Faisal Al Bannai认为,Falcon的发布将打破LLM的访问限制,并使研究人员和企业家能够提出最具创新性的用例。
排行榜之巅
FalconLM的两个变种,Falcon 40B Instruct和Falcon 40B,在Hugging Face的OpenLLM排行榜上位居榜首,而Meta的LLaMA位居第三。Hugging Face根据四个流行的基准(AI2 Reasoning Challenge、HellaSwag、MMLU和TruthfulQA)评估这些模型。
( Source: Hugging Face)
虽然LLM的论文尚未公开,但目前我们知道Falcon 40B已经在一个包含1万亿个令牌的精细网络数据集上进行了大规模的训练,并对质量和相关性进行了精心过滤。研究人员透露,他们特别强调在大规模的数据处理过程中实现高质量数据。数据提取流水线的设计旨在从网络中提取一流的内容,包括广泛的过滤和去重技术。
TII发布了经过细致过滤和去重的精细网络数据集,该数据集被证明非常有效。仅在这个数据集上训练的模型可以与或甚至超过仔细策划的语料库上训练的模型相媲美,展示了它们出色的质量和影响力。
Falcon模型还具有多语言能力。它能理解英语、德语、西班牙语和法语,并在一些欧洲语言(如荷兰语、意大利语、罗马尼亚语、葡萄牙语、捷克语、波兰语和瑞典语)方面有限的能力。此外,Falcon-40B是第二个真正的开源模型,继H2O.ai的模型发布后。然而,评估这两个模型变得具有挑战性,因为H2O.ai没有在此排行榜上与其他模型进行基准测试。
商业应用
即使LLaMA的代码在GitHub上可用,但其权重从未开源。这意味着该模型的商业使用受到限制。此外,所有变种都依赖于原始的LLaMA许可证,使它们不适用于小规模商业应用。
然而,Falcon使用了修改后的Apache许可证,意味着这些模型可以进行微调并用于商业目的。Falcon是第一个超越研究限制的开源大型语言模型。最初,许可证规定在超过一百万美元的收入上,需要支付10%的默认版税。然而,随后宣布Falcon已转向Apache 2.0许可证,消除了版税义务。
Falcon相比于GPT-3实现了显著的性能提升,仅使用了训练计算预算的75%,并且在推理时只需要五分之一的计算量。此外,该模型利用了GPT-3训练计算的75%,Chinchilla的40%,以及PaLM-62B的80%,实现了对计算资源的高效利用。
开源与封闭
虽然GPT-4是迄今为止最先进的LLM,但它是闭源的,OpenAI没有透露任何关于模型的架构、模型大小、硬件、训练计算、数据集构建、训练方法等方面的细节。然而,这阻止了研究人员和开发人员理解该模型的技术细节和内部工作原理。
开源人工智能促进了合作、透明度和领域内更大的创新。开源模型可以更好地促进合作和知识共享,从而加快进展和创新,就像自LLaMA发布以来所见。LLaMA的可用性使得研究人员和开发人员可以在不投资专有解决方案或昂贵云资源的情况下访问强大的语言模型。LLaMA为封闭源模型提供了替代方案,一些专家对封闭源模型的缺乏透明度和潜在偏见提出了批评。