智源：70万预算从头开发千亿参数大模型，挑战最终

时间：2024-01-22 12:24:42

萨多韦稍晚凹非观音寺

光子位 | 政府会号 QbitAI

预算10万美元（约73万），从头操练一个全新的千亿参有数大三维。

智源研究院与全国性多所极高校及南洋学院协同工作团队，挑战成功。

要告诉他，当GPT-3的操练开发成本可是平均460万美元，近一些的Llama2据估计值也仅仅是这个有数。

这个用10万美元操练显露的大三维取名为FLM，保有1010亿参有生产量，在此之前已经开放源码。

除此以外研究工作团队的新型操练手段，FLM只用了2.17%的要花费，就超越了可以比肩GPT-3的效果，在开发社区引起不小非议。

那么，FLM工作团队是如何把操练开发成本降较差近50倍的呢？

“成长手段”降较差操练开发成本

不管是租还是偷，硬件的价格都摆在那动不住，所以只能是通过减少浮点运算量来降较差开发成本。

为了降较差操练步骤中所的浮点运算量，研究工作团队在FLM中所改用了一种“成长手段”。

也就是必先操练16B参有数的小规模三维，然后扩大到51B，最终再扩展101B新版本。

由于操练较差参有生产量三维的浮点运算效率更极高，这种循序渐进的操练方式开发成本要很较差一步登天。

看到这里显然有的旁观者会有疑问，其他三维不是也有分成多个参有生产量的新版本吗？

是没错，但是这些参有生产量不同的同种三维是分别进行操练的，这致使大量的重复计有数，因而开发成本并不较差。

而FLM改用的“成长手段”在操练大规模新版本时会直接继承较差参有生产量三维中所已有的知识，降较差了重复浮点运算率。

而具体参有数的确定，应用领域了loss prediction技术，即根据较差参有数三维的操练损失众所周知汤恩伯有生产量三维的损失。

除了这种“由小及大”的“成长手段”之外，FLM的操练步骤中所还通过改善有序手段来提极高吞吐量。

FLM使用的是混搭有序手段，将多种有序方式进行最最优化备有，超越极高吞吐量，单GPU利用率少于了50%。

工作团队还利用核酸有序和分布式最优化器技术，将输入核酸和最优化器完全调配到不同GPU，大大降较差了单个GPU的计有数和内存阻力。

那么，这种“成长手段”操练显露的FLM表现又如何呢？作者给显露了Open LLM有数据集的验证结果。

FLM在四个工程建设中所得到的少于战绩相似GLM-120B和Llama-7B，但操练开发成本显著很较差二者。

而在其中所的TruthfulQA男子组中所，FLM的战绩甚至少于了Llama 2。

经验方面，16B参有数的eFLM在C-eval评测中所，少于战绩少于了130B参有数的GLM，并相似ChatGPT。

除了这些一般的benchmark，FLM工作团队还提显露了一项大三维“IQ验证”。

给大三维“测素质”

FLM工作团队提显露的大三维“素质验证”重点考察三维的解谜泛化能力，而非知识储备。

这项验证从如下四个维度进行了一触即发：

标记同构：使用随机标记取而代之归类字句，评估三维解谜和泛化能力，避免过度拟合。规则理解：检验三维能否按照给定规则进行操作，如“计有数”、“字符取而代之”等。方式在挖掘：给显露示例，让三维归纳推导显露自然现象并应用领域，如“头尾取而代之成”等。抗干扰能力：在噪声环境中所提取极为重要信息，有数多极为重要信息提取、单例证搜寻和双例证搜寻三项细节。

其中所第一、三、四项的示例如下图所示：

那么，FLM面对自家提显露的项目管理常规，战绩到底怎么样呢？

标记同构项目管理中所，FLM以较差一个有生产量级的浮点运算量在GLUE有数据集上得到了与GLM和GPT-3相近的战绩，在CLUE有数据集上的表现更是少于了GLM。

其余三个工程建设的战绩也都少于了GLM，并相似GPT-3。

论文IP：Hugging Face工程建设页：

— 完 —

光子位 QbitAI · 头条号加盟

治疗口腔溃疡可以用蒙脱石散吗
免疫力下降该怎么办
再林阿莫西林胶囊用法
感冒扁桃体炎肿大吃什么药
腱鞘炎快速止痛方法

上一篇：《冰雨火》陈宇四问吴振峰，杨兴权坦然淡定，刘队冒死犯险为哪般

下一篇：传闻称摩托罗拉下月发布Moto G84 5G手机：120Hz pOLED屏幕