ChatGPT等模型训练加速，预计2026年耗尽公开文本数据

Pablo Villalobos, Anson HoJaim2024-06-19 来源：Epochai

内容提要：AI科研机构Epochai发布研究报告指出，随着大型AI模型的发展，特别是过度训练现象，训练数据的需求呈指数级增长，预计将在未来几年内耗尽现有的高质量公开文本数据集。过度训练是一种优化策略，通过增加训练数据量来提高模型性能，但也会加速数据消耗。Epochai提出了合成数据、多模态和跨领域数据学习、私有数据等四种方法以应对训练数据短缺问题。然而，这些方法也面临质量、偏差、隐私和安全性等挑战。同时，保持适度的过度训练量对于控制数据消耗至关重要。

AI发展科研机构Epochai在官网发布了一项，关于大模型消耗训练数据的研究报告。

目前，人类公开的高质量文本训练数据集大约有300万亿tokens。但随着ChatGPT等模大型的参数、功能越来越强以及过度训练，对训练数据的需求呈指数级增长，预计将在2026年——2032年消耗完这些数据。

研究人员特别提到了“过度训练”（Overtraining）是加速消耗训练数据进程的主要原因之一。例如，Meta最新开源的Llama 3的8B版本过度训练达到了惊人的100倍，如果其他模型都按照这个方法来训练，数据可能在2025年就消耗尽了；70B版本还好，过度训练只有10倍。

所以，无论是闭源还是开源大模型，已经进入比拼训练数据的阶段，谁的模型学习的数据更多、维度更广，即便是小参数同样可以战胜大参数模型，尤其是在RAG、MoE、MTL等加持下效果更明显。

什么是过度训练

过度训练是在深度学习领域，特别是在大模型的训练过程中，开发者有意让模型使用的训练数据量超过计算最优模型所需的量。这种做法与传统的机器学习中避免过拟合的目标不同。

过拟合发生在模型过于复杂或者训练时间过长，以至于模型开始记忆训练数据中的噪声而非泛化到未见数据。但在大模型的过度训练是一种优化策略，可以节省推理成本和效率，同时模型开始学习训练数据中的噪音和细节，而不是潜在的数据分布。

这就像学生学习历史一样，如果只记住大量的日期和事件，而没有理解它们之间的联系和意义，在面对新的问题或需要综合分析时，可能无法给出准确的逻辑答案。

此外，大模型过度训练意味着参数量与训练数据量的比例超过了Chinchilla缩放定律建议的最佳比例大约D/N比为20。

在Chinchilla缩放定律下，保持这个比例可以使得模型在固定的训练计算预算下达到最低的可减少损失。不过开发者可能会选择让这个比例高于最优值，会让模型使用更多的数据来训练。

这样做虽然会增加训练阶段的数据需求，但能够减少模型在推理阶段的算力成本。因为相对于昂贵GPU，训练数据就便宜的多，尤其是在超大规模参数模型中的收益更明显。

Meta最新开源的Llama 3系列模型是过度训练的典型，GPT-3、Flan137B、Falcon-180B等模型也都存在这一现象。

如果保持在5——10倍的过度训练量，训练数据的消耗度还在可控范围之内，如果在100倍以上，将呈指数级增长，而Llama 3的8B版本过度训练就已经达到100倍。

公开训练数据没了，4种其他获取方法

在大模型领域，训练数据已经和AI算力一样变得非常重要，是决定模型性能的关键元素之一。虽然可以再生，但消耗速度过快可能会盖过生成速度出现无数据可用的局面。Epoch ai给出了以下4种获取训练数据的新方法。

1）合成数据：合成数据主要利用深度学习来模拟真实数据，来生成全新的数据。这种方法在数据短缺的情况下显得尤为重要，因为提供了一种潜在的无限扩展数据集的方式。目前，很多科技巨头已经在使用这个方法，不过也有很大的弊端。

合成数据的质量可能会比较差并出现过拟合行，这是因为在合成的过程中无法完全捕捉到真实数据的复杂性和多样性。

例如，合成数据可能缺乏真实文本中的某些细微的语言特征，或者可能过于依赖模型训练时使用的特定数据集，导致生成的文本缺乏多样性。此外，合成数据可能会引入一些新的偏差，这些偏差可能会影响模型的性能。

2）多模态和跨领域数据学习：多模态学习是一种涉及多种数据类型的学习方法，它不仅限于文本，还包括图像、视频、音频等多种形式的数据。通过结合不同模态的信息，可以更全面地理解和处理复杂的任务。

例如，GPT-4o、GPT-4V、Gemini等可以同时处理文本描述和相应的图片，以更好地理解场景和语境。这也是目前多模态大模型的主要训练数据方法之一。

此外，开发者也可以将目光投向其他领域，例如，金融市场数据、科学数据库、基因数据库等。根据预测，基因领域的数据增长每年保持在几百万亿甚至上千万亿，可以产生源源不断的真实数据。

3）私有数据：根据Epoch ai调查数据显示，目前全球文本数据包含私有总量大概在3100万亿tokens。而公开数据只有300万亿，也就是说还有90%的私有数据可以使用。

目前，已经有科技公司开始从这方面下手，例如，OpenAI成立了一个“数据联盟”专门搜集高质量、没公开过的私有数据，在训练GPT系列和最新的前沿模型。

但使用私有数据很有难度，首先，隐私和安全性是最大的顾虑，非公共数据往往包含敏感信息，如果用于模型训练，可能会引发隐私泄露的风险。例如，社交媒体上的私人对话、个人邮箱中的通信记录，这些都是用户不希望被公开的数据。

其次，获取和整合非公共数据的过程可能非常复杂。与公共数据相比，非公共数据分散在不同的平台和系统中，缺乏统一的标准和格式。这就需要开发新的技术和方法来收集、清洗和标准化这些数据，以便它们能够被有效地用于大模型训练

4）与真实世界实时交互学习：可以让模型通过与真实世界的直接互动来学习和进步。与传统的基于静态数据集的训练方法不同，这种学习方法强调的是大模型的自主性和适应性。在这种模式下，模型不仅仅是被动地接收数据，而是主动地探索环境，通过与人类交互来获得知识和技能。

但这种方法对模型的架构、性能、算力要求较高，需要具备一定的自主性和决策能力。大模型需能够准确理解用户输入的指令或问题，并根据这些指令在现实世界中采取行动。

例如，大模型可能需要根据用户的请求来推荐餐厅，这不仅需要它理解用户的偏好，还需要它能够访问和分析实时的餐厅信息。

此外，与真实世界互动的学习还需要模型具备处理不确定性的能力。现实世界是复杂多变的，充满了不确定性和偶然性。

模型需要能够适应这些不确定性，从不断变化的环境中学习并做出合理的决策。这就涉及到概率推理、风险评估和决策制定等高级认知功能。

企业、开发者们珍惜训练数据吧，就像我们珍惜水资源一样。不要等着枯竭的那一天，望着荒漠干流泪。

上一篇：英伟达市值登顶，超越苹果微软成全球第一
下一篇：金发姑娘区揭秘：AI是新石油，非神祇

相关话题

相关资讯

波卡基金会半年支出8700万美元，资金预计两年内耗尽？

美国非农就业数据预计表现强劲，但经济学家警告可能出现市场降温

下周市场或迎剧烈波动！欧洲央行加速降息，中美关键经济数据及多国CPI集中发布

BTC牛市阶段及逃顶价格预测：数据模型精准分析

加密牛市逃顶信号：沙漏模型数据清单及预警系统

以太坊紧张备战！开发社群加速推进新硬分叉，Pectra升级预计4月8日上线

Polymarket暴利密码：9500万链上交易数据揭示6大稳赚模型

新手也能轻松掌握：Solana与以太坊程式设计模型的区别解析

牛市“买新不买旧”：数据分析揭示的投资理论，真的靠谱吗？

美国会众议院通过加密监管法案，特朗普公开支持加密货币，ETH现货ETF受关注，Ben the VC分享见解

您可能喜欢的标签

猜你喜欢

ChatGPT等模型训练加速，预计2026年耗尽公开文本数据

什么是过度训练

公开训练数据没了，4种其他获取方法

波卡基金会半年支出8700万美元，资金预计两年内耗尽？

美国非农就业数据预计表现强劲，但经济学家警告可能出现市场降温

下周市场或迎剧烈波动！欧洲央行加速降息，中美关键经济数据及多国CPI集中发布

BTC牛市阶段及逃顶价格预测：数据模型精准分析

加密牛市逃顶信号：沙漏模型数据清单及预警系统

以太坊紧张备战！开发社群加速推进新硬分叉，Pectra升级预计4月8日上线

Polymarket暴利密码：9500万链上交易数据揭示6大稳赚模型

新手也能轻松掌握：Solana与以太坊程式设计模型的区别解析

牛市“买新不买旧”：数据分析揭示的投资理论，真的靠谱吗？

美国会众议院通过加密监管法案，特朗普公开支持加密货币，ETH现货ETF受关注，Ben the VC分享见解

6年前东莞22万人血汗钱涌入美股，赚取38倍惊人回报

滚仓空军一周本金翻五倍！3亿美元空单持续未平仓，看空后市！

2026年加密货币开年巨震：4.7亿美元爆仓血洗多军，监管风暴下合规赛道成唯一出路

【突发】马杜罗600亿比特币秘密金库曝光：60万枚BTC下落成2026年最大加密悬案

【突发】特朗普关税裁决引爆币圈：比特币闪崩9万大关，2026年首轮多军爆仓潮来袭

150亿美元比特币归属悬案：电诈之王陈志落网背后12.7万枚BTC终极争夺战

2025币圈大戏：这20条神预言推文竟成年度最准风向标

科技帝国陨落之谜：波士顿从硅谷劲敌到'锈带之城'的致命转折

2025科技富豪套现榜：贝佐斯57亿领衔，黄仁勋扎克伯格集体减持内幕

Polymarket拒赔美军突袭委内瑞拉赌局引众怒，神秘账户精准押注狂赚40万美元内幕曝光