2024-07-12_五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活机器之心报道编辑：杜伟、泽南论老黄卖铲子的技术含量。 2019 年 2 月，OpenAI 发布了 GPT-2，因为在文本生成上的优异表现，以及对于预训练 Transformer 架构的充分运用，被认为是如今大预言模型的「始祖」。五年后的今天，训练 GPT-2 这样 15 亿参数的大模型，只需要花费 672 美元，在一个 8XH100 的 GPU 节点上跑 24 个小时就可以搞定了。本周四，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 在他纯 C 语言复现 GPT-2 大模型的项目「llm.c」的最新进展中分享了他的训练心得：令人难以置信的是，由于计算硬件（英伟达 H100 GPU）、软件（CUDA、cuBLAS、cuDNN、FlashAttention 等）和数据质量（例如 FineWeb-Edu 数据集）的改进，过去 5 年间，大语言模型的训练成本大幅下降。Karpathy 表示，对于此次实践，算法遵循 GPT-2/3 论文基本保持原样不变。当年 OpenAI 训练 GPT-2 花费了多少钱？这是个至今仍然未知的数字。Karpathy 粗略地估算认为是这回成本的 100 倍，大概要到 10 万美元的量级。基本相同的任务，运行效率却有天壤之别，这体现了近几年来 AI 领域和算力基础设施的飞速发展。由于 llm.c 是在 C/CUDA 中 GPT 训练的直接实现，因此要求其实很少 —— 不需要 conda 环境、Python 解释器、pip 安装等。如果你也要尝试，可以启动云 GPU 节点（例如在 Lambda 上），可选择安装 NVIDIA cuDNN、NCCL/MPI，下载 .bin 数据分片，编译并运行，几分钟后即可开始。然后，你就可以等待 24 小时，然后欣赏通用大语言模型的能力了。「对于 llm.c 项目来说，这是一个非常好的节点。因为整个项目都是从我考虑为教育视频重现 GPT-2 开始的。我遇到一些 PyTorch 的东西时卡住了，然后愤怒地退出，再用 C/CUDA 从头开始编写整个项目，」Karpathy 表示。「这让我踏上了比预想更长的旅程。但它非常有趣，我学到了更多的 CUDA，一路上结交了朋友，现在的 llm.c 真的很棒。它有大约 5000 行代码，编译和步骤非常快，几乎不需要等待。它具有恒定的内存占用，它以混合精度进行训练，使用 NNCL 分布在多节点上。它是按位确定性的，并且徘徊在 MFU 的 50% 左右。所以它很 ok。」对于 llm.c 项目而言，越做似乎挖得坑越大。Andrej Karpathy 对目前的运行结果仍然不是 100% 满意 —— 他认为评估应该更好，训练应该更稳定，尤其是在较长时间运行的较大模型尺寸下。他还预告了一些有趣的新方向：fp8（即将推出）、推理、微调、多模态（VQVAE 等）、更现代的架构（Llama/Gemma）。llm.c 的目标仍然是为功能齐全的 LLM 智能体提供简单、最小、干净的训练堆栈，直接使用 C/CUDA，并包含配套的教育材料，可以让许多初学者快速了解这个令人敬畏的领域。说完了这么多，该看看 24 小时训练 GPT-2 的成果了：Karpathy 使用更长的 400B token GPT-2 运行（从 33B token 增加），效果良好，直到 330B（达到 61% HellaSwag，远高于这个大小的 GPT-2 和 GPT-3），然后在这个图之后不久爆炸了。目前作者还在继续进行研究。接下来看详细项目介绍。 GitHub 地址：https://github.com/karpathy/llm.c/discussions/677 训练。使用 llm.c 训练 GPT-2 非常简单，因为它是用 C/CUDA 编写的，因此不需要 minconda、Python、PyTorch 等。你只需一个 8XH100 GPU box，Karpathy 建议从 Lambda Labs 购买一个。不过 llm.c 在计算上很灵活，如果你只有 1 个 GPU，仍然可以训得 GPT-2，这时你需要等待 8 天而不是 1 天。如果你有 16 个 GPU（例如使用新的 Lambda 1 Click Clusters），则能够训练多节点，这时只需等待 12 小时。启动节点后，以下是训练 GPT-2 的完整说明： #installcudnnsowecanuseFlashAttentionandrunfast(optional) #https://developer.nvidia.com/cudnn-downloads #forme,CUDA12(run`nvcc--version`)runningonLinuxx86_64Ubuntu22.04 wgethttps://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb sudodpkg-icuda-keyring_1.1-1_all.deb sudoapt-getupdate sudoapt-get-yinstalllibcudnn9-dev-cuda-12 #"install"cudnn-frontendto~/ gitclonehttps://github.com/NVIDIA/cudnn-frontend.git #installMPI(optional,ifyouintendtousemultipleGPUs) #(youmightalsohavetoinstallNVIDIANCCLifitdoesn'tcomewithyoursetup) sudoapt-yinstallopenmpi-binopenmpi-doclibopenmpi-dev #downloadandenterllm.crepo gitclonehttps://github.com/karpathy/llm.c.gitcdllm.c #downloadthe"starterpack"(~1GBdownload) #containsGPT2-124Mweights(usedintests),tokenizer,evaldata.bins ./dev/download_starter_pack.sh #downloadthetrainingdataset(FineWeb-Edu100Btoken).bindatashards #note:thisisatotalof1001datashards.Ifyouonlywanttotestthings #outanddon'twanttodoanactualrun,feelfreetoappendthenumberof #trainingshardstodownload(e.g.forjust10shards:./edu_fineweb.sh10) #thefulldatasetis~200GB,wecanstoreithereindev/datadirectory. cddev/data ./edu_fineweb.sh #compile(~1min1sttimeforcuDNNmostly,fewsecfromthenon) cd../../ maketrain_gpt2cuUSE_CUDNN=1 #andtrain!(wait24hourshere) mpirun-np8./train_gpt2cu\ -i"dev/data/edu_fineweb100B/edu_fineweb_train_*.bin"\ -j"dev/data/edu_fineweb100B/edu_fineweb_val_*.bin"\ -o"log_gpt2_1558M"\ -v250-s300000-g384\ -h1\ -b16-t1024\ -d1048576\ -r0\ -z1\ -c0.1\ -k"cosine"\ -l0.0006\ -q0.1\ -u700\ -n2000\ -x32000\ -ge1\ -y1\ -e"d48" 开始优化： num_parameters:1557686400=bytes:3115372800 allocated2971MiBformodelparameters batch_sizeB=16*seq_lenT=1024*num_processes=8andtotal_batch_size=1048576 =settinggrad_accum_steps=8 createddirectory:log_gpt2_1558M allocating40409MiBforactivations valloss11.129390 allocating2971MiBforparametergradients allocating742MiBforAdamWoptimizerstatem allocating742MiBforAdamWoptimizerstatev allocating742MiBformastercopyofparams step1/32000|loss11.133732(+nanz)|norm52.9732(+nanz)|lr8.57e-07|3056.36ms|42.6%bf16MFU|343080tok/s step2/32000|loss10.539388(+nanz)|norm43.5996(+nanz)|lr1.71e-06|2747.19ms|47.4%bf16MFU|381690tok/s step3/32000|loss9.894109(+nanz)|norm23.2229(+nanz)|lr2.57e-06|2753.25ms|47.3%bf16MFU|381259tok/s step4/32000|loss9.566241(+nanz)|norm28.4920(+nanz)|lr3.43e-06|2741.47ms|47.5%bf16MFU|381690tok/s step5/32000|loss9.482848(+nanz)|norm23.7817(+nanz)|lr4.29e-06|2752.07ms|47.3%bf16MFU|381507tok/s step6/32000|loss9.332832(+nanz)|norm15.9113(+nanz)|lr5.14e-06|2751.01ms|47.3%bf16MFU|381431tok/s step7/32000|loss9.165650(+nanz)|norm10.5941(+nanz)|lr6.00e-06|2753.03ms|47.3%bf16MFU|381327tok/s step8/32000|loss9.132234(+nanz)|norm16.2733(+nanz)|lr6.86e-06|2748.91ms|47.3%bf16MFU|381348tok/s step9/32000|loss9.097384(+nanz)|norm12.1342(+nanz)|lr7.71e-06|2748.73ms|47.3%bf16MFU|381367tok/s step10/32000|loss9.072879(+nanz)|norm10.5923(+nanz)|lr8.57e-06|2749.40ms|47.3%bf16MFU|381369tok/s ... 每一步大约需要 2.75 秒，共有 32000 步，所以现在我们等待 24 小时左右。在每一步中，训练运行都会占用约 100 万个 FineWeb-EDU token（这些来自互联网的教育网页），并更新模型的 15.58 亿个权重，使其能够更好地预测序列中的下一个 token。最后将总共处理 32000 * 1048576 = 33.6B 个 token。随着更好地预测下一个 token，损失会下降。范数将稳定在 0.1-1 左右，学习率在前面几步预热。模型 flops 利用率 (MFU) 约为 50%，非常高效。等待 24 小时后，就可以使用 dev/vislog.ipynb jupyter 笔记本可视化 main.log 日志文件。为此，你还需要安装 Python 和 matplotlib。参数指南。OpenAI 发布的 GPT-2 包含模型权重，但细节很少；而 GPT-3 版本没有权重，但细节很多。因此，在许多情况下，我们遵循 GPT-3 论文超参数，因为 GPT-2 论文的信息非常少。具体参见原项目。内存指南。大多数人可能面临的最大限制是他们的 GPU 没有 80GB。没关系，你仍然可以运行上面的所有内容，只是运行速度会更慢。因此如果模型不适配，你会怎么做？最重要的是微批大小 - b。尝试减小它，但将其保持在合适的数字，例如 16 → 8 → 4 → 2 → 1。从那里开始，尝试使用重计算设置 -r，即 0（最快且有大量内存）、1（稍微慢一点，但节省大量内存）或 2（稍微慢一点，节省较少内存）。你可以做的下一件事是禁用 fp32 中的主权重，可以使用 - w 0 （默认值 1）来执行此操作。我们不会维护 fp32 参数副本。根据经验，在之前的几次运行中，这似乎没问题，可能是因为使用了随机舍入。如果还不适合，则可以尝试使用 -t 来减少最大序列长度，默认值为 1024，你可以将其降低到 512、256 等。但现在你会让模型变得更糟，因为它的最大注意力跨度正在减少。代码。Karpathy 对 llm.c 略有偏爱，认为它非常漂亮：它只需要基本的 CUDA 依赖项即可运行。它是 C/CUDA 中直接、最小且易读的实现。llm.c 共有约 5,000 行 C/CUDA 代码。这里尝试主要使用 C，而不是 C++，以保持简单。神经网络训练只是对单个浮点数组进行相同的简单算术运算（如 +、-、、/）的一个 while 循环，它实际上不应该那么复杂。它编译和运行非常快（几秒钟），因此可以进行更多步进和更短等待。它在开始时一次性分配其所有 GPU 内存，从那时起在训练期间具有完全恒定的内存占用。因此，一旦开始步进，就可以在剩余的运行中表现良好并且不会内存用完（OOM）。它是按位（bitwise）确定的。它非常高效，略低于～50% 的 MFU。主要入口点和大部分代码位于文件 train_gpt2.cu 中。它包含 GPT-2 模型定义和约 2,000 LOC 的训练 loop，并从 llmc 目录导入了一堆带有各种实用程序和各个层实现的辅助文件。最后 cloc llmc 报告了 23 个文件、3170 LOC，而 cloc train_gpt2.cu 目前是 1353 LOC。多节点训练。如果你拥有大量 GPU，并且 llm.c 支持多节点训练，则不用考虑太多了。Karpathy 见过训练 llm.c 时最多使用了约 500 个 GPU，他自己迄今为止进行的最大规模运行是在 Lambda 的全新一键集群功能上进行的，在 2 个节点中共使用了 16XH100 GPU。同时 lambda 团队提供了有关如何在其一键集群上训练 llm.c 模型的详细说明。例如使用 512-GPU H100 集群，每小时花费 2,300 美元，你或许能够在约 30 分钟内训练 GPT-2。你必须增加总批量大小（例如增加至约 8M），或许还得微调超参数。Karpathy 还没有尝试过，但它可能有效，而且会非常酷。与 PyTorch 比较。Karpathy 认为在 PyTorch 中相当的运行看起来像这样，使用并行 PyTorch 实现： torchrun--standalone--nproc_per_node=8train_gpt2.py\ --input_bin"dev/data/edu_fineweb100B/edu_fineweb_train_*.bin"\ --input_val_bin"dev/data/edu_fineweb100B/edu_fineweb_val_*.bin"\ --write_tensors0\ --modeld48\ --batch_size8--sequence_length1024--total_batch_size1048576\ --dtypebfloat16\ --compile1\ --tensorcores1\ --flash1\ --num_iterations32000\ --warmup_iters700\ --weight_decay0.1\ --overfit_single_batch0\ --learning_rate0.0006\ --zero_stage1 PyTorch 代码仅供测试参考，而非实际实现，因此训练 loop 在某些地方会略有不同（例如数据加载器不会对分片进行置换等），但这仍可能作为参考点有用。这里还将默认词汇大小修改为 50257 → 50304 以提高效率，然后当前的 PyTorch 夜间给出： step16/32000|trainloss8.903997|norm8.3474|lr1.37e-05|(3381.88ms|310057tok/s) step17/32000|trainloss8.870140|norm3.7936|lr1.46e-05|(3381.95ms|310051tok/s) step18/32000|trainloss8.875732|norm9.4993|lr1.54e-05|(3393.09ms|309033tok/s) step19/32000|trainloss8.817432|norm2.8345|lr1.63e-05|(3379.75ms|310253tok/s) step20/32000|trainloss8.798056|norm4.1234|lr1.71e-05|(3386.53ms|309631tok/s) step21/32000|trainloss8.777574|norm2.8010|lr1.80e-05|(3386.05ms|309675tok/s) ... 现在不能说完全有信心 PyTorch 脚本已得到最大程度的调整，但可以得到以下观察结果。 PyTorch 似乎占用了更多内存（此次运行约为 80GB），而 llm.c 占用了 57GB（减少了 29%）。内存很重要，因为它允许增加批处理大小（例如 llm.c 在此处最多可以增加到 24 个微批处理），这样速度会更快一些。其次，每次迭代大约为 3386 毫秒，而非 2750 毫秒，因此 llm.c 的速度提高了约 19%。这里的一些收益是已知的，例如 llm.c 包括启动反向传递的融合分类器等优化，这是 torch.compile 目前无法做到的。但是也可能存在一种情况，这个脚本没有完全进行最大程度的调整。这里不做赘述。最终模型。以下几个链接可能对其他人有帮助： main.log 文件（http://llmc.s3-us-west-2.amazonaws.com/gpt2_1558M/main.log） model_00032000.bin llm.c bin 模型文件（http://llmc.s3-us-west-2.amazonaws.com/gpt2_1558M/model_00032000.bin）转换为 huggingface transformers GPT-2 模型（https://huggingface.co/karpathy/gpt2_1558M_final2_hf）模型导出。模型导出可以按如下方式进行： pythondev/eval/export_hf.py--inputlog_gpt2_128M/model_00032000.bin--outputgpt2_1558M_export 然后就可以运行 Eleuther 评估工具，或者运行 huggingface 采样 pipeline 来获取模型样本： #takemodelforspin importtorch output="./gpt2_1558M_final2_hf" #setpytorchseeds torch.manual_seed(42)torch.cuda.manual_seed(42) prompt="Inashockingfinding,scientistdiscoveredaherdofunicornslivinginaremote,previouslyunexploredvalley,intheAndesMountains.EvenmoresurprisingtotheresearcherswasthefactthattheunicornsspokeperfectEnglish." fromtransformersimportAutoModelForCausalLM,AutoTokenizer tokenizer=AutoTokenizer.from_pretrained(output)model=AutoModelForCausalLM.from_pretrained(output,attn_implementation="flash_attention_2",torch_dtype=torch.bfloat16,device_map='cuda')model.eval()tokens=tokenizer.encode(prompt,return_tensors="pt")tokens=tokens.to('cuda') output=model.generate(tokens,max_new_tokens=500,pad_token_id=tokenizer.eos_token_id,do_sample=True,top_k=50,num_return_sequences=4)samples=tokenizer.batch_decode(output)forsampleinsamples: print('-'*30) print(sample) 你还可以查看 dev/eval，以获取有关如何运行 Eleuther Evaluation Harness、以及 HuggingFace Open LLM 排行榜评估等说明。 400B token 运行。Karpathy 还尝试将训练 GPT-2 的时间远超过 33B token，特别是将 -x 更改为 400,000 以训练 420B token（甚至比使用 300B token 训练的 GPT-3 还要多）。这个模型运行看起来很棒，直到大约 330,000 步：最终，模型在 HellaSwag 上大大超越了同等大小的 GPT-2 和 GPT-3（最高可达约 61%），但遗憾的是，从那时起它就变得不稳定了。在此过程中，还有更多较小的峰值，但代码配置为检测更简单的瞬时不稳定性并跳过更新（Karpathy 使用了标志 sl 5.0 -sg 5.0），这有助于缓解和推迟问题。但是，他认为对初始化、激活范围和整体模型训练稳定性还不够谨慎，并存在更深层次问题，这些问题会逐渐使模型陷入不稳定状态，较大模型和长时间训练更是如此。参考内容： https://x.com/karpathy/status/1811467135279104217 创意为王安全为先，AIGC的双线作战 7月17日，《AIGC体验派》第五期，邀请到火山引擎内容安全与风控负责人张建洋和NVIDIA企业级开发者社区高级经理何琨，一起聊聊AIGC在营销领域的创新与安全问题：如何避免大语言模型不再胡言乱语？如何确保AIGC创作内容的质量与安全？如何避免营销活动成为黑产的提款机？识别海报二维码或点击阅读原文，立即报名直播。 ?THE END 转载请联系本公众号获得授权投稿或寻求报道：content@jiqizhixin.com 阅读原文

上一篇：2024-10-02_这个法国品牌的视觉创意，阅后班味退散

下一篇：2024-03-28_顶尖AI研究者，中国贡献26%：全球人才智库报告出炉

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系