大模型训练平台的算力急速增长:
据报道,GPT3.5 的训练使用了微软专门建设的 AI 计算系统,由 1 万个 V100 GPU 组成的高性能网络集群,总算力消耗约 3640 PF-days (即假如每秒计算一千万亿次,需要计算 3640 天)。
petaflops/s-day,或者缩写成pfs-day。比如,OpenAI衡量它家的强化学习模型OpenAI Five(就是那个19年战胜了DOTA职业战队OG的模型)训练量,就达到了800 pfs-day。
OpenAI定义神经网络中的一次乘法或者一次加法为一个操作,这一点和一般意义上的浮点运算操作FLOP略有不同。如果每秒钟可以进行10的15次方运算,也就是1 peta flops,那么一天就可以进行约10的20次方运算,这个算力消耗被称为1个petaflop/s-day。
那么,800个pfs-day是个什么概念呢?OpenAI透露他们用了256块P100 GPU和12.8万个CPU核心,整整训练了10个月的时间。OpenAI Five的总练习量相当于打了45000年Dota,每天的训练大概相当于人类打180年游戏。当然,在新版本Rerun中,OpenAI做了训练优化,但算力消耗也在150 pfs-day左右。
FLOP:Floating-point operations per second, 每秒浮点计算次数
1. Chatgpt 4.0
2. 百度文心一龙
3 . 讯飞星火
讯飞星火认知大模型
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)