博天堂918在线娱乐新浪新闻探索大会｜卞正达：Colossal-AI：AI大模型帮助企业降本增效

加载中...

2023-12-29

　　博天堂918在线娱乐新浪新闻探索大会｜卞正达：Colossal-AI：AI大模型帮助企业降本增效基于上述这些体系优化,关于常睹的开源模子,比如GPT、Llama等等,咱们都可以杀青显着的降本和加快。

　　一体机大模子供职器这个产物,是咱们会针对软硬件做少少极致优化,同时供给丰饶模子库和行使类型,让用户尽量开箱即用,获取一个低本钱、低代码的AI开采体验□□。

　　第三个是序列并行,由于现正在长序列一个模子也是目前较量热门一个起色趋向。本来其他少少框架或众或少有少少好像去处置这个长序列一个计划,比方说Deepspeed等都有序列计划,然而假如着重商量过他们的杀青,会发觉他们正在估计attention的岁月,并没有切分序列长度这个维度□□。

　　下面简直先容一下咱们框架的中央策画细节。第一个便是N维并行体系,正在咱们开采这个Colossal-AI框架之前,仍然有格外众的并行的少少本领计划,像是Gpipe的流水线并行计划,Deepspeed的Zero数据并行计划、以及Megatron的3D并行计划等等。然而咱们发觉用户拿到一个本质需求之后,他很难去精确采选一个适应的加快计划,把这个需求转化成真正一个落地的大模子处置计划。

　　同时,咱们为了告成安顿大模子的操练和推理,咱们必要去保护一个成百上千张显卡的宏壮的集群□。这个本钱也辱骂常可观的□□。

　　刚刚有良众专家提到,目前一个主流的操练计划是预操练加上微调这两步。通过这个计划,咱们把它拆成预操练+转移操练+微调这三步□。由于第一步预操练是本钱最高的症结,咱们可能诈欺目前开源少少大模子,咱们也可能看到目前开源模子这个起色也是相等缓慢,LLaMA等这些开源模子都格外不错□□。咱们可能借助它们的才力,正在笔直范畴上只须通过转移操练加上微调两步把它大模子才力落地到简直场景中,可能杀青一个较低的本钱下,竣工较量定制化一个专业模子。于是咱们开源模子之后也是受到了必然的热度。

　　咱们这套序列并行计划本来不单对操练,况且对大模子推理也是有用的□□。由于遵照咱们的阅历,咱们常用这些推理卡,A10安顿一个7B独揽模子推理,单卡可以承载这个拓扑数2500-3000级别□。咱们晓得看到有良众,像是64K,以至128K如许一个超长序列模子,它去做如许的模子超长序列推理岁月,会必要咱们如许的序列并行计划去杀青一个超长序列的散布式管理。

　　比方说谷歌PaLM模子,假如用一张显卡操练,传闻是要操练时代长达超出300年,同时操练本钱高达900万美元□。这么高本钱由于重要它的参数目和操练所需的数据量的范围都涌现一个逐年飞速延长的趋向。因而它带来的估计量仍然到达了一个格外宏壮的数目级。

　　第二点,内存统制异构体系。由于咱们晓得深度研习,希奇是正在用羼杂精度操练岁月,它的大个人存储本来被用正在优化器参数更新上,估计较量重的前向和反向估计历程当中,本来它的存储开销相对较少。于是咱们可能通过较为便宜的CPU存储去缓存一个人的模子估计中少少冗余存储,比方可能把这个优化器的个人都转移到CPU存储上,消浸这个GPU的存储压力。然而假如把总共的冗余存储都搬到CPU上,会导致CPU和GPU之间有一个一再的通讯数据交流。咱们晓得目前少少物理开发上,CPU和GPU之间带宽较量瓶颈,于是咱们依然思要尽或者节减异构存储带来格外的通讯开销□□。咱们一个思绪是,尽或者依然把大个人存储都放正在GPU上,唯有把超出上限这个个人缓存到CPU上,如许就能节减大个人的数据交流,然后同时咱们也尽或者把估计都保存正在GPU上去做□□。

　　咱们本年还推出少少进一步晋升用户体验,消浸用户门槛的少少产物,像是一个云平台跟一体机□。云平台便是咱们集成Colossal-AI的散布式加快才力,以及网罗操练、微调、推理、安顿等场景,供给一个低代码、低门槛、低本钱的云上AI开采体验□。

　　第二个是模子并行,这个网罗咱们框架里供给的计划,网罗流水线并行,网罗张量并行,同时针对差别的物理拓扑,会供给少少差别的模子并行优化算法,到达最佳的估计和通讯同步的作用。

　　1、高效内存统制体系,它的重要的思绪是可能诈欺更低廉的CPU内存和硬盘空间去缓存模子估计中冗余的存储开销,极大地消浸GPU的存储压力,相当于消浸硬件门槛。

　　咱们是思要诈欺这个高本能散布式的算法,去助助企业落地散布式大模子,也助助他们去杀青降本增效。咱们这个框架一个重要的策画思绪,网罗以下三层:

　　近年来AI飞速起色。之前2016的岁月,当时较量火的ResNet模子,或者几个小时就可能操练完一个CIFAR10利用,到了其后操练BERT模子或者花一两天可能做完□。然而到了今朝大模子期间,咱们模子的参数目和估计量都是膨胀到一个格外可观数目级。

　　其余咱们还开源了一个中文LLaMA-2这么一个转移操练计划。这个计划是咱们基于LLaMA-2开源基座,只行使了8.5个Billion数据量,不超出1000美刀的本钱,把LLaMA-2说话才力转移到中文场景内中□□。咱们可能看到正在常睹的公然中文benchmark上,它的才力和之前7B、6B范围的少少开源大模子,比如百川、ChatGLM的分数也是并驾齐驱的□□。

　　咱们一个思绪,把目前业界最SOTA最高效这些并行计划整合进一套体系,借助咱们永久做体系优化的阅历,去助助用户他们来采选适应的并行计划,同时供给一个最高效的体系杀青□。

　　2、N维并行体系,这一层咱们诈欺少少散布式的算法,不单可以匀称去切分大模子的存储开销,同时也可以杀青一个较量高效的估计和通讯□□。

　　咱们框架里是正在全程估计中都杀青了序列维度的切分,也便是说只须有足够众的开发,咱们就可以杀青一个无穷长的序列一个估计。

　　于是咱们推出Colossal-AI框架,思要正在散布式安顿这一层去诈欺高效的散布式算法,处置AI大模子安顿一个超高本钱题目。这个框架是行为一个软件的基本举措,它是向上可能承接PyTorch、Huggingface、Lightning等差别的AI利用,向下可能兼容网罗GPU、TPU、NPU等等差别的硬件加快计划。

　　同时,咱们还开采了基于chunk的tensor存储机制。这个思绪来自于DDP里通过bucket去晋升本质梯度同步通讯作用。好像地正在zero并行等计划中,也可能通过chunk把小的tensor羼杂到一齐通讯,如许可能地更好诈欺带宽来晋升通讯作用。

　　谢谢诸位,我是来自潞晨科技的卞正达。即日重要代外董事长跟公共做一个相易,今先天享这个大旨重要是合于AI大模子的散布式体系优化。最先我先先容一下大模子期间下的起色配景和少少挑衅。

　　像数据并行,咱们处置了一个题目,常睹数据并行计划下,假如咱们操练批巨细超出8000以上,导致最终模子有一个泛化题目博天堂918在线娱乐。正在咱们框架里通过LARS、LAMB如许少少针对做优化这些优化器处置这个题目,同时把批巨细普及到像64K一个水准。

　　12月20日,由中邦互联网协会、微博、新浪消息主办的“数字力气,查究无穹”2023查究大会正在北京拉开帷幕新闻中心。潞晨科技笼络创始人兼CTO卞正达分享了题为《Colossal-AI:AI大模子的挑衅与体系优化》的演讲。

　　3、低延迟推理体系,咱们诈欺量化、并行估计等等战术最大化的推理安顿一脾气价比□□。工业界获取必然的承认和影响力,咱们看到横向比照少少其他厂商散布式框架,延长速率较量疾,目前堆集了3.5万众颗Star□。这些开源社区用户也是来自全天下各地。同时咱们的少少中央就业也是被少少顶级的集会所接纳□。

　　同时咱们正在岁首2-3月份岁月,也是第一个推出ChatGPT的RLHF计划的一个复现和开源□。咱们还推出中文ColossalChat这么一个众轮对话的利用,同时也网罗ColossalEval这个对话模子的验证器械。