早报网

網(wǎng)站地圖 - 關(guān)于我們
您的當(dāng)前位置: 首頁(yè) > 科技 > 業(yè)內(nèi) 正文

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

作者:用戶投稿 時(shí)間:2023-04-02 12:31 點(diǎn)擊:
導(dǎo)讀:

明敏 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

這邊ChatGPT、GPT-4等AI大模型和應(yīng)用打得火熱;

另一邊“平替”開源復(fù)現(xiàn)方案也加緊更新迭代。

這不,“首個(gè)開源ChatGPT低成本復(fù)現(xiàn)流程”就來(lái)了波大更新!

現(xiàn)在,僅需不到百億參數(shù),利用RLHF簡(jiǎn)單微調(diào),模型即可掌握中、英雙語(yǔ)能力,達(dá)到與ChatGPT和GPT-3.5相當(dāng)?shù)男Ч?/p>

中文對(duì)話效果如下:

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

這就是ColossalChat

由Colossal-AI推出。一個(gè)月前,Colossal-AI乘著ChatGPT熱潮火速開源了低成本復(fù)現(xiàn)流程。

而新升級(jí)的ColossalChat,以Meta最新開源的LLaMA為基礎(chǔ)預(yù)訓(xùn)練模型,能力更強(qiáng)、門檻還更低了:

  • Demo:可直接在線體驗(yàn)?zāi)P托Ч瑹o(wú)需注冊(cè)或waitinglist
  • 訓(xùn)練代碼:開源完整 RLHF 訓(xùn)練代碼,已開源至含7B、13B兩種模型
  • 數(shù)據(jù)集:開源104K中、英雙語(yǔ)數(shù)據(jù)集
  • 推理部署:4bit量化推理70億參數(shù)模型僅需4GB顯存
  • 模型權(quán)重:僅需單臺(tái)服務(wù)器少量算力即可快速?gòu)?fù)現(xiàn)
  • 更大規(guī)模模型、數(shù)據(jù)集、其他優(yōu)化等將保持高速迭代添加

要知道,模型開源、數(shù)據(jù)集、訓(xùn)練應(yīng)用成本、核心數(shù)據(jù)安全性等,是AI大模型浪潮下最被關(guān)注的一些問(wèn)題。ColossalChat針對(duì)于此,一次性給出了應(yīng)對(duì)方法。

由此,想要快速跟進(jìn)ChatGPT這輪技術(shù)浪潮,門檻又低了一些。

開源地址:https://github.com/hpcaitech/ColossalAI

包含完整 RLHF 流程

具體來(lái)看,ColossalChat的能力包括知識(shí)問(wèn)答、中英文對(duì)話、內(nèi)容創(chuàng)作、編程等。

和ChatGPT一樣,ColossalChat知道NBA和喬丹是誰(shuí):

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

會(huì)寫郵件,格式非常規(guī)范:

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

編程能力也不錯(cuò),能搞定算法:

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

據(jù)了解,為了能更逼近ChatGPT、GPT-4的驚艷效果,ColossalChat使用LLaMA作為預(yù)訓(xùn)練模型,并包含完整RLHF流程。

之所以這樣做,主要是因?yàn)楝F(xiàn)有開源方案都可被視為只得到了人類反饋強(qiáng)化學(xué)習(xí)(RLHF)中第一步的監(jiān)督微調(diào)模型,沒(méi)有進(jìn)行后續(xù)的對(duì)齊和微調(diào)工作。

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

△RLHF的三個(gè)階段

比如Meta 開源了LLaMA模型,其參數(shù)量從70億到650億不等,號(hào)稱130 億參數(shù)即可勝過(guò)1750億的GPT-3模型在大多數(shù)基準(zhǔn)測(cè)試的表現(xiàn)。

但是由于沒(méi)有被指令微調(diào)(instruct tuning),因此實(shí)際生成效果不夠理想。

斯坦福的Alpaca通過(guò)調(diào)用OpenAI API,以self-instruct方式生成訓(xùn)練數(shù)據(jù),使得僅有70億參數(shù)的輕量級(jí)模型以極低成本微調(diào)后,即可獲得媲美GPT-3.5這樣千億參數(shù)的超大規(guī)模語(yǔ)言模型的對(duì)話效果。

而ChatGPT、GPT-4效果好的一大關(guān)鍵就是將RLHF引入訓(xùn)練流程,才能讓生成內(nèi)容更符合人類價(jià)值觀。

因此,基于LLaMA模型,包含完整RLHF流程的類Chat模型復(fù)現(xiàn)方案 ColossalChat,可以稱得上是目前最接近ChatGPT原始技術(shù)路線的實(shí)用開源項(xiàng)目。

總結(jié)來(lái)看,和Alpaca相比較ColossalChat具備4個(gè)方面的優(yōu)勢(shì)

第一、ColossalChat開源了第一個(gè)完整的RLHF pipeline斯坦福Alpaca沒(méi)有做RLHF,也就是沒(méi)有做Stage2和3。

第二、ColossalChat采用了更多的指令數(shù)據(jù),質(zhì)量更好、范圍更大,并使用強(qiáng)化學(xué)習(xí)做了alignment使回答更接近人類。

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

第三、ColossalChat訓(xùn)練流程集成了Colossal-AI的諸多系統(tǒng)優(yōu)化,同等數(shù)據(jù)集和模型大小的訓(xùn)練速度可以比AIpaca快3倍左右能讓科研人員和中小企業(yè)獨(dú)立訓(xùn)練部署自己的會(huì)話系統(tǒng)

第四、ColossalChat采集了更多數(shù)據(jù)集:訓(xùn)練的英文一共 24M tokens,中文大約 30M tokens,總共約 54M tokens。其中ColossalChat自己收集的數(shù)據(jù)集英文 6M,中文 18M tokens。

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

訓(xùn)練數(shù)據(jù)集開源

數(shù)據(jù)集方面,ColossalChat開源了包含約10 萬(wàn)條問(wèn)答的中、英雙語(yǔ)數(shù)據(jù)集

該數(shù)據(jù)集收集并清洗了社交平臺(tái)上人們的真實(shí)提問(wèn)場(chǎng)景作為種子數(shù)據(jù)集,利用self-instruct技術(shù)擴(kuò)充數(shù)據(jù),花費(fèi)約900美元進(jìn)行標(biāo)注。

對(duì)比其他self-instruct方法生成的數(shù)據(jù)集,該數(shù)據(jù)集的種子數(shù)據(jù)更加真實(shí)、豐富,生成的數(shù)據(jù)集涵蓋的話題更多。

該數(shù)據(jù)可以同時(shí)用于微調(diào)和RLHF訓(xùn)練。通過(guò)高質(zhì)量的數(shù)據(jù),ColossalChat能進(jìn)行更好地對(duì)話交互,同時(shí)支持中文。

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

△ColossalChat數(shù)據(jù)集收集流程

RLHF算法復(fù)現(xiàn)

RLHF第一步(Stage1)是supervised-fintuning,即使用上文提到的數(shù)據(jù)集進(jìn)行模型微調(diào)。

RLHF第二步(Stage2)訓(xùn)練了獎(jiǎng)勵(lì)模型,它通過(guò)對(duì)于同一個(gè)prompt的不同輸出進(jìn)行人工排序,得到對(duì)應(yīng)分?jǐn)?shù),監(jiān)督訓(xùn)練獎(jiǎng)勵(lì)模型。

RLHF第三步(Stage3)使用了強(qiáng)化學(xué)習(xí)算法,是訓(xùn)練流程中最復(fù)雜的一部分:

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

△RLHF-Stage3算法流程圖

在PPO部分,ColossalChat分為兩個(gè)階段進(jìn)行:

首先是Make Experience部分,利用SFT、Actor、RM、Critic模型計(jì)算生成Experience存入buffer中;之后是參數(shù)更新部分,利用Experience計(jì)算策略損失和價(jià)值損失。

在PTX部分,ColossalChat計(jì)算Actor輸出response和輸入語(yǔ)料的回答部分的交叉熵?fù)p失函數(shù),用來(lái)在PPO梯度中加入預(yù)訓(xùn)練梯度,以保持語(yǔ)言模型原有性能防止遺忘。最后將策略損失、價(jià)值損失和 PTX 損失加和進(jìn)行反向傳播和參數(shù)更新。

快速上手

ColossalChat開源了基于 LLaMA 模型,復(fù)現(xiàn)訓(xùn)練 ChatGPT 三個(gè)階段的完整代碼。

第一階段,訓(xùn)練SFT模型:

# Training with a 4-GPU servers

colossalai run --nproc_per_node=4 train_sft.py

--pretrain "/path/to/LLaMa-7B/"

--model 'llama'

--strategy colossalai_zero2

--log_interval 10

--save_path /path/to/Coati-7B

--dataset /path/to/data.json

--batch_size 4

--accimulation_steps 8

--lr 2e-5

第二階段,訓(xùn)練獎(jiǎng)勵(lì)模型:

# Training with a 4-GPU servers

colossalai run --nproc_per_node=4 train_reward_model.py

--pretrain "/path/to/LLaMa-7B/"

--model 'llama'

--strategy colossalai_zero2

--dataset /path/to/datasets

第三階段,使用RL訓(xùn)練:

# Training with a 8-GPU servers

colossalai run --nproc_per_node=8 train_prompts.py prompts.csv

--strategy colossalai_zero2

--pretrain "/path/to/Coati-7B"

--model 'llama'

--pretrain_dataset /path/to/dataset

在獲得最終模型權(quán)重后,還可通過(guò)量化降低推理硬件成本,并啟動(dòng)在線推理服務(wù),僅需單張約4GB顯存的GPU即可完成70億參數(shù)模型推理服務(wù)部署

python server.py /path/to/pretrained --quant 4bit --gptq_checkpoint /path/to/coati-7b-4bit-128g.pt --gptq_group_size 128

系統(tǒng)性能優(yōu)化與開發(fā)加速

ColossalChat能夠快速跟進(jìn)ChatGPT完整RLHF流程復(fù)現(xiàn),離不開AI大模型基礎(chǔ)設(shè)施Colossal-AI及相關(guān)優(yōu)化技術(shù)的底座支持,相同條件下訓(xùn)練速度相比Alpaca采用的FSDP(Fully Sharded Data Parallel) 可提升3倍以上

系統(tǒng)基礎(chǔ)設(shè)施Colossal-AI

AI大模型開發(fā)系統(tǒng)Colossal-AI為該方案提供了基礎(chǔ)支持,它可基于PyTorch高效快速部署AI大模型訓(xùn)練和推理,從而降低AI大模型應(yīng)用的成本。

Colossal-AI由加州伯克利大學(xué)杰出教授James Demmel和新加坡國(guó)立大學(xué)校長(zhǎng)青年教授尤洋領(lǐng)導(dǎo)開發(fā)。

自從它開源以來(lái),Colossal-AI已經(jīng)多次在GitHub熱榜位列世界第一,獲得GitHub Star約兩萬(wàn)顆,并成功入選SC、AAAI、PPoPP、CVPR、ISC等國(guó)際AI與HPC頂級(jí)會(huì)議的官方教程。

減少內(nèi)存冗余的ZeRO+Gemini

Colossal-AI支持使用無(wú)冗余優(yōu)化器 (ZeRO) 提高內(nèi)存使用效率,低成本容納更大模型,同時(shí)不影響計(jì)算粒度和通信效率。

自動(dòng)Chunk機(jī)制可以進(jìn)一步提升ZeRO的性能,提高內(nèi)存使用效率,減少通信次數(shù)并避免內(nèi)存碎片。

異構(gòu)內(nèi)存空間管理器Gemini支持將優(yōu)化器狀態(tài)從GPU顯存卸載到CPU內(nèi)存或硬盤空間,以突破GPU顯存容量限制,擴(kuò)展可訓(xùn)練模型的規(guī)模,降低AI大模型應(yīng)用成本。

使用LoRA低成本微調(diào)

Colossal-AI支持使用低秩矩陣微調(diào)(LoRA)方法,對(duì)AI大模型進(jìn)行低成本微調(diào)。

LoRA方法認(rèn)為大語(yǔ)言模型是過(guò)參數(shù)化的,而在微調(diào)時(shí),參數(shù)改變量是一個(gè)低秩矩陣。

因此,可以將這個(gè)矩陣分解為兩個(gè)更小的矩陣的乘積。

在微調(diào)過(guò)程中,大模型的參數(shù)被固定,只有低秩矩陣參數(shù)被調(diào)整,從而顯著減小了訓(xùn)練所需的參數(shù)量,并降低成本。

低成本量化推理

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

△GPTQ量化

為降低推理部署成本,Colossal-AI使用GPTQ 4bit量化推理。

在GPT/OPT/BLOOM類模型上,它比傳統(tǒng)的RTN(rount-to-nearest) 量化技術(shù)能夠獲得更好的Perplexity效果。相比常見的FP16推理,它可將顯存消耗降低75%,只損失極少量的吞吐速度與Perplexity性能。

以ColossalChat-7B為例,在使用4bit量化推理時(shí),70億參數(shù)模型僅需大約4GB顯存即可完成短序列(生成長(zhǎng)度為128)推理,在普通消費(fèi)級(jí)顯卡上即可完成(例如RTX 3060 Laptop),僅需一行代碼即可使用。

if args.quant == '4bit':

model = load_quant(args.pretrained, args.gptq_checkpoint, 4, args.gptq_group_size)

如果采用高效的異步卸載技術(shù)(offload),還可以進(jìn)一步降低顯存要求,使用更低成本的硬件推理更大的模型。

開放協(xié)作

不過(guò)目前由于算力和數(shù)據(jù)集有限,在部分場(chǎng)景下的實(shí)際性能還有提升空間。

比如還是會(huì)被弱智吧問(wèn)題難住:

零門檻復(fù)現(xiàn)ChatGPT:預(yù)訓(xùn)練模型數(shù)據(jù)集直接用,包含完整RLHF流程

而在這輪技術(shù)浪潮中,除了科技巨頭們,PyTorch、Hugging Face和OpenAI等開源社區(qū)與初創(chuàng)企業(yè)也起到了關(guān)鍵作用。

借鑒這些成功經(jīng)驗(yàn),Colossal-AI也歡迎各方參與共建,并給出了多種參與方式:

  • 在GitHub發(fā)布issue或提交pull request (PR)
  • 加入Colossal-AI用戶微信或Slack群交流
  • 發(fā)送正式合作提案到郵箱youy@comp.nus.edu.sg

如果你對(duì)這項(xiàng)工作感興趣,可以趕快和他們?nèi)〉寐?lián)系~

開源地址:

https://github.com/hpcaitech/ColossalAI

參考鏈接:

https://medium.com/@yangyou_berkeley/colossalchat-an-open-source-solution-for-cloning-chatgpt-with-a-complete-rlhf-pipeline-5edf08fb538b

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

打賞

取消

感謝您的支持,我會(huì)繼續(xù)努力的!

掃碼支持
掃碼打賞,你說(shuō)多少就多少

打開支付寶掃一掃,即可進(jìn)行掃碼打賞哦

相關(guān)推薦:

網(wǎng)友評(píng)論:

推薦使用友言、多說(shuō)、暢言(需備案后使用)等社會(huì)化評(píng)論插件

Copyright ? 2021 早報(bào)網(wǎng) 版權(quán)所有
蘇ICP備2024138443號(hào)

蘇公網(wǎng)安備32130202081338號(hào)

本網(wǎng)站所刊載信息,不代表早報(bào)網(wǎng)觀點(diǎn)。如您發(fā)現(xiàn)內(nèi)容涉嫌侵權(quán)違法立即與我們聯(lián)系客服 106291126@qq.com 對(duì)其相關(guān)內(nèi)容進(jìn)行刪除。
早報(bào)網(wǎng)登載文章只用于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述。文章內(nèi)容僅供參考,不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
《早報(bào)網(wǎng)》官方網(wǎng)站:www.m.amdoc.cn互聯(lián)網(wǎng)違法和不良信息舉報(bào)中心
Top 主站蜘蛛池模板: 超声波焊接机_超音波熔接机_超声波塑焊机十大品牌_塑料超声波焊接设备厂家 | 高压绝缘垫-红色配电房绝缘垫-绿色高压绝缘地毯-上海苏海电气 | 西安展台设计搭建_西安活动策划公司_西安会议会场布置_西安展厅设计西安旭阳展览展示 | 卡诺亚轻高定官网_卧室系统_整家定制_定制家居_高端定制_全屋定制加盟_定制家具加盟_定制衣柜加盟 | 集菌仪_智能集菌仪_全封闭集菌仪_无菌检查集菌仪厂家-那艾 | 不锈钢/气体/液体玻璃转子流量计(防腐,选型,规格)-常州天晟热工仪表有限公司【官网】 | 消泡剂-水处理消泡剂-涂料消泡剂-切削液消泡剂价格-东莞德丰消泡剂厂家 | 青岛成人高考_山东成考报名网 | 河北中仪伟创试验仪器有限公司是专业生产沥青,土工,水泥,混凝土等试验仪器的厂家,咨询电话:13373070969 | 高精度电阻回路测试仪-回路直流电阻测试仪-武汉特高压电力科技有限公司 | 皮带式输送机械|链板式输送机|不锈钢输送机|网带输送机械设备——青岛鸿儒机械有限公司 | 袋式过滤器,自清洗过滤器,保安过滤器,篮式过滤器,气体过滤器,全自动过滤器,反冲洗过滤器,管道过滤器,无锡驰业环保科技有限公司 | 广东成考网-广东成人高考网| 高压无油空压机_无油水润滑空压机_水润滑无油螺杆空压机_无油空压机厂家-科普柯超滤(广东)节能科技有限公司 | 伸缩节_伸缩器_传力接头_伸缩接头_巩义市联通管道厂 | 私人别墅家庭影院系统_家庭影院音响_家庭影院装修设计公司-邦牛影音 | 聚氨酯保温钢管_聚氨酯直埋保温管道_聚氨酯发泡保温管厂家-沧州万荣防腐保温管道有限公司 | 舞台木地板厂家_体育运动木地板_室内篮球馆木地板_实木运动地板厂家_欧氏篮球地板推荐 | 儿童语言障碍训练-武汉优佳加感统文化发展有限公司 | 博博会2021_中国博物馆及相关产品与技术博览会【博博会】 | 英国公司注册-新加坡公司注册-香港公司开户-离岸公司账户-杭州商标注册-杭州优创企业 | 活性氧化铝球|氧化铝干燥剂|分子筛干燥剂|氢氧化铝粉-淄博同心材料有限公司 | PVC地板|PVC塑胶地板|PVC地板厂家|地板胶|防静电地板-无锡腾方装饰材料有限公司-咨询热线:4008-798-128 | 超声波成孔成槽质量检测仪-压浆机-桥梁预应力智能张拉设备-上海硕冠检测设备有限公司 | 塑胶跑道_学校塑胶跑道_塑胶球场_运动场材料厂家_中国塑胶跑道十大生产厂家_混合型塑胶跑道_透气型塑胶跑道-广东绿晨体育设施有限公司 | 热缩管切管机-超声波切带机-织带切带机-无纺布切布机-深圳市宸兴业科技有限公司 | NMRV减速机|铝合金减速机|蜗轮蜗杆减速机|NMRV减速机厂家-东莞市台机减速机有限公司 | 高低温试验箱-模拟高低温试验箱订制-北京普桑达仪器科技有限公司【官网】 | 温州富欧金属封头-不锈钢封头厂家 | ★济南领跃标识制作公司★济南标识制作,标牌制作,山东标识制作,济南标牌厂 | 不锈钢发酵罐_水果酒发酵罐_谷物发酵罐_山东誉诚不锈钢制品有限公司 | MTK核心板|MTK开发板|MTK模块|4G核心板|4G模块|5G核心板|5G模块|安卓核心板|安卓模块|高通核心板-深圳市新移科技有限公司 | 继电器模组-IO端子台-plc连接线-省配线模组厂家-世麦德 | 耐高温风管_耐高温软管_食品级软管_吸尘管_钢丝软管_卫生级软管_塑料波纹管-东莞市鑫翔宇软管有限公司 | 过跨车_过跨电瓶车_过跨转运车_横移电动平车_厂区转运车_无轨转运车 | 质检报告_CE认证_FCC认证_SRRC认证_PSE认证_第三方检测机构-深圳市环测威检测技术有限公司 | 汽液过滤网厂家_安平县银锐丝网有限公司 | 工业车间焊接-整体|集中除尘设备-激光|等离子切割机配套除尘-粉尘烟尘净化治理厂家-山东美蓝环保科技有限公司 | 打包钢带,铁皮打包带,烤蓝打包带-高密市金和金属制品厂 | 深圳宣传片制作-企业宣传视频制作-产品视频拍摄-产品动画制作-短视频拍摄制作公司 | 代写标书-专业代做标书-商业计划书代写「深圳卓越创兴公司」 |