徐州网站建设 网站推广,北京做网站找哪家好,网站创建的基本流程,做网站堵怕犯法吗LMDeploy 大模型量化部署实践 大模型部署背景 LMDeploy简介
轻量化、推理引擎、服务
核心功能-量化
显存消耗变少了 大语言模型是典型的访存密集型任务#xff0c;因为它是decoder-by-decoder
先把数据量化为INT4存起来#xff0c;算的时候会反量化为FP16 AWQ算法因为它是decoder-by-decoder
先把数据量化为INT4存起来算的时候会反量化为FP16 AWQ算法观察到模型在推理过程中只有一小部分参数是重要的参数这部分参数不量化其他的参数量化这样保留了显存性能也不会下降多少
核心功能-推理引擎 不用等到整个batch结束 核心功能-推理服务api server 动手实践环节
https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md