手机网站上线左右滑动吴江区桃源镇做网站
视频链接:
 基于PyTorch从零构建多模态(视觉)大模型 by Umar Jamil
 从头编写一个视觉语言模型:PloyGamma,是谷歌的一个模型
 
 1:原始图像
 2:视觉编码器(本文是viT),通过对比学习进行训练。这个对比学习最开始是CLIP,后来被谷歌改成了SigLIP
 3:线性投影层
 4:如何将图像tokens的嵌入与文本token的嵌入结合起来
 5:文本提示
 6:Tokenizer
 7:语言模型本身,基于transformer
 8:如何利用条件生成输出
接下来的内容:
 1)Vision Transformer
 2)对比学习(CLIP、SigLip)
 3)多模态语言模型(Gemma):如何把视觉和文本结合起来
 4)KV-cache:希望这个模型用于推理,希望以优化的方式来实现,最佳方法就是使用KV-cache
 5
