大模型参数多,结构复杂,因此对于它的压缩非常重要,压缩方法包括pruning,Knowledge Distillation,Quantization等等.事实上这方面的论文相对来说并没有那么多.
这里介绍一下剪枝和蒸馏相关技术.
大模型参数多,结构复杂,因此对于它的压缩非常重要,压缩方法包括pruning,Knowledge Distillation,Quantization等等.事实上这方面的论文相对来说并没有那么多.
这里介绍一下剪枝和蒸馏相关技术.
ZeroToMasteryZero to Mastery Learn PyTorch for Deep Learning上的课程学习
我并没有系统地翻阅Pytorch文档,一般都是看别人pytorch实现的网络代码,哪里有不懂的再去看.现在找到一些tutorial并做一些简单的尝试.
这种encoder-decoder结构很重要,同时也可以作为学习GAN的前置
深度学习知识第二部分