Sekyoro的博客小屋

大模型剪枝和蒸馏

发表于 2023-09-21 更新于 2025-02-21
1.3k 5 分钟

大模型参数多,结构复杂,因此对于它的压缩非常重要,压缩方法包括pruning,Knowledge Distillation,Quantization等等.事实上这方面的论文相对来说并没有那么多.

这里介绍一下剪枝和蒸馏相关技术.

发表于 2023-09-16 更新于 2025-02-21
11k 39 分钟

发表于 2023-09-12 更新于 2025-02-21
3.8k 14 分钟

我并没有系统地翻阅Pytorch文档,一般都是看别人pytorch实现的网络代码,哪里有不懂的再去看.现在找到一些tutorial并做一些简单的尝试.

发表于 2023-09-01 更新于 2025-02-21
8.8k 32 分钟

这种encoder-decoder结构很重要,同时也可以作为学习GAN的前置

发表于 2023-08-12 更新于 2025-02-21
12k 45 分钟

深度学习知识第二部分