大模型推理 - Prefix Caching加速

2023-11-17 1966 words 4 mins read

轻视 prefix caching是一个容易想到的大模型推理优化点，但VLLM&TGI推理框架都没有支持（截止2023年11月15日），只是在Fa

大模型推理 - FasterTransformer调试技巧

2023-10-10

开发

1370 words 3 mins read

FasterTransformer(FT)有三难，一个kernel算子理解难，一个是对精度麻烦，再一个就是调试难，今天讲一下FasterTr

2023-09-17

职场

809 words 2 mins read

从一个真实的故事讲起，那年学车，带我的王教练会骂人，但因为考试通过率高，慕名来的学生很多，忙不过来的时候会雇另一位李教练帮他带学生。闲聊中得

2023-09-02

开发

4568 words 10 mins read

什么是continuous batch 介绍continuous batch之前，先说下Batch。Batch将多个请求合并一次处理，是提升GPU推理吞吐

2023-06-19

开发

5021 words 11 mins read

回顾前一篇文章，GPTQ给大模型带来了降本的可能，但存在性能不佳的问题，无法直接落地。经过迁移适配，我们将GPTQ的INT4 Kernel集成

2023-04-26

开发

1895 words 4 mins read

什么是GPTQ 量化是一种通过实数映射整数，来降低位宽度从而减小权重大小、提高推理速度的技术。随着大模型的兴起，常见的INT8量化已不满足降本

2022-12-03

阅读

1675 words 4 mins read

《火种》一书讲中国共产党创立不易与摸索之路。清末内忧外患，慈禧、李鸿章等晚清政治强人相继谢幕，清廷内部划分成宗室派，北洋派等2大势力，为了维

2022-09-17

阅读

818 words 2 mins read

蒋的前途淮海战役，国军主力覆灭，平津战役傅作义起义，国民党败局已定，蒋介石也深知这一点。但处于绝境中的人，总是会抱着几丝幻想，他心中应有以下