大模型推理 - Prefix Caching加速 2023-11-17 1966 words 4 mins read 轻视 prefix caching是一个容易想到的大模型推理优化点,但VLLM&TGI推理框架都没有支持(截止2023年11月15日),只是在Fa Read more...
大模型推理 - FasterTransformer调试技巧 2023-10-10 开发 1370 words 3 mins read FasterTransformer(FT)有三难,一个kernel算子理解难,一个是对精度麻烦,再一个就是调试难,今天讲一下FasterTr Read more...
带新人切忌“太好心” 2023-09-17 职场 809 words 2 mins read 从一个真实的故事讲起,那年学车,带我的王教练会骂人,但因为考试通过率高,慕名来的学生很多,忙不过来的时候会雇另一位李教练帮他带学生。闲聊中得 Read more...
大模型推理 - Continuous batching和FasterTransformer结合 2023-09-02 开发 4568 words 10 mins read 什么是continuous batch 介绍continuous batch之前,先说下Batch。Batch将多个请求合并一次处理,是提升GPU推理吞吐 Read more...
大模型推理 - GPTQ 落地与优化 2023-06-19 开发 5021 words 11 mins read 回顾前一篇文章,GPTQ给大模型带来了降本的可能,但存在性能不佳的问题,无法直接落地。经过迁移适配,我们将GPTQ的INT4 Kernel集成 Read more...
大模型推理 - GPTQ 量化过程解析 2023-04-26 开发 1895 words 4 mins read 什么是GPTQ 量化是一种通过实数映射整数,来降低位宽度从而减小权重大小、提高推理速度的技术。随着大模型的兴起,常见的INT8量化已不满足降本 Read more...
读《火种》 2022-12-03 阅读 1675 words 4 mins read 《火种》一书讲中国共产党创立不易与摸索之路。清末内忧外患,慈禧、李鸿章等晚清政治强人相继谢幕,清廷内部划分成宗室派,北洋派等2大势力,为了维 Read more...
读《武岭梦残》 2022-09-17 阅读 818 words 2 mins read 蒋的前途 淮海战役,国军主力覆灭,平津战役傅作义起义,国民党败局已定,蒋介石也深知这一点。但处于绝境中的人,总是会抱着几丝幻想,他心中应有以下 Read more...