2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!

  • 2024-09-13
    北京
  • 本文字数:2335 字

    阅读完需:约 8 分钟

大小:1.25M时长:07:17
OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!

刚刚,OpenAI 震撼发布 o1 大模型!新模型可以实现复杂推理,强得可怕!!!在即将于 10 月 18-19 日召开的 QCon 上海站,月之暗面、微软亚洲研究院、商汤科技等企业的资深技术专家也将分享推理相关话题,Mooncake 分离式推理、长文本 LLMs 推理优化、异构分布式大模型推理技术……简直是会圈天菜!大模型基础设施与算力优化实践轻松拿捏!

精彩内容速递

Mooncake 分离式推理架构创新与实践



随着大型语言模型的社会影响力日益增强,相应的人工智能产品用户基数也在迅速扩大。目前,AI 产品发展的一个主要挑战是如何在有限的计算资源下,有效应对日益增长的用户需求。本议题从实际业务出发,探讨在固定集群资源的条件下,通过采用单点和分布式推理架构,提升集群处理大规模请求的能力,过程中遇到的挑战以及我们的解决策略,希望能给大家带来一些帮助和思考。


演讲提纲

1. 大规模推理挑战

  • 优雅的集群过载

  • 超长上下文性能挑战

  • 故障定位与自动运维


2. 单点性能优化

  • 混合并行策略

  • 长上下文推理优化


3. 分离式架构 Mooncake

  • 设计场景 —— SLO vs MFU - 分离式架构设计

  • 集群调度策略、热点均衡

  • 开源计划


4. 未来展望 - 硬件能力展望

  • 更细粒度的池化分离

  • 分离式内存系统


实践痛点

  • 生产环境高负载下有效地过载

  • 线下测试与线上负载的解耦


演讲亮点

  • 经过实际生产环境大规模验证的分离式推理系统,面对真实线上负载实现性能提升

  • 从实际业务出发,分析推理系统设计决定和关键技术


听众收益

  • 了解分离式架构在实际生产环境中的挑战与发展趋势

  • 了解未来硬件/算法演进方向


长文本 LLMs 推理优化:动态稀疏性算法的应用实践



Long-context LLMs Inference 的 prefilling 阶段由于 Computation bottleneck 造成的长时延 (单卡 A100,1M 8B 约 30 分钟) 给 Long-context LLMs 的应用造成了困难。而 Attention 尤其是 Long-context Attention 实际上是非常稀疏且动态的。利用这种动态稀疏性,我们将 Long-context Attention 存在的动态稀疏归纳成三种 Pattern,通过离线搜索出每个 Head 最优的稀疏 Pattern,并利用很小的 overhead 在线确定动态稀疏 index,再结合动态稀疏编译器 PIT 和 Triton 进行高效的动态稀疏 GPU 运算,产生实际加速比。我们对市面上主流的 Long-context LLMs , like LLaMA-3-1M, GLM-4-1M, Yi-200K, Phi-3-128K, Qwen2-128K 在 RULER,InfiniteBench,Needle Test,LM 等任务中进行了测试,结果显示其具有几乎相同的性能。


本次演讲将主要跟大家分享 LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面的研究和实践。


演讲提纲


1. LLMs 推理算法侧优化方法讨论:如量化,剪枝,模型架构优化,FFN 动态稀疏计算等


2. 长文本 LLMs Inference 遇到的一些挑战

  • Attention 结构平方复杂度导致的 Prefilling 阶段较高的 TTFT

  • 解码阶段 KV cache 存储压力,计算要提供一个合理 TTFT 的 API 服务理论上需要对 Attention 进行多少倍加速


3. 研究思考

  • 优化 Long-context LLMs Inference 的相关方法,包括 training from scratch 和 training-free 两大类方法。

  • Attention 是动态稀疏的,Attention 的动态稀疏在空间上具有聚集性,呈现出三种不同的 pattern;


4. 解决方案

  • MInference、decoding 和多轮推理

  • 实现细节,包括 GPU Kernel 实现

  • 评测结果,包括有效性和高效性


5. 总结和未来展望


实践痛点

  • 对于短文本场景,利用动态稀疏性可能会引入 overhead,获得的加速比较低


演讲亮点

  • LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面

  • 首个有效降低长文本大模型推理中预填充阶段成本并保持性能的解决方案

  • 协同设计的算法和系统,能够在无需训练的情况下实现端到端加速


听众收益

  • 了解算法侧优化 LLMs Inference 的思路和 Long-context LLMs inference 前沿研究动向和潜在的优化思路


异构分布式大模型推理技术实践



随着人工智能领域的发展,越来越复杂的大型语言模型正在被广泛应用于各个行业,这些模型的推理需求也随之大幅提升。鉴于国际供应链的持续不确定性,我们或将面临因依赖英伟达芯片而产生的潜在风险与挑战。为此,我们采用了英伟达和国产化芯片混合的异构分布式推理方案,该方案将充分发挥两种芯片的优势,确保系统的高效性和稳定性,同时减少对单一供应链的依赖,提升推理能力和自主控制能力。


推理优化已经不局限于算子层面,需要站在系统全局的角度分析并解决问题,需要设计者有全面的技术积累(分布式、算法、算子优化、量化),需要站在异构大集群的背景下思考问题。本次演讲将分享商汤高性能计算与推理团队自研的异构分布式大模型推理系统遇到的挑战以及实现,希望能给大家带来一些帮助和思考。


演讲提纲

1. 异构分布式大模型推理系统优化

  • 大模型推理已经演变成一项复杂的系统级别优化

  • 适配不同芯片的分布式异构推理系统

  • 模型快速加载,推理 POD 快速拉起


2. 多元算力芯片推理优化

  • 推理芯片评测选型

  • 多元算力芯片深度推理优化


3. MOE 的推理优化

  • MOE 的兴起

  • MOE 的推理优化方案

  • MOE + MLA 的优势


4. 大规模异构推理集群的未来展望

  • 更大规模的异构集群的管理调度

  • 高效的多模态融合推理


实践痛点

  • 异构芯片之间的通信交互优化

  • 如何快速的进行多元算力芯片选型

演讲亮点

  • 深入剖析多样化芯片适配优化方案

  • MOE + MLA 的深度推理优化方案


听众收益

  • 了解多元算力芯片技术发展趋势

  • 了解大模型推理系统的现状和演进方向


更多精彩内容,敬请关注 QCon 上海站,锁定「大模型基础设施与算力优化」专题,届时还会有小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化华为昇腾万卡集群大模型性能提升实践等精彩内容。


会议推荐

AI 应用开发、大模型基础设施与算力优化、出海合规与大模型安全、云原生工程、演进式架构、线上可靠性、新技术浪潮下的大前端…… 不得不说,QCon 还是太全面了。现在报名可以享受 9 折优惠,详情请联系票务经理 17310043226 咨询。



2024-09-13 12:4710459

评论

发布
暂无评论
发现更多内容

产品经理训练营第二章作业(二)

新盛

产品训练营第三周

克比

LeetCode题解:69. x 的平方根,牛顿迭代法+迭代,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

线程范围内共享数据

武哥聊编程

Java 多线程 28天写作

翻译:《实用的Python编程》01_00_Overview

codists

Python

开发质量提升系列:标准模板(下)

罗小龙

最佳实践 方法论 28天写作

产品经理第 0 期训练营第三周作业提交-krystal

Krystal

产品经理训练营第三周作业

克比

利益相关者问题挖掘

王一凡

产品经理训练营

产品训练营 第三周作业

万顷湖天碧

产品训练营

CSS(十一)——用CSS设置超链接样式

程序员的时光

七日更 28天写作 2月春节不断更

产品中利益相关者面对的问题并排序

踏凌霄

基于产品利益相关者面临的问题

Dylan Zhu

入网指南:一文读懂你身边的网络

CSS(十二)——用CSS设置列表样式

程序员的时光

七日更 28天写作 2月春节不断更

利益相关者排序

赵志广

产品经理训练营 网络安全产品经理

第三周作业

正午看星星

week11 安全稳定

杨斌

🍉 别再恐惧 IP 协议(万字长文 | 多图预警)

飞天小牛肉

面试 计算机网络 IP TCP/IP 2月春节不断更

批判性思维自修课(七)

石君

28天写作 批判性思维

第三周作业

Geek_971380

产品经理训练营第三次作业

庞玉坤

利益相关者问题排序

Geek_ce1551

产品经理训练营第三周作业

铭白

程序员如何打破35岁魔咒

数据社

价值投资学习笔记

JiangX

28天写作

作业3--问题

赝品

免费开源的代码审计工具Gosec入门使用

BigYoung

代码扫描 28天写作 2月春节不断更 代码审计 Go 语言

week10 模块分解 作业和学习总结

杨斌

第三周笔记

Ashley.

第三周作业

Ashley.

OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!_芯片&算力_Kitty_InfoQ精选文章