技术解读 1天前 188 阅读 0 评论

Google AI Infra 技术专家杨国强确认出席 AICon 深圳,分享 TPU 上的推理优化全解

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

8 月 22 日 -23 日,首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家,分享 AI 落地实战经验。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


Google AI Infra 技术专家杨国强已确认出席并发表题为以卓越性价比释放开放大模型潜能:TPU 上的推理优化全解的主题分享,本次演讲将探讨如何在 Google Cloud TPU 上,以高性价比的方式部署开放的大语言模型和文生图模型。我们将基于 TPU 的发展历程及其硬件架构特性,深入剖析如 vLLM、JetStream、MaxDiffusion 等主流推理框架在 TPU 上的优化路径。


演讲将重点介绍围绕自动前缀缓存、分块预填充、连续批处理、分布式推理等关键技术手段,如何实现推理流程的深度调优,从而显著提升模型部署的吞吐效率与响应延迟。


<!---->


杨国强现任 Google AI Infra 技术专家,拥有超过 20 年 IT 及 10 年云计算行业经验。近年专注于 AI 基础设施领域,在 AI 应用的训练、推理、跨硬件平台(GPU/TPU 等)部署适配及性能优化方面具有深厚的理论知识和丰富的实战经验,致力于推动 AI 算力在各行业的普惠化落地。他在本次会议的详细演讲内容如下:


演讲提纲:

1、TPU 简介与技术演进

2、理解大模型推理的核心流程

  • 自回归模型的推理过程:Prefill 与 Decode 阶段解析

  • 关键挑战:如何突破延迟瓶颈与吞吐上限?

3、推理框架优化实践:vLLM 与 JetStream 深度调优

  • vLLM on TPU:自动前缀缓存(APC)、分块预填充、连续批处理的落地

  • JetStream 与推测解码:提升效率的系统级创新

  • LLM-d 与 GKE:如何构建分布式推理服务体系

4、性能指标解读与服务优化

  • 如何测量好推理服务?延迟、吞吐、KV Cache 使用率等指标剖析

  • 对比 GKE 推理网关 vs 传统负载均衡的实际效果

5、TPU 硬件特性赋能模型推理

  • SPMD 并行、SparseCore、Pod 架构下的推理效率优势

  • Ironwood 带来的最新计算能力与部署选项

6、落地案例与部署总结

  • 文生图场景中延迟下降实践:客户案例分享

  • 部署路径总结:多种方案下的性价比对比与优化建议

听众收益:

  • 全面理解 TPU 架构与演进,掌握其适配开放大模型的核心优势

  • 学会在 TPU 上部署大语言/图像模型的实战优化技巧

  • 掌握推理过程中的关键指标分析方法,并通过 GKE 网关优化推理服务

  • 借助真实案例理解如何兼顾推理性能与成本控制,实现性价比最大化


除此之外,本次大会还策划了AI InfraAI 产品研发与商业落地探索Agent 应用新范式与 MCP 生态实践AI 驱动业务重塑与提效智能硬件与具身智能创新实践AI 原生时代的卓越架构治理、、多模态与空间智能技术创新Agent + Data 落地探索AI 赋能研发体系变革Agent 核心技术与系统架构创新大模型在金融领域的创新实践等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情可扫码或联系票务经理 13269078023 咨询。


<!---->


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!