技术解读 2天前 196 阅读 0 评论

面向 DeepSeek 的一念 LLM 分布式推理优化实践| AICon 深圳

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

8 月 22 日 -23 日,首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家,分享 AI 落地实战经验。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


腾讯公司专家工程师袁镱已确认出席并发表题为一念 LLM 分布式推理优化实践的主题分享,介绍基于大模型推理基本原理,结合 MoE 类模型特性,一念 LLM 设计了一套高效分布式推理优化方案。围绕流水线并行、显存管理、以及 DP/TP/PP 混合并行策略,实现了对推理过程的深度调优。在 DeepSeek 推理测试中,相较于业界主流开源推理框架,整体吞吐性能提升达 48%。


<!---->


袁镱是腾讯 PCG 大数据平台部机器学习平台中心技术负责人,腾讯公司专家工程师,负责无量系统和一念 LLM 等机器学习训练和推理框架研发。他在本次会议的详细演讲内容如下:


演讲提纲:

1、大模型推理的挑战

  • 大模型推理的基本逻辑

  • 各个推理加速框架的设计思路对比

2、大模型分布式推理的主要优化技术

  • DP/EP 等并行技术与 MoE 模型的特点

3、一念 LLM 的设计与优化

  • 一念 LLM 的设计思路和主要优化方向

  • 一念 LLM 针对 DeepSeek 特点进行的性能优化

听众收益:

  • 了解大模型推理的基本逻辑以及各个推理加速框架的设计思路对比

  • 了解一念 LLM 的设计思路,以及针对 DeepSeek 特点进行的性能优化


除此之外,本次大会还策划了AI InfraAI 产品研发与商业落地探索Agent 应用新范式与 MCP 生态实践AI 驱动业务重塑与提效智能硬件与具身智能创新实践AI 原生时代的卓越架构治理、、多模态与空间智能技术创新Agent + Data 落地探索AI 赋能研发体系变革Agent 核心技术与系统架构创新大模型在金融领域的创新实践等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。


大会 9 折优惠倒计时最后 1 天,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。


<!---->


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!