技术解读 8月前 • 240 阅读 • 0 评论

面向 DeepSeek 的一念 LLM 分布式推理优化实践｜ AICon 深圳

作者头像

AI中国

AI技术专栏作家 | 发布了 246 篇文章

8 月 22 日 -23 日，首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向，围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例，邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家，分享 AI 落地实战经验。一起探索 AI 应用的更多可能，发掘 AI 驱动业务增长的新路径！

腾讯公司专家工程师袁镱已确认出席并发表题为《一念 LLM 分布式推理优化实践》的主题分享，介绍基于大模型推理基本原理，结合 MoE 类模型特性，一念 LLM 设计了一套高效分布式推理优化方案。围绕流水线并行、显存管理、以及 DP/TP/PP 混合并行策略，实现了对推理过程的深度调优。在 DeepSeek 推理测试中，相较于业界主流开源推理框架，整体吞吐性能提升达 48%。

袁镱是腾讯 PCG 大数据平台部机器学习平台中心技术负责人，腾讯公司专家工程师，负责无量系统和一念 LLM 等机器学习训练和推理框架研发。他在本次会议的详细演讲内容如下：

演讲提纲：

1、大模型推理的挑战

大模型推理的基本逻辑
各个推理加速框架的设计思路对比

2、大模型分布式推理的主要优化技术

DP/EP 等并行技术与 MoE 模型的特点

3、一念 LLM 的设计与优化

一念 LLM 的设计思路和主要优化方向
一念 LLM 针对 DeepSeek 特点进行的性能优化

听众收益：

了解大模型推理的基本逻辑以及各个推理加速框架的设计思路对比
了解一念 LLM 的设计思路，以及针对 DeepSeek 特点进行的性能优化

除此之外，本次大会还策划了AI Infra、AI 产品研发与商业落地探索、Agent 应用新范式与 MCP 生态实践、AI 驱动业务重塑与提效、智能硬件与具身智能创新实践、AI 原生时代的卓越架构治理、、多模态与空间智能技术创新、Agent + Data 落地探索、AI 赋能研发体系变革、Agent 核心技术与系统架构创新、大模型在金融领域的创新实践等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。

大会 9 折优惠倒计时最后 1 天，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

专为端侧大模型而生：解密AI计算加速“秘密武器”Arm China周易X3 NPU IP

专为端侧大模型而生：解密AI计算加速“秘密武器”Arm China周易X3 NPU IP

5月前 • 技术解读

中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

5月前 • 技术解读

RLinf上新πRL：在线强化学习微调π0和π0.5

RLinf上新πRL：在线强化学习微调π0和π0.5

5月前 • 技术解读

信息设计二重奏

信息设计二重奏

5月前 • 技术解读

修复iPhone 4天线门，苹果当年只改20字节代码；Altman：羡慕当代辍学的大学生；微软近5个月裁员超1.5万人|极客头条

修复iPhone 4天线门，苹果当年只改20字节代码；Altman：羡慕当代辍学的大学生；微软近5个月裁员超1.5万人|极客头条

6月前 • 技术解读

地址栏也能打游戏！程序员用不到400行代码，在浏览器地址栏复活《贪吃蛇》，网友惊叹：怎么想出这个点子的？

地址栏也能打游戏！程序员用不到400行代码，在浏览器地址栏复活《贪吃蛇》，网友惊叹：怎么想出这个点子的？

6月前 • 技术解读

产品能力，作为一种底层操作系统：解码梁宁思想中的“同理心”内核

产品能力，作为一种底层操作系统：解码梁宁思想中的“同理心”内核

6月前 • 技术解读

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 技术解读

热门标签

veo使用诺贝尔奖乌兹科学推理 AGICamp llama-index 批量生成视频 AI跑图语音合成(TTS) 北京智源人工智能研究院

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝