AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

Kimi Linear – 月之暗面开源的新型混合线性注意力架构
Top
AI视频 4天前 • 168

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear是什么Kimi Linear 是月之暗面推出的新型混合线性注意力架构,专为提升大型语言模型(LLMs)在长序列任务中的效率和性能设计。核心组件 Kimi Delta Attention(KDA)通过精细化的通道级门控机制和高效的块处理算法,显著提升模型的表达能力和硬件效率。Kimi Linear 采用 3:1 的 KDA 与全注意力层(MLA)混合设计,大幅减少 KV 缓

AI中国
AI中国

Read more
Wan2.2-Animate – 阿里通义开源的动作生成模型
AI视频 1月前

Wan2.2-Animate – 阿里通义开源的动作生成模型

Wan2.2-Animate是什么Wan2.2-Animate是阿里通义团队推出的动作生成模型,模型同时支持动作模仿和角色扮演两种模式,能基于表演者的视频,精确复制面部表情和动作,生成高度逼真的角色动画视频。模型能将动画角色无缝替换进原视频,完美匹配场景的光照和色调。模型基于Wan模型构建,通过空间对齐的骨骼信号控制肢体动作,用从源图像中提取的隐式面部特征重现表情,实现高度可控和富有表现力的角

AI中国 AI中国
120 0
Xiaomi-MiMo-Audio – 小米开源的端到端语音大模型
AI视频 1月前

Xiaomi-MiMo-Audio – 小米开源的端到端语音大模型

Xiaomi-MiMo-Audio是什么Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化能力,打破了语音领域依赖大规模标注数据的瓶颈。Xiaomi-MiMo-Audio 在多项标准评测基准中大幅超越同参数量的开源模型,取得7B最佳性能。在音频理

AI中国 AI中国
88 0
Ling-V2 – 蚂蚁百灵推出的大型语言模型系列
AI视频 1月前

Ling-V2 – 蚂蚁百灵推出的大型语言模型系列

Ling-V2是什么Ling-V2 是蚂蚁百灵团队推出的基于 MoE 架构的大型语言模型家族,首个版本 Ling-mini-2.0 拥有 160 亿总参数,每个输入标记仅激活 14 亿参数。模型在 20 万亿高质量数据标记上训练,经多阶段监督微调和强化学习增强,在复杂推理和指令遵循方面表现出色。Ling-mini-2.0 用 1/32 激活比率的 MoE 架构,实现 7 倍等效密集性能杠杆,生

AI中国 AI中国
168 0
FastMTP – 腾讯开源的大语言模型推理加速技术
AI视频 1月前

FastMTP – 腾讯开源的大语言模型推理加速技术

FastMTP是什么FastMTP 是腾讯自研的大语言模型(LLM)推理加速技术,通过优化多标记预测(MTP)技术,用共享权重的单 MTP 头替代传统多独立模块,结合语言感知词汇压缩和自蒸馏训练,显著提升 LLM 的推理速度,平均提速可达 2.03 倍,且输出质量无损。FastMTP 不改变主模型结构,易于集成到现有框架中,适用数学推理、代码生成等结构化任务,为 LLM 的高效部署提供实用方案

AI中国 AI中国
151 0
Lucy Edit Dev – Decart AI开源基于文本指令的视频编辑模型
AI视频 1月前

Lucy Edit Dev – Decart AI开源基于文本指令的视频编辑模型

Lucy Edit Dev是什么Lucy Edit Dev 是 Decart AI 团队开源的基于文本指令的视频编辑模型。能根据简单的文本提示对视频进行多种编辑操作,如更改服装、替换角色、插入对象和转换场景等,同时完美保留视频的运动和构图。模型基于 Wan2.2 5B 架构,继承了高压缩 VAE + DiT 堆栈,方便用户将现有的脚本和工作流进行适配。Lucy Edit Dev的主要功能

AI中国 AI中国
66 0
AI视频 1月前

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

InternVLA·M1是什么InternVLA·M1 是上海人工智能实验室开发的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推理与任务规划。模型采用两阶段训练策略,先通过空间感知预训练,增强空间推理与规划能力;再以隐式空间推理方式实现高效的动作后训练。仅需“空间规划提示”即可高效训练,大幅降低成本。在 SimplerEnv

AI中国 AI中国
78 0
AI视频 1月前

通义DeepResearch – 阿里推出的开源深度研究智能体

通义DeepResearch是什么通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模式(Heavy Mode),后者通过迭代研究范式(IterResearch)提升复杂推理能力。智能体采用全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限。训练流程

AI中国 AI中国
174 0
AI视频 1月前

VLAC – 上海AI实验室开源的具身奖励大模型

VLAC是什么VLAC是上海人工智能实验室发布的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效区分正常推进与异常/停滞行为,支持通过in-context learning实现小样本快速泛化。具备局部平滑性和负向奖励机制,确保强化学习的稳定性和有效性。VLAC不仅输出奖励信号,

AI中国 AI中国
211 0
AI视频 1月前

RustGPT – AI语言模型,根据输入内容自动文本补全

RustGPT是什么RustGPT 是用 Rust 编写的 Transformer 架构语言模型。RustGPT从零开始构建,不依赖任何外部机器学习框架,仅用 ndarray 进行矩阵运算。项目包括事实文本补全的预训练、用于会话 AI 的指令微调及交互式聊天模式测试。RustGPT模块化架构确保关注点的清晰分离,便于理解和扩展。RustGPT 适合对 Rust 和机器学习感兴趣的开发者,是一个

AI中国 AI中国
171 0
AI视频 1月前

PromptEnhancer – 腾讯开源的文本到图像提示词增强框架

PromptEnhancer是什么PromptEnhancer是腾讯混元团队开源的用在提升文本到图像(T2I)模型的提示重写框架,通过思维链(Chain-of-Thought,CoT)提示重写和专用的奖励模型AlignEvaluator,显著提升T2I模型对复杂用户指令的理解和图像生成的准确性。框架无需修改T2I模型的权重,具有通用性和即插即用的特性,适用多种预训练模型。PromptEnhan

AI中国 AI中国
77 0
AI视频 1月前

Nano Bananary – 开源AI图像编辑工具,基于Gemini模型

Nano Bananary是什么Nano Bananary(香蕉超市) 是开源的图像编辑工具,基于 Google Gemini 图像模型开发,支持中文界面和明暗主题切换,提供 50 多种图像转换效果,无需复杂提示词能一键将图片转为 3D 手办、乐高模型等。Nano Bananary 支持局部涂选、连续编辑、历史记录、多模式对比及一键下载等功能,方便用户进行创意图像生成和编辑。Nano Ba

AI中国 AI中国
181 0
LLaSO – 逻辑智能开源的语音模型
AI视频 1月前

LLaSO – 逻辑智能开源的语音模型

LLaSO是什么LLaSO(Large Language and Speech Model)是北京深度逻辑智能科技有限公司推出的全球首个完全开源的语音模型,能解决大型语音语言模型(LSLM)领域长期存在的架构碎片化、数据私有化、任务覆盖局限和交互模态单一等问题。LLaSO包含三大核心组件,LLaSO-Align(大规模语音-文本对齐数据集)、LLaSO-Instruct(多任务指令微调数据集)

AI中国 AI中国
131 0
InfiniteTalk – 美团开源的数字人视频生成框架
AI视频 1月前

InfiniteTalk – 美团开源的数字人视频生成框架

InfiniteTalk是什么InfiniteTalk是美团视觉智能部推出的新型数字人驱动技术,通过稀疏帧video dubbing范式,仅需少量关键帧能驱动数字人人生成自然流畅的视频,解决传统技术中口型、表情和肢体动作脱节的问题。InfiniteTalk使数字人视频更具沉浸感和自然感,生成效率高、成本低。InfiniteTalk的论文、代码和权重已开源,为数字人技术的发展提供重要参考。I

AI中国 AI中国
127 0
ERNIE-4.5-21B-A3B-Thinking – 百度推出的思考模型
AI视频 1月前

ERNIE-4.5-21B-A3B-Thinking – 百度推出的思考模型

ERNIE-4.5-21B-A3B-Thinking是什么ERNIE-4.5-21B-A3B-Thinking 是百度推出的专注于推理任务的大型语言模型。采用混合专家(MoE)架构,总参数量达210亿,每个token激活30亿参数,支持128K的长上下文窗口,适用于复杂推理任务。模型通过文本预训练构建语言核心骨干,在推理增强后训练阶段,利用监督式微调(SFT)和渐进式强化学习(PRL)等技术,

AI中国 AI中国
126 0
FunAudio-ASR – 阿里达摩院推出的端到端语音识别模型
AI视频 1月前

FunAudio-ASR – 阿里达摩院推出的端到端语音识别模型

FunAudio-ASR是什么FunAudio-ASR 是阿里巴巴达摩院推出的端到端语音识别大模型,专为解决企业落地中的关键问题设计。通过创新的 Context 增强模块,有效优化了“幻觉”和“串语种”等问题。模块利用 CTC 解码器快速生成第一遍转写文本,将其作为上下文信息输入 LLM,显著提升了识别的准确性和稳定性。FunAudio-ASR 在远场、嘈杂背景等复杂场景下表现出色,轻量化版本

AI中国 AI中国
198 0
GPT-5-Codex – OpenAI推出的Agent编程优化模型
AI视频 1月前

GPT-5-Codex – OpenAI推出的Agent编程优化模型

GPT-5-Codex是什么GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型,基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务,如从零搭建项目、代码重构、调试、测试和代码审查等。模型能根据任务复杂度动态调整思考时间,简单任务秒回,复杂任务深度思考,支持独立完成长达 7 小时的复杂任务。模型代码审查能力出色,能精准发现关键缺陷,减少无效评论。GPT-5-Codex

AI中国 AI中国
135 0
ROMA – Sentient AGI开源的多智能体框架
AI视频 1月前

ROMA – Sentient AGI开源的多智能体框架

ROMA是什么 ROMA(Recursive Open Meta-Agent) 是Sentient AGI团队开源的多Agent系统框架,通过递归层次结构将复杂任务拆解为可并行的子任务,由父节点分配给子节点执行,再将结果汇总。ROMA支持多模态输入输出,内置通用任务解决器、深度研究Agent和金融分析Agent等,适用从研究分析到金融决策的多种场景。ROMA透明的执行过程便于调试和优化,在多个基

AI中国 AI中国
80 0
Mini-o3 – 字节联合港大推出的视觉推理模型
AI视频 1月前

Mini-o3 – 字节联合港大推出的视觉推理模型

Mini-o3是什么Mini-o3 是字节跳动和香港大学联合推出的开源模型,专为解决复杂的视觉搜索问题而设计。模型通过强化学习和基于图像的工具,能执行深度多轮推理,推理轮次可扩展至数十轮。Mini-o3 通过构建挑战性数据集、采用迭代数据收集流程以及提出过轮遮蔽策略等方法,显著提升模型的推理能力和交互轮次。模型在多个视觉搜索基准测试中取得最佳性能,所有代码、模型和数据集均开源,便于复现和进一步

AI中国 AI中国
206 0
Grok 4 Fast – xAI推出的快速版AI模型
AI视频 1月前

Grok 4 Fast – xAI推出的快速版AI模型

Grok 4 Fast是什么Grok 4 Fast是xAI推出的快速版人工智能模型,最大的特点是响应速度快,最高可达标准版的10倍,生成速度每秒75个token,能快速完成简单查询、基础代码生成等任务,大幅提升效率。模型目前处于早期访问测试版阶段,未来有望向更多用户开放,甚至取代旧版Grok 3,适配移动端应用。Grok 4 Fast的主要功能语言生成:Grok 4 Fast能快速生成

AI中国 AI中国
89 0
Lumina-DiMOO – 上海AI Lab推出的多模态生成与理解模型
AI视频 1月前

Lumina-DiMOO – 上海AI Lab推出的多模态生成与理解模型

Lumina-DiMOO是什么Lumina-DiMOO是上海人工智能实验室等机构开源的新一代多模态生成与理解模型。模型采用全离散扩散架构,统一处理文本、图像等多模态数据,支持文本到图像生成、图像编辑、风格转换等多种任务。Lumina-DiMOO在多个基准测试中表现优异,采样效率高,生成质量好,为多模态AI领域带来新的突破,有望在内容创作、智能分析、教育研究等多个领域发挥重要作用。Lumin

AI中国 AI中国
159 0
UnifoLM-WMA-0 – 宇树科技开源的世界模型行动框架
AI视频 1月前

UnifoLM-WMA-0 – 宇树科技开源的世界模型行动框架

UnifoLM-WMA-0是什么 UnifoLM-WMA-0 是宇树科技开源的跨多类机器人本体的世界模型 – 动作架构,专为通用机器人学习设计。核心是世界模型,能理解机器人与环境的物理交互,具备仿真引擎和策略增强两大功能。仿真引擎可生成合成数据用于机器人学习,策略增强通过预测未来交互优化决策性能。架构已在真实机器人上部署,能实现动作可控生成和长期交互生成,提升机器人在复杂环境中的学习和决策能力。

AI中国 AI中国
130 0
PP-OCRv5 – 百度推出的文字识别模型
AI视频 1月前

PP-OCRv5 – 百度推出的文字识别模型

PP-OCRv5是什么PP-OCRv5 是百度推出的高效、精准的文字识别模型。模型基于两阶段处理流程,专门用在快速、准确地检测和识别图像中的文字。模型参数量仅为0.07亿,体积小、效率高,在CPU和边缘设备上表现优异,每秒能处理370多个字符。模型支持简体中文、繁体中文、英文、日文和拼音等5种文字类型,能识别40多种语言。在多种OCR基准测试中,PP-OCRv5 的表现优于通用视觉语言模型,尤

AI中国 AI中国
77 0
Stable Audio 2.5 – Stability AI推出的音频生成模型
AI视频 1月前

Stable Audio 2.5 – Stability AI推出的音频生成模型

Stable Audio 2.5是什么Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型,专为企业级声音制作设计。模型具备快速生成(三分钟音频仅需两秒)、动态音乐创作和音频修复功能。模型能根据品牌需求定制音频,支持企业创建独特的声音身份。Stable Audio 2.5 与专业音频品牌代理机构合作,为企业提供定制化解决方案,通过 API 和合作伙伴平台供用户

AI中国 AI中国
178 0
Live Interpreter API – 微软推出的实时多语言翻译服务
AI视频 1月前

Live Interpreter API – 微软推出的实时多语言翻译服务

Live Interpreter API是什么Live Interpreter API 是 Azure 语音翻译的新功能,能实现实时的多语言语音翻译。无需用户手动设置输入语言, Live Interpreter API 能自动连续识别正在使用的语言,能用自然的声音进行低延迟的语音到语音翻译,同时保留说话者的风格和语调。Live Interpreter API支持 76 种输入语言和 143 个

AI中国 AI中国
117 0
Youtu-GraphRAG – 腾讯优图开源的图检索增强生成框架
AI视频 1月前

Youtu-GraphRAG – 腾讯优图开源的图检索增强生成框架

Youtu-GraphRAG是什么Youtu-GraphRAG是腾讯优图实验室开源的图检索增强生成框架,通过将知识组织成图谱,结合大语言模型进行检索和推理,帮助模型更精准地回答复杂问题,减少“胡言乱语”。框架具有多跳推理、知识密集型任务处理和领域可扩展性等特点,通过创新的图模式构建、社区检测和代理检索等技术,大幅降低token成本,提高准确性。Youtu-GraphRAG支持无缝领域迁移,适用

AI中国 AI中国
137 0
AI视频 1月前

veCLI – 字节火山引擎推出的命令行AI工具

veCLI是什么 veCLI 是字节跳动火山引擎推出的命令行 AI 工具,提升开发效率。无缝集成豆包大模型 1.6 等多种模型,开发者可通过自然语言交互,快速生成代码并完成本地部署,无需记忆复杂命令。veCLI 支持密钥鉴权,保障安全,能灵活切换模型。集成了火山引擎云服务,从构建到部署都更便捷,具备自由扩展能力,可提升编程效率。 veCLI的主要功能 无缝集成大模型:veCLI 深度集成了

AI中国 AI中国
71 0
AI视频 1月前

ZipVoice – 小米推出的零样本语音合成模型

ZipVoice是什么ZipVoice 是小米集团 AI 实验室发布的高效零样本语音合成(TTS)模型。模型基于 Flow Matching 架构,包含 ZipVoice(单说话人)和 ZipVoice-Dialog(对话语音)两个版本。模型通过技术创新,如基于 Zipformer 的高效建模、平均上采样策略和 Flow Distillation 方法,实现轻量化建模和快速推理,解决现有模型参

AI中国 AI中国
127 0
AI视频 1月前

MobileLLM-R1 – Meta推出的专项高效推理模型系列

MobileLLM-R1是什么 MobileLLM-R1是Meta推出的一系列专为数学、编程和科学推理设计的高效推理模型。系列包含基础模型和最终模型,分别有1.4亿、3.6亿和9.5亿参数版本。模型并非通用聊天模型,是经过监督微调(SFT)的专项模型,专注于特定任务的高效推理。MobileLLM-R1-950M模型仅用约2万亿高质量token进行预训练,总训练token量少于5万亿,但在多个基准

AI中国 AI中国
155 0
AI视频 1月前

AgentCLUE-ICabin – 汽车智能座舱的AI Agent评测基准

AgentCLUE-ICabin是什么 AgentCLUE-ICabin 是专注于汽车智能座舱场景的 AI 智能体测评基准,全面评估大语言模型在智能座舱中的工具调用能力。基准基于12大常见用车场景构建,覆盖从日常通勤到长途自驾等多种出行需求,充分贴合国内用户的实际交互场景。测评设计了1至10轮的多轮交互对话,每轮对话至少调用一个工具,全面考察模型在复杂环境下的交互能力。 AgentCLUE-IC

AI中国 AI中国
177 0
AI视频 1月前

IndexTTS2 – B站开源的最新文本转语音模型

IndexTTS2是什么 IndexTTS2是B站语音团队开发的新型文本转语音(TTS)模型,已经正式开源。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归TTS模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格,支持多语言。IndexTTS2实现了情感音色分离控制,用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能,支持通过情感参考

AI中国 AI中国
185 0
加载更多

推荐文章

会唱歌的AI数字人制作教程,用AI数字人唱山歌

会唱歌的AI数字人制作教程,用AI数字人唱山歌

7月前 • 学习教程
谷歌深夜放出「创世引擎」Genie 3!一句话秒生宇宙,终极模拟器觉醒

谷歌深夜放出「创世引擎」Genie 3!一句话秒生宇宙,终极模拟器觉醒

3月前 • AI热点
炒菜机器人正在“炒”掉厨师

炒菜机器人正在“炒”掉厨师

3周前 • AI热点
​ 研究揭示 GPT-4o 为自保可能牺牲用户安全

​ 研究揭示 GPT-4o 为自保可能牺牲用户安全

4月前 • AI热点
摩根士丹利:AI让美国的电力资产全被重估了一遍

摩根士丹利:AI让美国的电力资产全被重估了一遍

2月前 • AI热点
速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
【StableDiffusion教程】LibLibAI进阶教程!AI设计进阶教程全面掌握StableDiffusion和ComfyUI生图教程

【StableDiffusion教程】LibLibAI进阶教程!AI设计进阶教程全面掌握StableDiffusion和ComfyUI生图教程

5月前 • 视频教程
【AI电影教程】如何从0到1打造电影级AI短片?AI电影短片制作全流程手把手教学!小白适用!全程干货无废话!

【AI电影教程】如何从0到1打造电影级AI短片?AI电影短片制作全流程手把手教学!小白适用!全程干货无废话!

3月前 • 视频教程

热门标签

黑神话 文字生成图像 Kimina-Prover redhat 海螺视频S2V 智驾技术 国产算力 主题乐园 猫和老鼠 Git服务

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明