AI视频制作教程 | 从脚本生成到智能剪辑的完整解决方案 - AI学习站

OmniVinci – NVIDIA推出的全模态大语言模型

Top

AI视频 6月前 • 726

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embedding Grouping机制解决时序同步问题，采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中，性能超越Qwen

AI中国

AI中国

GDPVAL – OpenAI开源的AI模型经济价值评估框架

AI视频 7月前

GDPVAL – OpenAI开源的AI模型经济价值评估框架

GDPVAL是什么GDPval 是 OpenAI 推出的全新评估框架，用在衡量 AI 模型在真实经济价值任务上的表现。GDPval 从美国 GDP 贡献最大的 9 个行业中选取 44 种职业，设计 1320 个真实任务（开源版本包含 220 个），涵盖软件开发、法律文书、机械工程、护理计划等多个领域。任务由平均有 14 年经验的专业人士设计，经过多轮审核，确保贴近实际工作场景。GDPval 的

AI中国

AI中国

210 0

FLM-Audio – 智源研究院开源的全双工音频对话模型

AI视频 7月前

FLM-Audio – 智源研究院开源的全双工音频对话模型

FLM-Audio是什么FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型，支持中文和英文。采用原生全双工架构，可在每个时间步合并听觉、说话和独白通道，避免传统时分复用方案的高延迟问题。其独特的自然独白与双重训练范式，使模型在对话中更接近人类的自然交流方式，有效解决了异步对齐问题。FLM-Audio 仅用 100 万

AI中国

AI中国

249 0

Spark Chemistry-X1-13B – 科大讯飞开源的化学模型

AI视频 7月前

Spark Chemistry-X1-13B – 科大讯飞开源的化学模型

Spark Chemistry-X1-13B是什么Spark Chemistry-X1-13B 是科大讯飞开源的化学专业大型语言模型。模型基于讯飞星火X1-0420大模型，经过多种化学任务数据集的微调，具备卓越的复杂化学问题解决能力，同时保持强大的通用性。模型基于新的注意力掩码机制，结合长思维链和快思考，有效防止不同推理模式之间的干扰。模型在高等知识问答、化学名称转换和分子性质预测等任务上表现

AI中国

AI中国

208 0

AI视频 7月前

SimpleFold – 苹果开源的轻量级蛋白质折叠预测AI模型

SimpleFold是什么SimpleFold 是苹果公司推出的轻量级蛋白质折叠预测 AI 模型。模型基于流匹配（Flow Matching）技术，跳过多序列比对（MSA）等复杂模块，直接从随机噪声生成蛋白质的三维结构，大幅降低计算成本。在 CAMEO22 和 CASP14 等权威基准测试中，SimpleFold 表现出色，无需昂贵的多序列比对和三角注意机制，能达到与顶尖模型（如 AlphaF

AI中国

AI中国

233 0

AI视频 7月前

Vidu Q2 – 生数科技推出的新一代图生视频模型

Vidu Q2是什么Vidu Q2是生数科技推出的新一代图生视频大模型，实现了AI视频生成技术从“视频生成”到“演技生成”的跨越，标志着AI视频进入追求“神似”的新纪元。Vidu Q2能生成极其细腻的面部微表情，使数字角色展现出生动且具感染力的演技，可胜任复杂表情变化的文戏、多人打斗场景的武戏及大片炫酷特效。在镜头语言上更丰富，可实现从宏观全景到微观特写的快速切换，复杂运镜秒级精准可控；语义理

AI中国

AI中国

138 0

AudioFly – 科大讯飞开源的文生音效模型

AI视频 7月前

AudioFly – 科大讯飞开源的文生音效模型

AudioFly是什么AudioFly 是科大讯飞开源的文本生成音效的AI模型。模型用潜在扩散模型架构，拥有10亿参数，通过大量开放数据集（如AudioSet、AudioCaps、TUT）及内部专有数据训练而成。AudioFly 能根据文本描述生成高质量音频，采样率高达44.1kHz，生成的音效与文本描述高度匹配。模型在单事件和多事件场景下均表现出色，在AudioCaps数据集上性能卓越，超越

AI中国

AI中国

249 0

Audio2Face – 英伟达开源的AI面部动画生成模型

AI视频 7月前

Audio2Face – 英伟达开源的AI面部动画生成模型

Audio2Face是什么Audio2Face 是 NVIDIA 推出的AI面部动画生成模型，通过音频输入能生成逼真的面部动画。模型能分析音频中的音素和语调，驱动角色的嘴唇动作和表情，实现精准的口型同步与情感表达。模型现已开源，开发者可通过 SDK 和插件，在 Maya 和 Unreal Engine 5 等工具中快速生成高质量的动画，或用训练框架定制模型。Audio2Face 广泛应用在游戏

AI中国

AI中国

241 0

CWM – Meta开源的代码世界模型

AI视频 7月前

CWM – Meta开源的代码世界模型

CWM是什么CWM（Code World Model）是Meta开源的320亿参数的代码世界模型，是全球首个将世界模型系统性引入代码生成的语言模型，支持代码生成和理解。模型通过世界模型技术，模拟代码执行过程，不只是基于模式匹配生成代码。CWM在多个基准测试中表现出色，例如在Math-500数据集上达到96.6%的准确率。模型权重已公开，CWM的开源推动了代码生成和理解领域的研究，帮助开发者更好

AI中国

AI中国

118 0

Neovate Code – 蚂蚁集团开源的AI编程助手

AI视频 7月前

Neovate Code – 蚂蚁集团开源的AI编程助手

Neovate Code 是什么Neovate Code 是蚂蚁集团开源的智能编程助手，专注于提升开发效率。工具能深度理解代码库，遵循既有编码习惯，精准完成代码生成、Bug修复和重构等任务。通过对话式界面，支持开发者用自然地描述需求，Neovate Code 提供安全、可控的实现方案。工具支持多种流行模型（如 OpenAI、Anthropic 等），可通过插件系统灵活扩展功能。目前以 CLI

AI中国

AI中国

195 0

LucaVirus – 阿里开源的病毒基础大模型

AI视频 7月前

LucaVirus – 阿里开源的病毒基础大模型

LucaVirus是什么LucaVirus 是阿里巴巴云 LucaGroup 研发的专为病毒设计的统一核酸 – 蛋白质语言模型。在 254 亿个核苷酸和氨基酸标记上训练，涵盖几乎所有已知病毒。模型可学习核苷酸和氨基酸序列间的关系等生物学上有意义的表示，基于此开发的下游模型能应对病毒学关键挑战，如识别基因组“暗物质”中的病毒、表征未知蛋白质酶活性、预测病毒进化能力、发现针对新病毒的抗体药物等，在

AI中国

AI中国

245 0

MiroFlow v0.2 – MiroMind开源的研究智能体框架

AI视频 7月前

MiroFlow v0.2 – MiroMind开源的研究智能体框架

MiroFlow v0.2是什么MiroFlow v0.2是MiroMind推出的开源研究智能体框架，能将任何大型语言模型（LLM）升级至OpenAI深度研究级别的能力，专注于可靠完成复杂的工具使用任务。框架具有开源可复现、高并发高可靠性及部署成本低等优势，在GAIA、HLE、xBench-DeepSearch和BrowserComp等多个基准测试中取得顶尖成果。MiroFlow v0.2基于

AI中国

AI中国

237 0

Kronos – 微软联合清华开源的金融K线图基础模型

AI视频 7月前

Kronos – 微软联合清华开源的金融K线图基础模型

Kronos是什么Kronos 是首个面向金融市场的 K 线图基础模型，由清华大学与微软亚洲研究院联合开源。通过分析股票、加密货币等资产的 K 线数据，包括开盘价、最高价、最低价、收盘价及成交量，来预测未来价格走势。Kronos 采用两阶段处理框架：智能分词器将连续的 K 线数据转化为离散的「金融词汇」，预测大模型基于 Transformer 架构，从历史数据中学习规律，预测未来走势。模型训练

AI中国

AI中国

171 0

OneSearch – 快手推出的电商搜索端到端生成式框架

AI视频 7月前

OneSearch – 快手推出的电商搜索端到端生成式框架

OneSearch是什么OneSearch 是快手推出的电商搜索端到端生成式框架，优化传统电商搜索的级联式架构，提升搜索精准度和用户体验。三大创新点包括：关键词增强层次量化编码（KHQE）模块，通过提取商品核心属性并生成层次化编码（SID），强化 Query-商品相关性约束；多视角用户行为序列注入策略，构建行为驱动的用户标识（UID），融合显式短期行为与隐式长期序列，精准建模用户偏好；偏好感知

AI中国

AI中国

149 0

Codexia – 开源的AI编码桌面应用程序，多会话支持

AI视频 7月前

Codexia – 开源的AI编码桌面应用程序，多会话支持

Codexia是什么Codexia是强大的跨平台AI编码桌面应用程序，支持为OpenAI Codex CLI提供图形界面和工具集，增强开发体验。Codexia支持多会话管理、实时流式响应、多种文件格式（如PDF、CSV、XLSX）的内置预览，及灵活的配置选项。用户能自定义AI提供商、模型、沙盒策略等。专业用户体验包括记事本与聊天集成、增强的Markdown渲染、主题选择等。Codexia注重安

AI中国

AI中国

145 0

Lego-Edit – 小米开源的图像编辑框架

AI视频 7月前

Lego-Edit – 小米开源的图像编辑框架

Lego-Edit是什么Lego-Edit 是小米开源的基于指令的图像编辑框架，通过多模态大语言模型（MLLM）的泛化能力，实现对图像的灵活编辑。采用模型级工具包，包含多种高效训练的模型，可执行多种图像操作。Lego-Edit 通过三阶段渐进式强化学习训练策略，先进行监督微调（SFT），再在特定任务上强化学习（RL），最后利用大量未标注指令进行额外 RL 训练，增强对灵活指令的处理能力。优势在

AI中国

AI中国

249 0

Wan2.2-Animate – 阿里通义开源的动作生成模型

AI视频 7月前

Wan2.2-Animate – 阿里通义开源的动作生成模型

Wan2.2-Animate是什么Wan2.2-Animate是阿里通义团队推出的动作生成模型，模型同时支持动作模仿和角色扮演两种模式，能基于表演者的视频，精确复制面部表情和动作，生成高度逼真的角色动画视频。模型能将动画角色无缝替换进原视频，完美匹配场景的光照和色调。模型基于Wan模型构建，通过空间对齐的骨骼信号控制肢体动作，用从源图像中提取的隐式面部特征重现表情，实现高度可控和富有表现力的角

AI中国

AI中国

161 0

Xiaomi-MiMo-Audio – 小米开源的端到端语音大模型

AI视频 7月前

Xiaomi-MiMo-Audio – 小米开源的端到端语音大模型

Xiaomi-MiMo-Audio是什么Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现了基于 In-Context Learning（ICL）的少样本泛化能力，打破了语音领域依赖大规模标注数据的瓶颈。Xiaomi-MiMo-Audio 在多项标准评测基准中大幅超越同参数量的开源模型，取得7B最佳性能。在音频理

AI中国

AI中国

140 0

Ling-V2 – 蚂蚁百灵推出的大型语言模型系列

AI视频 7月前

Ling-V2 – 蚂蚁百灵推出的大型语言模型系列

Ling-V2是什么Ling-V2 是蚂蚁百灵团队推出的基于 MoE 架构的大型语言模型家族，首个版本 Ling-mini-2.0 拥有 160 亿总参数，每个输入标记仅激活 14 亿参数。模型在 20 万亿高质量数据标记上训练，经多阶段监督微调和强化学习增强，在复杂推理和指令遵循方面表现出色。Ling-mini-2.0 用 1/32 激活比率的 MoE 架构，实现 7 倍等效密集性能杠杆，生

AI中国

AI中国

212 0

FastMTP – 腾讯开源的大语言模型推理加速技术

AI视频 7月前

FastMTP – 腾讯开源的大语言模型推理加速技术

FastMTP是什么FastMTP 是腾讯自研的大语言模型（LLM）推理加速技术，通过优化多标记预测（MTP）技术，用共享权重的单 MTP 头替代传统多独立模块，结合语言感知词汇压缩和自蒸馏训练，显著提升 LLM 的推理速度，平均提速可达 2.03 倍，且输出质量无损。FastMTP 不改变主模型结构，易于集成到现有框架中，适用数学推理、代码生成等结构化任务，为 LLM 的高效部署提供实用方案

AI中国

AI中国

191 0

Lucy Edit Dev – Decart AI开源基于文本指令的视频编辑模型

AI视频 7月前

Lucy Edit Dev – Decart AI开源基于文本指令的视频编辑模型

Lucy Edit Dev是什么Lucy Edit Dev 是 Decart AI 团队开源的基于文本指令的视频编辑模型。能根据简单的文本提示对视频进行多种编辑操作，如更改服装、替换角色、插入对象和转换场景等，同时完美保留视频的运动和构图。模型基于 Wan2.2 5B 架构，继承了高压缩 VAE + DiT 堆栈，方便用户将现有的脚本和工作流进行适配。Lucy Edit Dev的主要功能

AI中国

AI中国

106 0

AI视频 7月前

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

InternVLA·M1是什么InternVLA·M1 是上海人工智能实验室开发的具身操作“大脑”，是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环，负责高阶的空间推理与任务规划。模型采用两阶段训练策略，先通过空间感知预训练，增强空间推理与规划能力；再以隐式空间推理方式实现高效的动作后训练。仅需“空间规划提示”即可高效训练，大幅降低成本。在 SimplerEnv

AI中国

AI中国

122 0

AI视频 7月前

通义DeepResearch – 阿里推出的开源深度研究智能体

通义DeepResearch是什么通义DeepResearch 是阿里巴巴推出的开源深度研究智能体，专为长周期、深度信息检索任务设计。拥有 300 亿参数，每次激活 30 亿参数，支持 ReAct 模式和深度模式（Heavy Mode），后者通过迭代研究范式（IterResearch）提升复杂推理能力。智能体采用全流程合成数据方案，无需人工干预即可生成高质量数据集，突破智能体能力上限。训练流程

AI中国

AI中国

214 0

AI视频 7月前

VLAC – 上海AI实验室开源的具身奖励大模型

VLAC是什么VLAC是上海人工智能实验室发布的具身奖励大模型。以InternVL多模态大模型为基础，融合互联网视频数据和机器人操作数据，为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效区分正常推进与异常/停滞行为，支持通过in-context learning实现小样本快速泛化。具备局部平滑性和负向奖励机制，确保强化学习的稳定性和有效性。VLAC不仅输出奖励信号，

AI中国

AI中国

256 0

AI视频 7月前

RustGPT – AI语言模型，根据输入内容自动文本补全

RustGPT是什么RustGPT 是用 Rust 编写的 Transformer 架构语言模型。RustGPT从零开始构建，不依赖任何外部机器学习框架，仅用 ndarray 进行矩阵运算。项目包括事实文本补全的预训练、用于会话 AI 的指令微调及交互式聊天模式测试。RustGPT模块化架构确保关注点的清晰分离，便于理解和扩展。RustGPT 适合对 Rust 和机器学习感兴趣的开发者，是一个

AI中国

AI中国

216 0

AI视频 7月前

PromptEnhancer – 腾讯开源的文本到图像提示词增强框架

PromptEnhancer是什么PromptEnhancer是腾讯混元团队开源的用在提升文本到图像（T2I）模型的提示重写框架，通过思维链（Chain-of-Thought，CoT）提示重写和专用的奖励模型AlignEvaluator，显著提升T2I模型对复杂用户指令的理解和图像生成的准确性。框架无需修改T2I模型的权重，具有通用性和即插即用的特性，适用多种预训练模型。PromptEnhan

AI中国

AI中国

120 0

AI视频 7月前

Nano Bananary – 开源AI图像编辑工具，基于Gemini模型

Nano Bananary是什么Nano Bananary（香蕉超市）是开源的图像编辑工具，基于 Google Gemini 图像模型开发，支持中文界面和明暗主题切换，提供 50 多种图像转换效果，无需复杂提示词能一键将图片转为 3D 手办、乐高模型等。Nano Bananary 支持局部涂选、连续编辑、历史记录、多模式对比及一键下载等功能，方便用户进行创意图像生成和编辑。Nano Ba

AI中国

AI中国

235 0

LLaSO – 逻辑智能开源的语音模型

AI视频 7月前

LLaSO – 逻辑智能开源的语音模型

LLaSO是什么LLaSO（Large Language and Speech Model）是北京深度逻辑智能科技有限公司推出的全球首个完全开源的语音模型，能解决大型语音语言模型（LSLM）领域长期存在的架构碎片化、数据私有化、任务覆盖局限和交互模态单一等问题。LLaSO包含三大核心组件，LLaSO-Align（大规模语音-文本对齐数据集）、LLaSO-Instruct（多任务指令微调数据集）

AI中国

AI中国

179 0

InfiniteTalk – 美团开源的数字人视频生成框架

AI视频 7月前

InfiniteTalk – 美团开源的数字人视频生成框架

InfiniteTalk是什么InfiniteTalk是美团视觉智能部推出的新型数字人驱动技术，通过稀疏帧video dubbing范式，仅需少量关键帧能驱动数字人人生成自然流畅的视频，解决传统技术中口型、表情和肢体动作脱节的问题。InfiniteTalk使数字人视频更具沉浸感和自然感，生成效率高、成本低。InfiniteTalk的论文、代码和权重已开源，为数字人技术的发展提供重要参考。I

AI中国

AI中国

167 0

ERNIE-4.5-21B-A3B-Thinking – 百度推出的思考模型

AI视频 7月前

ERNIE-4.5-21B-A3B-Thinking – 百度推出的思考模型

ERNIE-4.5-21B-A3B-Thinking是什么ERNIE-4.5-21B-A3B-Thinking 是百度推出的专注于推理任务的大型语言模型。采用混合专家（MoE）架构，总参数量达210亿，每个token激活30亿参数，支持128K的长上下文窗口，适用于复杂推理任务。模型通过文本预训练构建语言核心骨干，在推理增强后训练阶段，利用监督式微调（SFT）和渐进式强化学习（PRL）等技术，

AI中国

AI中国

170 0

FunAudio-ASR – 阿里达摩院推出的端到端语音识别模型

AI视频 7月前

FunAudio-ASR – 阿里达摩院推出的端到端语音识别模型

FunAudio-ASR是什么FunAudio-ASR 是阿里巴巴达摩院推出的端到端语音识别大模型，专为解决企业落地中的关键问题设计。通过创新的 Context 增强模块，有效优化了“幻觉”和“串语种”等问题。模块利用 CTC 解码器快速生成第一遍转写文本，将其作为上下文信息输入 LLM，显著提升了识别的准确性和稳定性。FunAudio-ASR 在远场、嘈杂背景等复杂场景下表现出色，轻量化版本

AI中国

AI中国

243 0

推荐文章

Google NotebookLM推出动漫风视频功能：Nano Banana一键生成六种艺术风格，中文支持仍需优化

Google NotebookLM推出动漫风视频功能：Nano Banana一键生成六种艺术风格，中文支持仍需优化

6月前 • AI热点

穿越直播天京攻城战（VEO3教程）

穿越直播天京攻城战（VEO3教程）

10月前 • 视频教程

手把手：1分钟把 Claude Code 迁到 DeepSeek V3.1，开箱即干

手把手：1分钟把 Claude Code 迁到 DeepSeek V3.1，开箱即干

8月前 • AI热点

AI时代硬核EMBA来了！交大高金「科技强国计划」全额奖学金等你拿

AI时代硬核EMBA来了！交大高金「科技强国计划」全额奖学金等你拿

9月前 • AI热点

谷歌拟加大对 Anthropic 投资，估值或超 3500 亿美元

谷歌拟加大对 Anthropic 投资，估值或超 3500 亿美元

6月前 • AI热点

挑战英伟达主导地位，AMD 联手多家 AI 初创公司改进芯片及软件设计

挑战英伟达主导地位，AMD 联手多家 AI 初创公司改进芯片及软件设计

10月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 视频教程

AIGC提示工程：AI与美学的非完美结合

AIGC提示工程：AI与美学的非完美结合

8月前 • 图文教程

热门标签

应届生机会 GoogleLens 自研芯片 cursor AI智能机器人开源语言模型 B站AI工具 Worldcoin Adobe 专家混合

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝