AI视频制作教程 | 从脚本生成到智能剪辑的完整解决方案 - AI学习站

OmniVinci – NVIDIA推出的全模态大语言模型

Top

AI视频 6月前 • 726

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embedding Grouping机制解决时序同步问题，采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中，性能超越Qwen

AI中国

AI中国

Open-Lovable – Firecrawl开源的AI网站克隆工具

AI视频 8月前

Open-Lovable – Firecrawl开源的AI网站克隆工具

Open-Lovable是什么Open-Lovable 是 Firecrawl 团队推出的开源项目，通过 AI 技术快速将任意网站克隆为现代 React 应用。用户输入目标网站 URL 后，通过 Firecrawl 抓取内容，用 AI 模型生成 React 代码，最终输出完整应用。Open-Lovable用多个 AI 提供商的 API（如 Anthropic、OpenAI 等）实现自动化构建。

AI中国

AI中国

217 0

MemU – 面向AI情感陪伴的开源AI记忆框架

AI视频 8月前

MemU – 面向AI情感陪伴的开源AI记忆框架

MemU是什么MemU 是面向AI情感陪伴开源的AI记忆框架。MemU 能记住用户与 AI 的每一次对话，提取重点并建立知识图谱，让 AI 真正理解用户。MemU 的记忆会自主进化，随着使用不断优化。MemU 支持快速集成，只需几行代码能让 AI 拥有持久记忆。相比其他框架，MemU 准确率高达92%，成本降低90%，检索速度快至50毫秒。在情感陪伴、教育等其他场景，MemU 都能成为用户贴心

AI中国

AI中国

177 0

AudioGenie – 腾讯AI Lab推出的多模态音频生成工具

AI视频 8月前

AudioGenie – 腾讯AI Lab推出的多模态音频生成工具

AudioGenie是什么AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具，能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体框架，通过生成团队和监督团队的双层架构实现高效协同。生成团队负责将复杂的输入分解为具体的音频子事件，通过自适应混合专家（MoE）协作机制动态选择最适合的模型进行生成。监督团队则负责时空一致性验证，通过反馈循环

AI中国

AI中国

121 0

Chaterm – 开源的AI终端工具，运维版Cursor

AI视频 8月前

Chaterm – 开源的AI终端工具，运维版Cursor

Chaterm是什么Chaterm是开源的智能、安全的AI终端工具，专为云从业者和开发运维人员设计。工具基于AI Agent让用户能用自然语言代替复杂命令行操作，Chaterm提供基于个人知识库的智能补全功能，支持高精度语音命令输入，具备跨平台的个性化语法高亮、类似Sublime Text的可视化Vim编辑体验以及全局别名设置。Chaterm基于零信任安全模型，支持IAM和工作区隔离，配备隐私

AI中国

AI中国

256 0

MemU – 面相AI情感陪伴的开源AI记忆框架

AI视频 8月前

MemU – 面相AI情感陪伴的开源AI记忆框架

MemU是什么MemU 是面相AI情感陪伴开源的AI记忆框架。MemU 能记住用户与 AI 的每一次对话，提取重点并建立知识图谱，让 AI 真正理解用户。MemU 的记忆会自主进化，随着使用不断优化。MemU 支持快速集成，只需几行代码能让 AI 拥有持久记忆。相比其他框架，MemU 准确率高达92%，成本降低90%，检索速度快至50毫秒。在情感陪伴、教育等其他场景，MemU 都能成为用户贴心

AI中国

AI中国

195 0

AI视频 8月前

ThinkSound

ThinkSound是什么？ThinkSound 是一款先进的AI视频转音频生成平台，可自动为视频内容添加高保真音轨与智能音效。它利用多模态大语言模型（MLLM）和Chain-of-Thought（CoT）推理技术，实现从视频、文本或音频中提取语义并生成匹配的声音效果。该平台适用于后期制作、动画、游戏开发等多种场景，让原本无声或AI生成的视频焕发真实与沉浸式的听觉体验。ThinkSound

AI中国

AI中国

178 0

AI视频 8月前

Try On Haul

TryOnHaul AI 是什么？TryOnHaul AI 是一款基于人工智能的时尚内容发现与虚拟试穿平台，致力于为用户提供最前沿的潮流趋势、真实的试穿视频体验和AI驱动的虚拟试衣技术。该平台整合了AI搜索、视频展示、产品评论和虚拟试衣四大核心模块，旨在解决线上购物中“穿起来会是什么样”的最大痛点，提升购物决策效率与购物体验。TryOnHaul AI 应用场景时尚消费决策：观看不同身材

AI中国

AI中国

145 0

AI视频 8月前

Seedance AI

Seedance.run 是什么？Seedance.run 是一款先进的AI视频生成平台，支持文字生成视频（Text-to-Video）和图像生成视频（Image-to-Video）两种模式。平台提供两个模型版本（Seedance 1.0 Pro 和 Lite），帮助用户将文字描述或静态图像转化为具有真实物理质感、丰富动作表现和专业镜头效果的短视频，适用于社交媒体内容创作、广告、教育、产品展示

AI中国

AI中国

176 0

AI视频 8月前

AI Avatar Generator

AI Avatar Generator 简介AI Avatar Generator 是一款支持将照片或视频转化为「会说话的 AI 虚拟人」的内容生成平台。你可以上传一张照片、输入一段文字（或上传音频），平台就能快速生成拥有真实唇形同步、自然表情、多语言语音合成的 AI 人像视频。🧠 应用场景应用领域示例企业培训创建员工培训/上岗/制度介绍视频，更新仅需改文案即可

AI中国

AI中国

219 0

AI视频 8月前

Zoom Out AI

Zoom Out AI 平台简介Zoom Out AI 是一款支持用户将任意图片快速生成地球缩放视频的免费AI工具。用户上传一张照片，即可生成一个从照片主体拉远至城市、国家、地球，最终到太空背景的“缩放穿越”特效视频，适合社交媒体、短视频转场、品牌开场动画等创意场景。🚀 适用场景场景类别应用案例社交媒体视频用于 TikTok、抖音、Instagram 的吸睛转场

AI中国

AI中国

148 0

AI视频 8月前

AgentHunter

AgentHunter 平台简介AgentHunter 是一个聚合全球优质 AI 工具的平台，专注于帮助用户发现、比较并利用 AI Agents 来提升各类工作流的效率。它被视为“AI 工具导航器”，适用于企业、开发者、设计师、创作者等多个角色，帮助他们快速找到适配的 AI 产品和解决方案。🧠 适用人群与场景角色/行业场景示例产品经理快速比较 AI 自动化工具或客服类

AI中国

AI中国

110 0

AI视频 8月前

智写流程

智写流程是什么？智写流程是一款浏览器扩展类自动化工具，专注于将用户在网页上的一系列操作自动转化为结构化的图文操作教程。它的核心理念非常简单高效：你只需要“像平时一样操作一遍”，工具就会自动生成一份图文并茂、步骤清晰的傻瓜式操作指南，极大地节省了手动撰写教程的时间和精力。该工具结合了交互追踪 + 截图捕捉 + 文本描述自动生成的能力，是流程文档制作、系统培训手册、操作教学视频脚本准备的极佳

AI中国

AI中国

229 0

AI视频 8月前

Shortcut

Shortcut 是什么？Shortcut 是一个专为 Excel 操作与数据处理任务打造的AI超级智能体，能高效执行数据分析、图表生成、财务建模、表格自动化等复杂任务。用户只需通过自然语言提示即可启动任务，无需具备Excel公式或VBA编程能力。它在 Excel 世界锦标赛上的表现极为亮眼：准确率超过80%、处理速度是人类的10倍。其目标是通过AI解锁Excel的全部潜能，让用户“用说的方

AI中国

AI中国

152 0

AI视频 8月前

Voost – 创新的双向虚拟试穿和试脱AI模型

Voost是什么Voost 是NXN实验室推出创新的虚拟试穿和试脱模型，基于统一且可扩展的扩散 Transformer（DiT）框架开发。能同时处理虚拟试穿（try-on）和试脱（try-off）任务，生成高质量的图像结果。通过联合学习这两个任务，Voost 利用双向监督机制，使每对服装 – 人物数据能为两个方向的生成提供监督信号，显著增强了服装与身体的关系推理能力，无需依赖特定于任务的网络、

AI中国

AI中国

177 0

AI视频 8月前

hunyuan-large-vision – 腾讯混元推出的多模态视觉理解模型

hunyuan-large-vision 是什么hunyuan-large-vision 是腾讯推出的多模态理解模型，基于MoE架构，激活参数达52B，支持图像、视频和3D空间输入。模型在国际知名的大模型竞技场“LMArena Vision排行榜”上取得1256分，位列第五名（国内模型第一名），展现了卓越的多语言能力和用户体验。模型由数十亿参数的混元ViT视觉编码器、自适应下采样机制的MLP连

AI中国

AI中国

113 0

AI视频 8月前

Skywork Deep Research Agent v2 – 昆仑万维推出的升级版深度研究智能体

Skywork Deep Research Agent v2是什么Skywork Deep Research Agent v2是昆仑万维推出的升级版深度研究智能体，作为天工超级智能体的核心引擎，具备多模态深度调研能力，首次整合多模态检索、理解和生成功能，支持处理图文混排信息，生成高质量报告。Skywork Deep Research Agent v2具备多模态深度浏览器智能体功能，能模拟人类浏

AI中国

AI中国

174 0

AI视频 8月前

Mureka V7.5 – 昆仑万维推出的AI音乐生成模型

Mureka V7.5是什么Mureka V7.5是昆仑万维集团推出的先进AI音乐创作模型。模型在中文歌曲创作上表现卓越，能精准还原音色、演奏技法，提升咬字与情感表现。模型基于优化ASR技术，能分析真实演唱中的细节，生成更自然、更具情感的歌声。Mureka V7.5积累了丰富的中文音乐文化特性，能深刻理解和再现中文音乐的独特韵味。Mureka V7.5为音乐创作带来更高的艺术性和真实感，开启A

AI中国

AI中国

222 0

AI视频 8月前

Shadow – 开源的AI编程Agent，提供实时任务状态更新

Shadow是什么Shadow 是开源的AI编程Agent，能帮助开发者理解、推理并贡献现有的代码库。Shadow 支持 GitHub 仓库集成，能生成拉取请求、管理分支，提供实时任务状态更新。Shadow 提供多语言模型支持，具备代码生成、代码搜索和文件操作等功能，通过 Micro-VMs 和 Kata QEMU 容器实现硬件级隔离，确保安全性和隔离性。Shadow支持本地和远程两种执行模式

AI中国

AI中国

142 0

AI视频 8月前

MoE-TTS – 昆仑万维推出的语音合成框架

MoE-TTS是什么MoE-TTS 是昆仑万维语音团队推出的首个基于MOE的角色描述语音合成框架，专门用在提升对开放域文本描述的理解能力。模型通过混合专家（Mixture-of-Experts，MoE）架构，将预训练的大型语言模型（LLM）与语音专家模块相结合。在训练中冻结文本模块参数，仅更新语音模块参数，保留 LLM 的强大文本理解能力，同时增强语音生成的准确性。实验表明，MoE-TTS 在

AI中国

AI中国

144 0

AI视频 8月前

DINOv3 – Meta开源的通用视觉基础模型

DINOv3是什么DINOv3 是 Meta 推出的通用的、SOTA 级的视觉基础模型。模型通过无标注数据训练，生成高质量的高分辨率视觉特征，适用图像分类、语义分割、目标检测等多任务。DINOv3 拥有 70 亿参数，训练数据量达 17 亿张图像，性能全面超越弱监督模型，模型支持多种模型变体适应不同计算需求。DINOv3 开源的训练代码和预训练模型，为计算机视觉研究和应用开发提供强大支持。

AI中国

AI中国

149 0

AI视频 8月前

Genie Envisioner – 智元推出的机器人世界模型开源平台

Genie Envisioner是什么Genie Envisioner 是智元推出的首个机器人世界模型开源平台。平台通过一个统一的视频生成框架，集成策略学习、评估和仿真功能。核心组件包括 GE-Base（大规模指令条件视频扩散模型）、GE-Act（动作轨迹解码器）、GE-Sim（神经仿真器）和 EWMBench（标准化基准测试套件）。平台支持跨机器人形态的策略泛化，助力机器人在复杂任务中实现精

AI中国

AI中国

170 0

AI视频 8月前

VeOmni – 字节跳动开源的全模态PyTorch原生训练框架

VeOmni是什么VeOmni 是字节跳动 Seed 团队开源的全模态分布式训练框架，基于 PyTorch 设计。VeOmni 以模型为中心，将分布式并行逻辑与模型计算解耦，支持灵活组合多种并行策略（如 FSDP、SP、EP），能高效扩展至超长序列和大规模 MoE 模型。VeOmni 提供轻量级全模态接口，简化多模态编解码器接入，集成动态批处理、高效算子等优化技术，大幅提升训练效率和稳定性，V

AI中国

AI中国

168 0

AI视频 8月前

OpenDeRisk – 开源的AI原生风险智能管理系统

OpenDeRisk是什么OpenDeRisk是AI原生的风险智能管理系统，支持为应用系统提供7×24小时的全面保护。系统基于深度根本原因分析（DeepResearch RCA），快速定位问题根源，结合可视化证据链，让诊断过程清晰透明。系统基于多智能体协作架构，包括SRE-Agent、Code-Agent等多个智能体协同工作，实现高效的风险诊断与管理。OpenDeRisk基于开源的OpenRC

AI中国

AI中国

140 0

Matrix-3D – 昆仑万维开源的3D世界模型

AI视频 8月前

Matrix-3D – 昆仑万维开源的3D世界模型

Matrix-3D是什么Matrix-3D 是昆仑万维 Skywork AI 团队推出的用在生成可探索全景3D世界的框架。框架结合全景视频生成与3D重建，从单图像或文本提示出发，生成高质量、全向可探索的3D场景。基于轨迹引导的全景视频扩散模型和两种3D重建方法（快速前馈网络与高质量优化方法），Matrix-3D 实现大范围、高一致性的3D场景生成，支持文本和图像输入，具备高效性和强泛化能力。框

AI中国

AI中国

185 0

RynnEC – 阿里达摩院推出的世界理解模型

AI视频 8月前

RynnEC – 阿里达摩院推出的世界理解模型

RynnEC是什么RynnEC是阿里巴巴达摩院推出的世界理解模型（MLLM），专门用在具身认知任务。模型能从位置、功能、数量等11个维度全面解析场景中的物体，支持物体理解、空间理解以及视频目标分割等功能。RynnEC仅靠视频序列能建立连续的空间感知，无需3D模型，支持灵活交互。RynnEC为具身智能提供强大的语义理解能力，助力机器人更好地理解物理世界。RynnEC的主要功能物体理解：

AI中国

AI中国

242 0

RynnRCP – 阿里达摩院开源的机器人上下文协议

AI视频 8月前

RynnRCP – 阿里达摩院开源的机器人上下文协议

RynnRCP是什么RynnRCP 是阿里达摩院开源的机器人上下文协议（Robotics Context Protocol），能打通具身智能开发全流程。RynnRCP 包含 RCP 框架和 RobotMotion 两大模块，前者提供机器人本体与传感器的标准化能力接口；后者作为云推理与机器人控制的桥梁，将低频推理命令转换为高频控制信号。RynnRCP 通过标准化协议和工具，降低开发门槛，助力具

AI中国

AI中国

134 0

Matrix-Game 2.0 – 昆仑万维推出的自研世界模型

AI视频 8月前

Matrix-Game 2.0 – 昆仑万维推出的自研世界模型

Matrix-Game 2.0是什么Matrix-Game 2.0 是昆仑万维 SkyWork AI 发布的自研世界模型。是业内首个开源的通用场景实时长序列交互式生成模型，全面开源，推动交互式世界模型领域的发展。模型采用视觉驱动的交互方案，通过 3D 因果变分自编码器和多模态扩散 Transformer 架构，实现低延迟、高帧率的长序列交互性能，能以 25 FPS 的速度生成连续视频内容，支持

AI中国

AI中国

219 0

RynnVLA-001 – 阿里达摩院开源的视觉-语言-动作模型

AI视频 8月前

RynnVLA-001 – 阿里达摩院开源的视觉-语言-动作模型

RynnVLA-001是什么RynnVLA-001 是阿里达摩院推出的视觉-语言-动作模型。模型通过在大量第一人称视角的视频上进行预训练，学习人类操作技能，并隐式迁移到机器人手臂的操控中。模型结合视频生成技术和变分自编码器（VAE），能生成连贯、平滑的动作序列，更接近人类动作。模型将“下一帧预测”和“下一动作预测”统一到一个 Transformer 架构中，显著提升机器人在复杂任务中的成功率和

AI中国

AI中国

229 0

GLM-4.5V – 智谱开源的最新一代视觉推理模型

AI视频 8月前

GLM-4.5V – 智谱开源的最新一代视觉推理模型

GLM-4.5V是什么GLM-4.5V是智谱推出的最新一代视觉推理模型。模型基于106B参数规模构建，拥有12B激活能力，是目前领先的视觉语言模型（VLM）。模型在GLM-4.1V-Thinking的基础上升级而来，继承其优秀架构，结合新一代文本基座模型GLM-4.5-Air进行训练。模型在视觉理解、推理能力上表现卓越，适用网页前端复刻、grounding、图寻游戏、视频理解等场景，有望推动多

AI中国

AI中国

133 0

MiroThinker – 开源的Agent模型系列，基于Qwen3构建

AI视频 8月前

MiroThinker – 开源的Agent模型系列，基于Qwen3构建

MiroThinker 是什么MiroThinker 是开源的智能体模型系列，专为深度研究和复杂、长期问题解决设计。模型基于 Qwen3 构建，具备任务分解、多跳推理、检索增强生成、代码执行、网页浏览和文件处理等能力。MiroThinker v0.1 提供 8B、14B 和 32B 参数规模的 SFT 和 DPO 变体，在 GAIA 基准测试中表现出色。模型配备 MiroFlow 框架，支持多

AI中国

AI中国

241 0

推荐文章

OpenAI GPT-4o AI 模型再升级，智能与个性双提升

OpenAI GPT-4o AI 模型再升级，智能与个性双提升

1年前 • AI热点

南京大学与阿里云联合启动人工智能人才培养合作计划，共同培养 AI 创新人才

南京大学与阿里云联合启动人工智能人才培养合作计划，共同培养 AI 创新人才

1年前 • AI热点

从 OpenAI 出走的前员工，已经造就了 7 个独角兽公司

从 OpenAI 出走的前员工，已经造就了 7 个独角兽公司

9月前 • AI热点

从重金挖角OpenAI/谷歌到招聘急刹车：Meta MSL主要人员梳理，半数华人+75%博士成主力

从重金挖角OpenAI/谷歌到招聘急刹车：Meta MSL主要人员梳理，半数华人+75%博士成主力

8月前 • AI热点

刚刚，谷歌摊牌：Genie 3让你1秒「进入」名画，人人可造交互世界！

刚刚，谷歌摊牌：Genie 3让你1秒「进入」名画，人人可造交互世界！

8月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

苹果 AI 搜索部门负责人柯杨离职，转投 Meta Platforms

苹果 AI 搜索部门负责人柯杨离职，转投 Meta Platforms

6月前 • AI热点

OpenAI 发布 HealthBench：评估大型语言模型在医疗领域表现的新标准

OpenAI 发布 HealthBench：评估大型语言模型在医疗领域表现的新标准

11月前 • AI热点

热门标签

招聘平台发现《第五人格 (Inst.)》小时候 #KLING AI版主用户生成内容医疗AI大模型 AI智能机器人云环境多语言AI

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝