AI视频制作教程 | 从脚本生成到智能剪辑的完整解决方案 - AI学习站

OmniVinci – NVIDIA推出的全模态大语言模型

Top

AI视频 6月前 • 726

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embedding Grouping机制解决时序同步问题，采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中，性能超越Qwen

AI中国

AI中国

AI视频 6月前

LLaVA-OneVision-1.5 – EvolvingLMMS-Lab开源的多模态模型

LLaVA-OneVision-1.5是什么LLaVA-OneVision-1.5 是开源的多模态模型，通过高效训练和高质量数据实现高性能、低成本和强复现性。采用自研的 RICE-ViT 作为视觉编码器，结合 2D 旋转位置编码和区域感知注意力机制，支持可变输入分辨率，增强对象和 OCR 能力。语言模型基于 Qwen3，通过三阶段训练流程（语言–图像对齐、高质量知识中期预训练和视觉指令对齐）进

AI中国

AI中国

214 0

AI视频 6月前

MineContext – 字节开源的主动式上下文感知 AI 工具

MineContext是什么MineContext 是字节跳动开源的主动式上下文感知 AI 工具，通过挖掘数字生活中的“方块”，帮助用户高效管理知识和信息。每 5 秒截取一次屏幕，经过处理后，批量发送给视觉语言模型（VLM）分析，提取出人物、产品、公司档案等六种结构化上下文，主动生成日报、待办、洞察等高质量信息，非被动等待用户提问。多模态信息处理能力，未来还将支持文档、图片、视频等多种数据来源

AI中国

AI中国

198 0

AI视频 6月前

Banana AI

💡 Banana AI 是什么？Banana AI Photo Editor 是一款基于 Nano Banana 技术的高级生成式图像编辑平台，可将文字提示（text prompt）转化为高质量、风格多样的图像。其核心是 Nano Banana 引擎 —— 一种优化的AI渲染系统，能够理解场景语境、光影关系和色彩构成，从而生成具备摄影级真实感的视觉作品。官方定义：“Turn simpl

AI中国

AI中国

174 0

AI视频 6月前

Noah AI

💡Noah AI 是什么？Noah AI 是一款专为生命科学和医学研究领域打造的智能AI助手平台。它的核心使命是帮助科学家、制药专家、投资分析师和临床医生从海量科研与医疗信息中，快速获得可行性洞察与数据分析。Noah 的智能体（AI Agent）结合了知识图谱、自然语言理解和专业数据库检索技术，能为用户自动化完成研究查询、数据整理、竞争分析与报告生成。官方定位：“AI Ag

AI中国

AI中国

224 0

AI视频 6月前

NeuTTS Air – Neuphonic开源的语音合成模型

NeuTTS Air是什么NeuTTS Air 是 Neuphonic 开发的超拟真、可离线运行的 TTS（文本到语音）模型。具备高拟真语音合成能力，声音自然流畅，几乎能以假乱真。支持本地运行，提供 GGML 格式，兼容 CPU，可部署在手机、笔电或树莓派等设备上，无需联网即可使用。NeuTTS Air 支持即时语音克隆，仅需 3 秒音频样本就能克隆说话者的声音。采用基于 LM + Codec

AI中国

AI中国

149 0

AI视频 6月前

Paper2Video – 国立大学推出的学术论文生成演示视频项目

Paper2Video是什么Paper2Video 是新加坡国立大学 Show Lab 开发的项目，从学术论文自动生成演示视频。通过 PaperTalker 多智能体框架，将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频。框架包含幻灯片构建器、字幕构建器、光标构建器和演讲者构建器四个模块，分别负责幻灯片生成、字幕生成、光标定位和演讲者视频生成。Paper2Video 提供了首个高质

AI中国

AI中国

221 0

AI视频 6月前

KAT-Dev-72B-Exp – 快手开源的编程模型

KAT-Dev-72B-Exp是什么KAT-Dev-72B-Exp 是快手推出的开源编程专用大语言模型，参数规模达720亿。模型是 KAT-Coder 的强化学习版本，专为软件工程任务设计。在 SWE-Bench Verified 基准测试中，模型准确率高达74.6%，表现优异。通过优化注意力核和训练引擎，模型实现了高效的强化学习训练，通过调整优势分布防止探索坍塌。模型开源特性为开发者和研究人

AI中国

AI中国

255 0

AI视频 6月前

Qwen3-VL Cookbooks – 阿里推出的多模态任务开发指南

Qwen3-VL Cookbooks是什么Qwen3-VL Cookbooks 是阿里推出的为 Qwen3-VL 模型设计的实用指南集合，帮助用户快速掌握和应用该模型的各种功能。集合涵盖多种能力的使用示例，包括物体识别、文档解析、视频理解、空间理解、多模态编码等。每个 Cookbook 都提供详细的代码示例和操作步骤，用户能通过示例快速学习如何在实际场景中使用 Qwen3-VL 模型，更好地

AI中国

AI中国

109 0

AI视频 6月前

UserLM-8b – 微软开源的用户对话模拟模型

UserLM-8b是什么UserLM-8b是微软推出的用户语言模型（User Language Model），专门用在模拟对话中的“用户”角色，不是常见的“助手”角色。UserLM-8b通过在大规模真实对话数据集（如WildChat-1M）上进行训练，能生成更接近真实用户行为的对话内容。模型能用在研究和开发更强大的助手模型，帮助评估助手在多轮对话中的表现。模型支持生成多种用户话语，包括对话的初

AI中国

AI中国

239 0

AI视频 6月前

Androidify – 谷歌开源的如何构建AI Android应用项目

Androidify是什么Androidify 是谷歌推出的一个开源项目，帮助开发者学习如何在 Android 上构建 AI 驱动的应用。项目使用了谷歌最新的技术，如 Jetpack Compose、Gemini API（通过 Firebase AI Logic SDK）、CameraX 和 Navigation 3。用户可以通过上传照片或输入文字描述来创建个性化的安卓机器人形象，并添加颜色、

AI中国

AI中国

210 0

AI视频 6月前

Jamba Reasoning 3B – AI21开源的轻量级推理模型

Jamba Reasoning 3B是什么Jamba Reasoning 3B 是 AI21 Labs 推出的轻量级高效推理模型，拥有 30 亿参数和 256K 的超长上下文处理能力。模型用混合 Transformer-Mamba 架构，结合注意力机制和状态空间模型的优势，具备高效推理、低延迟的特点。模型在多项智能基准测试中表现卓越，尤其擅长指令跟随和常识推理任务。模型支持多种语言，可部署于本

AI中国

AI中国

134 0

AI视频 6月前

Imagine v0.9 – xAI推出的视频生成模型

Imagine v0.9是什么Imagine v0.9 是 xAI 公司推出的最新视频生成模型。模型能在不到20秒内生成6秒左右的视频，支持运动控制、动态相机效果、自然对话添加等功能，且配备语音优先界面，支持用户通过语音指令能快速创建内容。模型已集成到Grok中，现已免费向所有用户开放，为内容创作带来高效便捷体验。Imagine v0.9的主要功能快速生成视频：模型能在不到20秒的时间

AI中国

AI中国

109 0

AI视频 6月前

OpenAgents – 构建AI Agent网络的开源框架

OpenAgents是什么OpenAgents 是用在构建AI Agent网络的开源框架，将Agent连接到网络实现开放式协作。框架通过创建持久化的Agent网络，让Agent能像人类一样长期在线、相互协作、共享知识，完成复杂任务。每个网络是一个社区，Agent能实时互动、共同维护知识库或讨论问题。OpenAgents 支持多种协议和框架，提供丰富的插件功能，致力于打造一个开放、可扩展的“Ag

AI中国

AI中国

227 0

AI视频 6月前

Ling-1T – 蚂蚁集团开源的大型语言模型

Ling-1T是什么Ling-1T 是蚂蚁集团开源的万亿参数语言模型，定位为“旗舰级非思考模型”。基于 MoE（Mixture of Experts）架构，拥有 1 万亿参数，每次推理激活约 510 亿参数，支持 128K 上下文长度，适合处理长文档任务。Ling-1T 专注于在有限的输出 token 下直接给出高质量的推理结果，推理效率极高。模型在编程、数学推理、知识理解、创意写作等任务中表

AI中国

AI中国

161 0

AI视频 6月前

Gemini 2.5 Computer Use – 谷歌推出的计算机使用模型

Gemini 2.5 Computer Use是什么Gemini 2.5 Computer Use 是谷歌 DeepMind 推出的基于 Gemini 2.5 的计算机使用模型。模型能让 AI 直接控制浏览器，执行点击、滚动和输入等操作。模型通过视觉理解和推理能力，帮助用户完成各种任务，例如从网页中获取信息或整理笔记。模型在基准测试中表现优异，速度也很快。开发者能通过 Google AI St

AI中国

AI中国

143 0

AI视频 6月前

DeepScientist – 西湖大学推出的全自动AI科学家系统

DeepScientist是什么DeepScientist 是西湖大学等机构提出的自主科研系统，实现从假设生成到实验验证、再到结果分析与论文撰写的全流程自动化。通过多智能体架构与强化学习策略，使人工智能能在无人干预的情况下不断探索、验证并推进科学前沿。系统核心采用“假设—验证—分析（Hypothesize–Verify–Analyze）”的闭环流程，结合贝叶斯优化思想，将科学发现视为一个在庞大

AI中国

AI中国

239 0

AI视频 6月前

Picture to Drawing AI

一、PicturetoDrawing 是什么？PicturetoDrawing 是一款由人工智能驱动的照片转手绘转换平台，可在数秒内将你的图片转换为逼真的素描、彩铅画、水彩画或漫画风格作品。该平台通过深度学习模型理解图片的光影、纹理与构图，并模拟真实艺术家的绘画笔触，让每张照片都化身为手绘艺术作品。它既是一个AI艺术创作工具，也是个人创意表达和视觉设计的生产力神器。二、Picture

AI中国

AI中国

220 0

AI视频 6月前

WAN22 AI

🎬 WAN22 AI 是什么？WAN22（WAN 2.2）是一款由 WAN 2.2 TI2V-5B 模型驱动的下一代 AI视频生成平台，能将文本或图像直接转换为高质量的动态视频。它拥有 50亿参数（5B Parameters）的超大规模模型架构，并基于 Mixture-of-Experts（专家混合机制）构建，实现了高效的AI视频生成性能。WAN22 支持 Text-to-Video（

AI中国

AI中国

241 0

AI视频 6月前

Opera Neon

🌐 一、Opera Neon 是什么？Opera Neon 是 Opera 公司推出的一款新一代 AI 驱动浏览器，官方定义为：“A browser built to act.” —— 一款能够主动执行任务、理解网页语义、并直接为你行动的智能浏览器。Neon 不再只是“展示网页”，而是一个具备 Agent 能力的操作型浏览器（Agentic Browser）。它能阅读、总结、搜索、执

AI中国

AI中国

129 0

AI视频 6月前

Hairstyle Changer

一、Hairstyle Changer 是什么？Hairstyle Changer（hairstyle-changer.com）是一款基于AI的虚拟发型模拟器，用户只需上传自己的照片，就能瞬间试戴不同的发型与发色。它的AI模型会自动识别面部特征与发区，生成自然、逼真的效果图，帮助用户在剪发或染发前提前预览理想造型。官方在Product Hunt上的口号是：“Unlock Perfect

AI中国

AI中国

203 0

AI视频 6月前

Sora2 AI

一、Sora2 AI 是什么？Sora2 AI 是一款先进的 AI视频生成平台，通过文字或图片输入即可自动生成高质量视频。它结合了文本转视频（Text-to-Video）与图像转视频（Image-to-Video）技术，用户只需输入描述即可快速生成具有运动感、光影、特效及声音的专业视频。其核心目标是：让每个人都能像导演一样，用语言创造视觉故事。二、Sora2 AI 应用场景内容创作者

AI中国

AI中国

219 0

AI视频 6月前

SceneGen – 上海交大推出的3D场景生成框架

SceneGen是什么SceneGen是上海交通大学研究团队开发的高效开源3D场景生成框架。能从单张场景图像及其对应的物体分割掩码出发，通过一次前向传播，直接生成包含完整几何结构、纹理和空间布局的3D场景。创新之处在于端到端的生成流程，无需依赖耗时的优化过程或从资产库中检索组装，显著提升了生成效率。技术核心包括局部与全局场景信息的聚合模块，以及能同时预测3D资产及其相对空间位置的位置预测头，确

AI中国

AI中国

177 0

AI视频 7月前

Ming-UniAudio – 蚂蚁集团开源的音频多模态模型

Ming-UniAudio是什么Ming-UniAudio 是蚂蚁集团开源的音频多模态模型，统一语音理解、生成和编辑任务。核心是 MingTok-Audio，一个基于 VAE 框架和因果 Transformer 架构的连续语音分词器，能有效整合语义和声学特征。基于此，Ming-UniAudio 开发了一个端到端的语音语言模型，平衡了生成和理解能力，并通过扩散头确保高质量的语音合成。Ming-U

AI中国

AI中国

192 0

AI视频 7月前

Agent Kit – OpenAI推出的AI Agent开发工具

Agent Kit是什么Agent Kit 是 OpenAI 推出的一套完整的智能体开发工具包，帮助开发者将 AI 代理从原型快速推进至生产环境。包含三大核心组件：Agent Builder可视化画布工具，支持拖拽节点设计复杂工作流，无需从零编写代码、ChatKit可定制聊天界面工具包，支持嵌入自有品牌并降低交互开发成本， Connector Registry集中管理数据与工具连接的中心。工具

AI中国

AI中国

142 0

AI视频 7月前

Code2Video – 国立大学推出的AI教学视频生成框架

Code2Video是什么Code2Video是新加坡国立大学Show Lab团队开发的AI教学视频生成框架，通过Python代码自动生成高质量教育视频。核心创新在于采用三智能体协作模式：Planner负责将知识点转化为结构化故事板，Coder将故事板转为可执行Manim代码，Critic优化视觉布局。相比传统视频生成工具，在知识传递效率（MMMC基准测试中提升40%）、画面稳定性方面表现更优

AI中国

AI中国

224 0

AI视频 7月前

OpenLens AI – 清华推出的医学研究AI助手

OpenLens AI是什么OpenLens AI 是清华大学自动化系推出的专为医学研究设计的全自主人工智能研究助手，通过多智能体协作，实现从文献综述、实验设计、数据分析到论文生成的全流程自动化，极大提升医学研究效率，将科研周期从“月级”缩短至“小时级”。工具集成多种质量控制机制，确保研究结果的可靠性和可复现性。OpenLens AI 的出现标志着医学研究进入“零人工”时代，为科研范式带来重大

AI中国

AI中国

234 0

AI视频 7月前

ReceiptHero – 开源AI记账工具，拍照生成数字化账单

ReceiptHero是什么ReceiptHero 是开源的 AI 记账工具，能通过拍照将收据快速转化为数字化账单。工具基于先进的 AI 图像识别技术，用高达 95% 的准确率提取收据上的日期、金额、商户名称等关键信息，支持自动对支出进行智能分类，如餐饮、交通等。系统能生成可视化报表，帮助用户清晰了解消费情况。ReceiptHero 能节省时间，提升财务管理效率，是现代人高效记账的理想选择。

AI中国

AI中国

631 0

AI视频 7月前

StableAvatar – 复旦推出的音频驱动视频生成模型

StableAvatar是什么StableAvatar 是复旦大学、微软亚洲研究院等推出的创新音频驱动虚拟形象视频生成模型。模型通过端到端的视频扩散变换器，结合时间步感知音频适配器、音频原生引导机制和动态加权滑动窗口策略，能生成无限长度的高质量虚拟形象视频。模型解决了现有模型在长视频生成中出现的身份一致性、音频同步和视频平滑性问题，显著提升生成视频的自然度和连贯性，适用虚拟现实、数字人创建等场

AI中国

AI中国

122 0

混元3D-Part – 腾讯推出的组件式3D生成模型

AI视频 7月前

混元3D-Part – 腾讯推出的组件式3D生成模型

混元3D-Part是什么混元3D-Part是腾讯推出的3D生成模型，由P3 – SAM和X – Part组成，首次实现高精度、可控的组件式3D生成，支持50 + 组件自动生成。用户可先用混元3D 2.5或3.0生成整体Mesh，再由P3 – SAM进行自动、精确的组件分割，X – Part将其分解为独立部件，输出高保真、结构一致的部件几何体，同时保持灵活可控性。在游戏建模、3D打印等领域有广泛

AI中国

AI中国

271 0

AI视频 7月前

混元3D-Omni – 腾讯混元推出的3D资产生成框架

混元3D-Omni是什么混元3D-Omni（Hunyuan3D-Omni）是腾讯混元3D团队提出的3D资产生成框架，通过多种控制信号实现精准的3D模型生成。基于Hunyuan3D 2.1架构，引入了统一的控制编码器，可处理点云、骨骼姿态、边界框等多种控制信号，避免信号混淆。框架采用渐进式、难度感知的采样策略进行训练，优先采样难度较高的信号，提升模型对缺失输入的鲁棒性。Hunyuan3D-Omn

AI中国

AI中国

202 0

推荐文章

苹果iOS 26升级：图乐园功能焕然一新，AI 生成图像更真实！

苹果iOS 26升级：图乐园功能焕然一新，AI 生成图像更真实！

10月前 • AI热点

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

1年前 • AI热点

这才是 AI 时代正确的论文阅读方式

这才是 AI 时代正确的论文阅读方式

9月前 • 图文教程

效果惊艳！即梦AI视频3.0新版首尾帧测试，新旧差距有多大？

效果惊艳！即梦AI视频3.0新版首尾帧测试，新旧差距有多大？

10月前 • 视频教程

对不起，AI博士年薪300万起步

对不起，AI博士年薪300万起步

8月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 图文教程

AI语音迎来「特斯拉时刻」，一条工作流「吃掉」全球百亿市场

AI语音迎来「特斯拉时刻」，一条工作流「吃掉」全球百亿市场

10月前 • AI热点

AI 正在“吞噬”谷歌搜索：Geostar 推出“GEO”新战略，如何确保你的品牌被 ChatGPT 推荐？

AI 正在“吞噬”谷歌搜索：Geostar 推出“GEO”新战略，如何确保你的品牌被 ChatGPT 推荐？

6月前 • AI热点

热门标签

不信教不会你的设计技巧 vace GPT-4计费发现《ひやむぎ脑血流自动调节指数导航技术上下文扩展 SliceLive AI功能付费 Gartner

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝