AI视频制作教程 | 从脚本生成到智能剪辑的完整解决方案 - AI学习站

OmniVinci – NVIDIA推出的全模态大语言模型

Top

AI视频 6月前 • 726

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embedding Grouping机制解决时序同步问题，采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中，性能超越Qwen

AI中国

AI中国

AI视频 6月前

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

SAIL-Embedding是什么SAIL-Embedding是字节跳动抖音SAIL团队和香港中文大学MMLab联合开发的全模态（omni-modal）嵌入基础模型。解决多模态信息检索和推荐系统中的实际应用问题，通过支持任意模态输入（包括文本、视觉和音频），生成统一且信息丰富的表示，支持多模态检索和分类任务。SAIL-Embedding通过动态难负样本挖掘和自适应多源数据平衡等训练策略，增强了

AI中国

AI中国

778 0

AI视频 6月前

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

FG-CLIP 2是什么FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型，专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破，尤其在中英文双语任务上表现出色。模型采用层次化对齐架构，通过全局语义对齐和细粒度视觉语言学习，逐步提升模型对图像细节的理解能力。引入了动态注意力机制，能智能聚焦图像的关键区域，更好地处理复杂的视觉语言任务。FG-CLIP 2在多个权威

AI中国

AI中国

882 0

AI视频 6月前

NavFoM – 银河通用推出的环视导航基座大模型

NavFoM是什么NavFoM（Navigation Foundation Model）是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持能力，可同时适用于室内和室外环境，能在未见过的场景中实现零样本运行。NavFoM支持多种导航任务，如自然语言指令驱动的目标跟随和自主导航，能快速适配机器狗、轮式人形机器人、无人机、汽车等不同本体。核

AI中国

AI中国

651 0

AI视频 6月前

Handy – 开源的语音转文字桌面应用，完全离线

Handy是什么Handy 是开源的语音转文字桌面应用，完全离线运行，支持 Windows、macOS 和 Linux 系统。由 Rust 和 React/TypeScript 构建，界面简洁，操作便捷。用户通过快捷键激活录音，语音经本地处理后直接转为文本，无需联网，保护隐私。Handy 提供多种语音识别模型，如 Whisper 和 Parakeet V3，支持 GPU 加速和自动语言检测。

AI中国

AI中国

596 0

AI视频 6月前

UniWorld V2 – 兔展智能联合北大推出的图像编辑模型

UniWorld V2是什么UniWorld V2是兔展智能和北京大学UniWorld团队推出的新一代图像编辑模型。采用创新的UniWorld-R1训练框架，首次将强化学习策略优化应用于图像编辑，通过DiffusionNFT技术实现高效训练。模型使用多模态大语言模型作为奖励模型，提供稳定且细粒度的反馈，同时引入低方差组过滤机制，提升训练稳定性。能精准理解和渲染复杂的中文字体，支持精细化空间控制

AI中国

AI中国

774 0

AI视频 6月前

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

讯飞星火X1.5是什么讯飞星火X1.5 是科大讯飞推出的基于全国产算力平台的深度推理大模型。模型率先攻克 MoE 模型全链路训练效率问题，端到端性能达到国际竞品效率的 93% 以上。模型在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力等多领域对标国际主流大模型，数学能力保持国际领先水平。模型支持 130 + 种语言，整体性能达到 GPT-5 的 95% 以上，为全球用户提供优质服务

AI中国

AI中国

689 0

AI视频 6月前

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

UNO-Bench是什么UNO-Bench是美团LongCat团队推出的全模态大模型评测基准。UNO-Bench针对现有评测体系的不足，通过高质量、多样化的数据构建，精准衡量模型的单模态与全模态能力。基准首次验证了全模态大模型的“组合定律”，揭示单模态与全模态能力的复杂关系。UNO-Bench创新的多步开放式问题和高效的数据压缩算法，提升了评测的区分度与效率，为推动全模态大模型的发展提供科学的

AI中国

AI中国

717 0

AI视频 6月前

Kosmos – FutureHouse 推出的AI科学家系统

Kosmos是什么Kosmos 是新一代 AI 科学家，由 FutureHouse 推出的自动化科研系统 Robin 升级而来。Kosmos采用结构化世界模型，能高效整合海量信息，单次运行可解析 1500 篇论文、执行 42000 行代码，处理规模远超同类系统。Kosmos 能在神经科学、材料科学、统计遗传学等领域快速完成复杂研究任务，一天工作量相当于人类科学家六个月的投入，且 79.4% 的

AI中国

AI中国

656 0

AI视频 6月前

Kimi-k2 Thinking – 月之暗面推出的思考模型

Kimi-k2 Thinking是什么Kimi-k2 Thinking 是月之暗面推出的具备通用 Agentic 能力和深度推理能力的人工智能模型。模型能进行多轮工具调用，支持长达 256k 的上下文处理，适合复杂任务的逐步推理和规划。模型推理过程通过 reasoning_content 字段展示，帮助用户理解思考逻辑。Kimi-k2 Thinking 包含高速版 Kimi-k2 Thinki

AI中国

AI中国

642 0

AI视频 6月前

Open-o3 Video – 北大联合字节开源的视频推理模型

Open-o3 Video是什么Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型，通过整合显式的时空证据（关键时间戳和边界框）来实现精准的视频推理。通过精心策划的 STGR 数据集和两阶段的 SFT-RL 训练策略，实现了在 V-STAR 基准测试中的最佳性能。非代理框架设计，能高效地处理复杂的时空关系，在视频推理任务中表现出色。训练过程包括冷启动初始化和强化学习两个

AI中国

AI中国

648 0

AI视频 6月前

iTerms

iTerms是法大大集团旗下专业AI法律品牌，基于最先进的大语言模型（LLM）、权威法律知识库和智能体架构，为企业提供智能化法务与合规解决方案。它可自动审查合同、识别法律风险、提供法规问答与决策支持，帮助企业扫清合规障碍、筑牢风控防线。iTerms智能法务顾问可广泛应用于合同管理、企业法务、数据合规、政策解读、纠纷预警等多元场景，成为您企业专属的AI法律顾问。一、iTerms 是什么？iTe

AI中国

AI中国

649 0

AI视频 6月前

ChatGPT Atlas

ChatGPT Atlas 是什么？ChatGPT Atlas 是由 OpenAI 推出的桌面浏览器（目前仅限 macOS），其特色在于将 ChatGPT 聊天助手深度融入浏览体验。其核心理念是：你浏览网页时，AI 不仅帮你搜索，更能分析、总结、甚至替你动手。官方说明指出：在 Atlas 中，你可以“ask ChatGPT to take action and do things for

AI中国

AI中国

654 0

AI视频 6月前

Face GPT: AI Face Swap

🧠 Face GPT 是什么？Face GPT 是一款基于人工智能的在线换脸工具，能够通过上传两张照片（源脸与目标图像）自动实现高精度人脸替换（Face Swap）。用户无需安装软件，也不需要任何图像编辑经验，只需几秒钟就能生成自然逼真的换脸照片。Face GPT 利用深度学习与面部识别算法实现：精准捕捉面部特征与表情；智能匹配肤色、光照与角度；实现“几乎真实”的人脸融合效果。

AI中国

AI中国

650 0

AI视频 6月前

JoyPix.ai

🧠 JoyPix.ai 是什么？JoyPix.ai 是一款整合多种生成式AI技术的视频创作平台，主打 AI视频生成（AI Video Generator）与 AI说话头像（Talking Photo）功能。用户只需上传一张照片，即可生成自然流畅的“会说话的视频”，无需相机拍摄，也不需要任何视频剪辑经验。JoyPix 的核心模型 Motion-2 被誉为目前最先进的AI唇形同步技术，能真

AI中国

AI中国

469 0

AI视频 6月前

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear是什么Kimi Linear 是月之暗面推出的新型混合线性注意力架构，专为提升大型语言模型（LLMs）在长序列任务中的效率和性能设计。核心组件 Kimi Delta Attention（KDA）通过精细化的通道级门控机制和高效的块处理算法，显著提升模型的表达能力和硬件效率。Kimi Linear 采用 3:1 的 KDA 与全注意力层（MLA）混合设计，大幅减少 KV 缓

AI中国

AI中国

500 0

AI视频 6月前

Music 2.0 – MiniMax推出的新一代音乐创作模型

Music 2.0是什么Music 2.0 是MiniMax最新推出的先进音乐创作模型。模型能精准捕捉和还原人声的细腻情绪与器乐的动态张力，支持多种唱法和风格切换，如流行、爵士、摇滚等，还能实现男女对唱、阿卡贝拉等效果。模型生成的旋律抓耳且具有完整结构，能独立控制伴奏乐器，打造丰富编曲。音质升级，带来沉浸式体验，生成影视级配乐独白。Music 2.0让音乐创作让每个人都能轻松表达音乐灵感，实现

AI中国

AI中国

837 0

AI视频 6月前

Aardvark – OpenAI推出的漏洞发现与修复智能体

Aardvark是什么Aardvark 是 OpenAI 推出的基于 GPT-5 的智能体，能自动发现和修复代码中的安全漏洞。Aardvark通过不间断地分析源代码仓库，识别漏洞、评估可利用性、划分严重等级，提出针对性修复方案。Aardvark 用多阶段工作流程，包括分析、提交扫描、验证和修复，能像人类安全研究员一样阅读代码、编写测试、验证漏洞。Aardvark能无缝集成 GitHub 和现有

AI中国

AI中国

913 0

AI视频 6月前

WOWService – 美团推出的大模型交互系统技术报告

WOWService是什么WOWService 是美团 LongCat 团队发布的智能交互系统，通过融合大型语言模型（LLMs）和多智能体架构，优化用户体验并降低成本。系统针对智能交互领域的五大挑战：冷启动数据构建、多轮对话性能、业务规则变化、单一 LLM 的局限性以及多轮对话的量化评估难题，提出了创新解决方案。WOWService 采用四阶段训练流水线：持续预训练（CPT）、有监督微调（SF

AI中国

AI中国

739 0

AI视频 6月前

AI阴影去除器

🌤️ AI阴影去除器是什么？AI阴影去除器Remove Shadow From Photo 是一款专业级的 AI照片去阴影工具，通过先进的机器学习算法，自动识别并去除人像、产品或风景照片中的阴影，让图像恢复自然光照和平衡的视觉效果。它能在数秒内完成阴影去除，输出高达4K分辨率的干净照片，无需专业技能或复杂操作。这款工具由AI影像技术驱动，深度学习了数百万张照片的光影特征，因此在“识别阴影

AI中国

AI中国

639 0

AI视频 6月前

酷宣AI

🚀 一、酷宣AI是什么？酷宣AI 是一个集 AI图文排版、AI生图、AI修图、AI视频生成、AI动图制作于一体的超级智能体内容创作平台。它融合了多种先进的AI生成模型，覆盖从文字 → 图片 → 视频 → 动图的全链路内容创作场景，帮助用户在几分钟内完成专业级视觉内容。无论你是自媒体创作者、品牌营销人员、教师、还是设计小白，酷宣AI都能帮助你：快速生成高颜值图文内容一键制作海报、

AI中国

AI中国

661 0

AI视频 6月前

Hailuo 2.3 – MiniMax推出的AI视频生成模型

Hailuo 2.3是什么Hailuo 2.3 是MiniMax推出的先进 AI 视频生成模型，基于 Hailuo 02 升级而来。模型在肢体动作、微表情、风格化表现及物理真实性方面实现显著提升，能生成更加流畅自然且复杂的动态画面，支持多种画风，如动漫、水墨等。模型对运动指令的响应更加精准，画面效果接近实拍。Hailuo 2.3 包含Hailuo 2.3 提供高质量的视频生成效果，适合对细节和

AI中国

AI中国

521 0

AI视频 6月前

Glyph – 智谱联合清华开源的视觉文本压缩框架

Glyph是什么Glyph 是智谱联合清华大学 CoAI 实验室开源的创新框架，能通过视觉 – 文本压缩解决大语言模型（LLM）上下文过长的问题。框架将长文本渲染为图像，用视觉语言模型（VLM）处理图像，实现 3 – 4 倍的上下文压缩。Glyph 显著降低了计算成本和显存占用，同时大幅提升推理速度。Glyph在多模态任务中表现出色，展现出强大的泛化能力。Glyph的主要功能长上下文压

AI中国

AI中国

728 0

AI视频 6月前

GigaBrain-0 – 开源VLA具身模型，基于世界模型生成的数据

GigaBrain-0是什么GigaBrain-0 是新型的视觉-语言-行动（VLA）基础模型，由世界模型生成的数据驱动。模型通过大规模生成多样化数据，减少了对真实机器人数据的依赖，显著提升了跨任务泛化能力。采用 RGB-D 输入建模，增强了空间感知能力，通过具身思维链（Embodied CoT）监督，强化了模型在任务执行中的推理能力。使得 GigaBrain-0 在真实世界中的灵巧操作、长时

AI中国

AI中国

643 0

AI视频 6月前

SoulX-Podcast – Soul推出的多说话人语音合成模型

SoulX-Podcast是什么SoulX-Podcast 是 Soul AI Lab 推出的多说话人文本到语音（TTS）模型，专为生成长篇播客对话设计。模型参数为1.7B，支持普通话、英语及多种汉语方言（如四川话、河南话、粤语等），具备跨方言提示功能，可通过普通话提示生成目标方言语音。模型支持副语言控制（如笑声、叹气等），增强语音合成的真实感。SoulX-Podcast 能生成超过 90 分

AI中国

AI中国

395 0

AI视频 6月前

FlowithOS – Flowith推出的全球首个智能体操作系统

FlowithOS是什么FlowithOS是Flowith推出的全球首个智能体操作系统，使其能像人类一样与数字世界互动。FlowithOS具备浏览器、终端和脚本使用功能，能自动执行复杂任务，如文件管理、游戏操作等。通过在线强化学习和自我进化能力，FlowithOS的智能体能随时间变得更加智能和个性化。在性能评测中，Flowith OS 表现卓越，其“代码 + 视觉”双模态理解框架使其在网页操作

AI中国

AI中国

495 0

AI视频 6月前

Speech 2.6 – MiniMax推出的语音生成模型

Speech 2.6是什么Speech 2.6 是MiniMax推出的全新语音生成模型，专为新一代语音智能体设计，具备超低延时（低于250毫秒），确保实时对话流畅；支持多种语言的网址、邮箱、电话号码等非标准文本格式的直接转换，无需繁琐预处理。模型通过 Fluent LoRA 技术，进一步提升音韵自然度和音色复刻的流利性，原始素材带有口音或不流利，也能生成高质量语音。模型适用智能客服、智能硬件等

AI中国

AI中国

736 0

AI视频 6月前

FIBO – 开源的图像生成模型，首个原生支持JSON

FIBO是什么FIBO 是首个开源的原生支持 JSON 的文本生成图像模型，专为长结构化描述训练而成。模型在超过 1 亿条结构化 JSON 描述（每条约 1,000 字）上训练，能精确、可重复地控制光线、构图、色彩与相机参数。FIBO 支持生成、精修和灵感三种模式，具备特征解耦能力，能单独调整某个属性不破坏整体场景。FIBO使用 100% 授权数据，确保合规性和法律透明性，适合专业工作流。

AI中国

AI中国

438 0

AI视频 6月前

Sonic-3 – Cartesia推出的实时语音对话模型

Sonic-3是什么Sonic-3是Cartesia最新发布的语音AI引擎，是当前市场上速度最快、最自然的实时语音对话模型。采用创新的“状态空间模型”（SSM）架构，非传统的Transformer模型，能更有效地模拟人类思维，记住对话主题和情绪，无需每次都从头分析上下文。使得Sonic-3的延迟低于100毫秒，在实时语音交互行业中处于领先地位。Sonic-3支持42种语言，覆盖全球95%的人口

AI中国

AI中国

747 0

AI视频 6月前

Composer – Cursor推出的自研编码模型

Composer是什么Composer 是Cursor推出的自研编码模型，专为低延迟的智能体式编码设计。模型生成速度极快，每秒可达 250 个 token，是同等智能模型的 4 倍，大多数任务在 30 秒内完成。Composer 通过语义搜索等工具训练，对大型代码库的理解和处理能力显著更强。模型支持调用多种工具，如代码编辑、终端命令和语义搜索，同时具备并行处理能力，可并行运行多个智能体以提升复

AI中国

AI中国

717 0

推荐文章

消息称微软云 OpenAI 业务的全球营收中，约 1/4 来自中国互联网巨头

消息称微软云 OpenAI 业务的全球营收中，约 1/4 来自中国互联网巨头

1年前 • AI热点

交通运输部：加快建设综合交通运输大模型，将研发应急指挥调度等智能体

交通运输部：加快建设综合交通运输大模型，将研发应急指挥调度等智能体

6月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

印度启动AI聊天机器人购物试点：ChatGPT率先落地，Gemini和Claude即将跟进

印度启动AI聊天机器人购物试点：ChatGPT率先落地，Gemini和Claude即将跟进

6月前 • AI热点

TCL 联手阿里云，打造半导体显示行业首个强推理大模型

TCL 联手阿里云，打造半导体显示行业首个强推理大模型

11月前 • AI热点

热议！DeepSeek V3.1惊现神秘「极」字 Bug，模型故障了？

热议！DeepSeek V3.1惊现神秘「极」字 Bug，模型故障了？

8月前 • AI热点

“AGI 比恩怨更重要”：OpenAI 奥尔特曼向马斯克示好

“AGI 比恩怨更重要”：OpenAI 奥尔特曼向马斯克示好

12月前 • AI热点

小红书又在消费类AI硬件出手了，这次押宝“AI+健康”

小红书又在消费类AI硬件出手了，这次押宝“AI+健康”

6月前 • AI热点

热门标签

AI简历优化老鸽子从不鸽 DolphinGemma NVLink 围棋人机大战 AI重写器 AI角色定制 L4自动驾驶 AI动画人工智能医疗记录审核

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝