AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型
Top
AI视频 4小时前 • 67

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

InternVLA·M1是什么InternVLA·M1 是上海人工智能实验室开发的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推理与任务规划。模型采用两阶段训练策略,先通过空间感知预训练,增强空间推理与规划能力;再以隐式空间推理方式实现高效的动作后训练。仅需“空间规划提示”即可高效训练,大幅降低成本。在 SimplerEnv

AI中国
AI中国

Read more
AI视频 3周前

Keeva

Keeva AI 是什么?Keeva AI 是一款多功能 AI 数字人视频创作工具,专为海外中小企业与个人内容创作者打造,提供一站式的脚本生成、语言翻译、数字人口播与视频制作解决方案。用户只需输入视频主题,即可一键生成脚本并自动合成数字人视频,也可上传自定义脚本进行个性化编辑,是营销短视频与教学演示的高效利器。Keeva AI 应用场景跨境电商营销:用数字人生成多语种产品介绍与广告视频

AI中国 AI中国
203 0
Seed-OSS – 字节跳动开源的大语言系列模型
AI视频 3周前

Seed-OSS – 字节跳动开源的大语言系列模型

Seed-OSS是什么Seed-OSS 是字节跳动 Seed 团队开源的系列大型语言模型,专注于长文本处理、推理和智能代理能力。模型包含多个版本,如 Seed-OSS-36B-Base 和 Seed-OSS-36B-Instruct,分别在通用能力和指令跟随任务上表现出色。仅用 12T tokens 训练,在多个基准测试中表现优异。模型提供灵活的思考预算控制和原生长文本支持,适用多种应用场景。

AI中国 AI中国
64 0
ToonComposer – 腾讯联合港中文、北大推出的AI动画制作工具
AI视频 3周前

ToonComposer – 腾讯联合港中文、北大推出的AI动画制作工具

ToonComposer是什么ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学研究人员共同推出的生成式 AI 工具,几秒能将草图转化成专业级动画。ToonComposer基于生成式后关键帧技术,将传统动画制作中的中间帧生成和上色环节整合为自动化过程,仅需一个草图和一个上色参考帧,能生成高质量的动画视频。工具支持稀疏草图注入和区域控制,让艺术家能准控制动画效果,大

AI中国 AI中国
190 0
AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集
AI视频 4周前

AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集

 AutoCodeBench是什么AutoCodeBench 是腾讯混元推出的专门测评大模型代码能力基准测试集,包含 3920 个问题,均匀分布在 20 种编程语言中。数据集具有高难度、实用性和多样性,能衡量大模型在多语言编程任务中的性能。基准测试集通过自动化工作流生成数据,保证高质量和覆盖度,且提供了简易版本(AutoCodeBench-Lite)和用在评估基础模型的版本(AutoCodeB

AI中国 AI中国
156 0
NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型
AI视频 4周前

NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型

NVIDIA Nemotron Nano 2是什么NVIDIA Nemotron Nano 2 是英伟达推出的高效推理模型,参数量为9B。模型基于混合Mamba-Transformer架构,在20万亿个token上预训练,支持128k上下文长度。相比Qwen3-8B,推理速度提升6倍,准确率相当或更高。模型具备思考预算控制功能,用户能指定推理token数量。英伟达开源了基础模型和大部分预训练数

AI中国 AI中国
83 0
DeepSeek V3.1 – DeepSeek最新开源的AI模型版本
AI视频 4周前

DeepSeek V3.1 – DeepSeek最新开源的AI模型版本

DeepSeek V3.1是什么DeepSeek V3.1是DeepSeek最新推出的AI模型版本。模型在V3的基础上进行多项升级,上下文窗口从64k扩展至128k,能处理更长的文本输入。模型用混合专家(MoE)架构,参数量与V3相同。DeepSeek V3.1的Base版本已开源至Hugging Face,供开发者下载和研究。模型在编程、物理定律理解、创意写作和数学能力等方面都有明显提升,回

AI中国 AI中国
182 0
CombatVLA – 淘天集团推出的3D动作游戏专用VLA模型
AI视频 4周前

CombatVLA – 淘天集团推出的3D动作游戏专用VLA模型

CombatVLA是什么CombatVLA 是淘天集团未来生活实验室团队推出的专为3D动作角色扮演游戏(ARPG)中的战斗任务设计的高效视觉-语言-动作(VLA)模型。模型基于3B参数规模,通过动作追踪器收集的视频动作对进行训练,数据格式化为“动作思维”(AoT)序列。模型用三阶段渐进式学习范式,从视频级到帧级再到截断策略,实现高效推理。CombatVLA 在战斗理解基准测试中超越现有模型,推

AI中国 AI中国
94 0
Klear-Reasoner – 快手开源的推理模型
AI视频 4周前

Klear-Reasoner – 快手开源的推理模型

Klear-Reasoner是什么Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型,专注于提升数学和代码推理能力。模型通过长思维链监督微调(long CoT SFT)和强化学习(RL)训练,核心创新是 GPPO算法,通过保留被裁剪的梯度信息,解决传统方法中探索能力受限和负样本收敛慢的问题,在 AIME 和 LiveCodeBench 等基准测试中达到 8B

AI中国 AI中国
225 0
Nano Banana – AI图像编辑模型,具有极高的人物一致性
AI视频 4周前

Nano Banana – AI图像编辑模型,具有极高的人物一致性

Nano Banana是什么Nano Banana 是 AI 图像编辑模型,目前仅在 LMArena 网站上随机出现。模型具有极高的人物一致性,能精准还原人物的面部特征和表情,在背景替换和风格转换方面表现出色。用户只需上传图片并输入提示词,即可生成高质量的图像。模型生成效果被认为是 AI 图像编辑领域的新王者。Nano Banana的主要功能人物一致性生成:能高度还原人物的面部特征、表

AI中国 AI中国
207 0
Qwen-Image-Edit – 阿里通义推出的全能图像编辑模型
AI视频 4周前

Qwen-Image-Edit – 阿里通义推出的全能图像编辑模型

Qwen-Image-Edit是什么Qwen-Image-Edit 是基于 200 亿参数的 Qwen-Image 架构构建的全能图像编辑模型。模型兼具语义与外观的双重编辑能力,能进行低层次的视觉外观编辑(如添加、删除、修改元素)和高层次的视觉语义编辑(如 IP 创作、物体旋转、风格迁移等)。模型支持中英文双语文字的精准编辑,支持在保留原有字体、字号和风格的前提下修改图片中的文字。Qwen-I

AI中国 AI中国
243 0
Open-Lovable – Firecrawl开源的AI网站克隆工具
AI视频 4周前

Open-Lovable – Firecrawl开源的AI网站克隆工具

Open-Lovable是什么Open-Lovable 是 Firecrawl 团队推出的开源项目,通过 AI 技术快速将任意网站克隆为现代 React 应用。用户输入目标网站 URL 后,通过 Firecrawl 抓取内容,用 AI 模型生成 React 代码,最终输出完整应用。Open-Lovable用多个 AI 提供商的 API(如 Anthropic、OpenAI 等)实现自动化构建。

AI中国 AI中国
177 0
MemU – 面向AI情感陪伴的开源AI记忆框架
AI视频 1月前

MemU – 面向AI情感陪伴的开源AI记忆框架

MemU是什么MemU 是面向AI情感陪伴开源的AI记忆框架。MemU 能记住用户与 AI 的每一次对话,提取重点并建立知识图谱,让 AI 真正理解用户。MemU 的记忆会自主进化,随着使用不断优化。MemU 支持快速集成,只需几行代码能让 AI 拥有持久记忆。相比其他框架,MemU 准确率高达92%,成本降低90%,检索速度快至50毫秒。在情感陪伴、教育等其他场景,MemU 都能成为用户贴心

AI中国 AI中国
131 0
AudioGenie – 腾讯AI Lab推出的多模态音频生成工具
AI视频 1月前

AudioGenie – 腾讯AI Lab推出的多模态音频生成工具

AudioGenie是什么AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具,能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体框架,通过生成团队和监督团队的双层架构实现高效协同。生成团队负责将复杂的输入分解为具体的音频子事件,通过自适应混合专家(MoE)协作机制动态选择最适合的模型进行生成。监督团队则负责时空一致性验证,通过反馈循环

AI中国 AI中国
71 0
Chaterm – 开源的AI终端工具,运维版Cursor
AI视频 1月前

Chaterm – 开源的AI终端工具,运维版Cursor

Chaterm是什么Chaterm是开源的智能、安全的AI终端工具,专为云从业者和开发运维人员设计。工具基于AI Agent让用户能用自然语言代替复杂命令行操作,Chaterm提供基于个人知识库的智能补全功能,支持高精度语音命令输入,具备跨平台的个性化语法高亮、类似Sublime Text的可视化Vim编辑体验以及全局别名设置。Chaterm基于零信任安全模型,支持IAM和工作区隔离,配备隐私

AI中国 AI中国
209 0
MemU – 面相AI情感陪伴的开源AI记忆框架
AI视频 1月前

MemU – 面相AI情感陪伴的开源AI记忆框架

MemU是什么MemU 是面相AI情感陪伴开源的AI记忆框架。MemU 能记住用户与 AI 的每一次对话,提取重点并建立知识图谱,让 AI 真正理解用户。MemU 的记忆会自主进化,随着使用不断优化。MemU 支持快速集成,只需几行代码能让 AI 拥有持久记忆。相比其他框架,MemU 准确率高达92%,成本降低90%,检索速度快至50毫秒。在情感陪伴、教育等其他场景,MemU 都能成为用户贴心

AI中国 AI中国
148 0
AI视频 1月前

ThinkSound

ThinkSound是什么?ThinkSound 是一款先进的AI视频转音频生成平台,可自动为视频内容添加高保真音轨与智能音效。它利用多模态大语言模型(MLLM)和Chain-of-Thought(CoT)推理技术,实现从视频、文本或音频中提取语义并生成匹配的声音效果。该平台适用于后期制作、动画、游戏开发等多种场景,让原本无声或AI生成的视频焕发真实与沉浸式的听觉体验。ThinkSound

AI中国 AI中国
106 0
AI视频 1月前

Try On Haul

TryOnHaul AI 是什么?TryOnHaul AI 是一款基于人工智能的时尚内容发现与虚拟试穿平台,致力于为用户提供最前沿的潮流趋势、真实的试穿视频体验和AI驱动的虚拟试衣技术。该平台整合了AI搜索、视频展示、产品评论和虚拟试衣四大核心模块,旨在解决线上购物中“穿起来会是什么样”的最大痛点,提升购物决策效率与购物体验。TryOnHaul AI 应用场景时尚消费决策:观看不同身材

AI中国 AI中国
103 0
AI视频 1月前

Seedance AI

Seedance.run 是什么?Seedance.run 是一款先进的AI视频生成平台,支持文字生成视频(Text-to-Video)和图像生成视频(Image-to-Video)两种模式。平台提供两个模型版本(Seedance 1.0 Pro 和 Lite),帮助用户将文字描述或静态图像转化为具有真实物理质感、丰富动作表现和专业镜头效果的短视频,适用于社交媒体内容创作、广告、教育、产品展示

AI中国 AI中国
128 0
AI视频 1月前

AI Avatar Generator

AI Avatar Generator 简介AI Avatar Generator 是一款支持将照片或视频转化为「会说话的 AI 虚拟人」的内容生成平台。你可以上传一张照片、输入一段文字(或上传音频),平台就能快速生成拥有真实唇形同步、自然表情、多语言语音合成的 AI 人像视频。🧠 应用场景应用领域示例企业培训创建员工培训/上岗/制度介绍视频,更新仅需改文案即可

AI中国 AI中国
179 0
AI视频 1月前

Zoom Out AI

Zoom Out AI 平台简介Zoom Out AI 是一款支持用户将任意图片快速生成地球缩放视频的免费AI工具。用户上传一张照片,即可生成一个从照片主体拉远至城市、国家、地球,最终到太空背景的“缩放穿越”特效视频,适合社交媒体、短视频转场、品牌开场动画等创意场景。🚀 适用场景场景类别应用案例社交媒体视频用于 TikTok、抖音、Instagram 的吸睛转场

AI中国 AI中国
109 0
AI视频 1月前

AgentHunter

AgentHunter 平台简介AgentHunter 是一个聚合全球优质 AI 工具的平台,专注于帮助用户发现、比较并利用 AI Agents 来提升各类工作流的效率。它被视为“AI 工具导航器”,适用于企业、开发者、设计师、创作者等多个角色,帮助他们快速找到适配的 AI 产品和解决方案。🧠 适用人群与场景角色/行业场景示例产品经理快速比较 AI 自动化工具或客服类

AI中国 AI中国
69 0
AI视频 1月前

智写流程

智写流程 是什么?智写流程 是一款浏览器扩展类自动化工具,专注于将用户在网页上的一系列操作自动转化为结构化的图文操作教程。它的核心理念非常简单高效:你只需要“像平时一样操作一遍”,工具就会自动生成一份图文并茂、步骤清晰的傻瓜式操作指南,极大地节省了手动撰写教程的时间和精力。该工具结合了交互追踪 + 截图捕捉 + 文本描述自动生成的能力,是流程文档制作、系统培训手册、操作教学视频脚本准备的极佳

AI中国 AI中国
182 0
AI视频 1月前

Shortcut

Shortcut 是什么?Shortcut 是一个专为 Excel 操作与数据处理任务打造的AI超级智能体,能高效执行数据分析、图表生成、财务建模、表格自动化等复杂任务。用户只需通过自然语言提示即可启动任务,无需具备Excel公式或VBA编程能力。它在 Excel 世界锦标赛上的表现极为亮眼:准确率超过80%、处理速度是人类的10倍。其目标是通过AI解锁Excel的全部潜能,让用户“用说的方

AI中国 AI中国
95 0
AI视频 1月前

Voost – 创新的双向虚拟试穿和试脱AI模型

Voost是什么Voost 是NXN实验室推出创新的虚拟试穿和试脱模型,基于统一且可扩展的扩散 Transformer(DiT)框架开发。能同时处理虚拟试穿(try-on)和试脱(try-off)任务,生成高质量的图像结果。通过联合学习这两个任务,Voost 利用双向监督机制,使每对服装 – 人物数据能为两个方向的生成提供监督信号,显著增强了服装与身体的关系推理能力,无需依赖特定于任务的网络、

AI中国 AI中国
131 0
AI视频 1月前

hunyuan-large-vision – 腾讯混元推出的多模态视觉理解模型

hunyuan-large-vision 是什么hunyuan-large-vision 是腾讯推出的多模态理解模型,基于MoE架构,激活参数达52B,支持图像、视频和3D空间输入。模型在国际知名的大模型竞技场“LMArena Vision排行榜”上取得1256分,位列第五名(国内模型第一名),展现了卓越的多语言能力和用户体验。模型由数十亿参数的混元ViT视觉编码器、自适应下采样机制的MLP连

AI中国 AI中国
66 0
AI视频 1月前

Skywork Deep Research Agent v2 – 昆仑万维推出的升级版深度研究智能体

Skywork Deep Research Agent v2是什么Skywork Deep Research Agent v2是昆仑万维推出的升级版深度研究智能体,作为天工超级智能体的核心引擎,具备多模态深度调研能力,首次整合多模态检索、理解和生成功能,支持处理图文混排信息,生成高质量报告。Skywork Deep Research Agent v2具备多模态深度浏览器智能体功能,能模拟人类浏

AI中国 AI中国
133 0
AI视频 1月前

Mureka V7.5 – 昆仑万维推出的AI音乐生成模型

Mureka V7.5是什么Mureka V7.5是昆仑万维集团推出的先进AI音乐创作模型。模型在中文歌曲创作上表现卓越,能精准还原音色、演奏技法,提升咬字与情感表现。模型基于优化ASR技术,能分析真实演唱中的细节,生成更自然、更具情感的歌声。Mureka V7.5积累了丰富的中文音乐文化特性,能深刻理解和再现中文音乐的独特韵味。Mureka V7.5为音乐创作带来更高的艺术性和真实感,开启A

AI中国 AI中国
179 0
AI视频 1月前

Shadow – 开源的AI编程Agent,提供实时任务状态更新

Shadow是什么Shadow 是开源的AI编程Agent,能帮助开发者理解、推理并贡献现有的代码库。Shadow 支持 GitHub 仓库集成,能生成拉取请求、管理分支,提供实时任务状态更新。Shadow 提供多语言模型支持,具备代码生成、代码搜索和文件操作等功能,通过 Micro-VMs 和 Kata QEMU 容器实现硬件级隔离,确保安全性和隔离性。Shadow支持本地和远程两种执行模式

AI中国 AI中国
102 0
AI视频 1月前

MoE-TTS – 昆仑万维推出的语音合成框架

MoE-TTS是什么MoE-TTS 是昆仑万维语音团队推出的首个基于MOE的角色描述语音合成框架,专门用在提升对开放域文本描述的理解能力。模型通过混合专家(Mixture-of-Experts,MoE)架构,将预训练的大型语言模型(LLM)与语音专家模块相结合。在训练中冻结文本模块参数,仅更新语音模块参数,保留 LLM 的强大文本理解能力,同时增强语音生成的准确性。实验表明,MoE-TTS 在

AI中国 AI中国
102 0
AI视频 1月前

DINOv3 – Meta开源的通用视觉基础模型

DINOv3是什么DINOv3 是 Meta 推出的通用的、SOTA 级的视觉基础模型。模型通过无标注数据训练,生成高质量的高分辨率视觉特征,适用图像分类、语义分割、目标检测等多任务。DINOv3 拥有 70 亿参数,训练数据量达 17 亿张图像,性能全面超越弱监督模型,模型支持多种模型变体适应不同计算需求。DINOv3 开源的训练代码和预训练模型,为计算机视觉研究和应用开发提供强大支持。

AI中国 AI中国
102 0
加载更多

推荐文章

OpenAI被曝IMO金牌「造假」,陶哲轩怒揭内幕

OpenAI被曝IMO金牌「造假」,陶哲轩怒揭内幕

1月前 • AI热点
夸克App推出“夸克老师”  具备个性化AI辅导能力

夸克App推出“夸克老师” 具备个性化AI辅导能力

3月前 • AI热点
GPT5编程能力大幅提升❗️全流程开发完整小程序

GPT5编程能力大幅提升❗️全流程开发完整小程序

1月前 • 视频教程
教育合辑 | WAIC 2025:教育AI技术革新与女性数智赋能路径

教育合辑 | WAIC 2025:教育AI技术革新与女性数智赋能路径

2月前 • AI热点
大动作!字节AI Lab并入Seed,AI布局迎新变

大动作!字节AI Lab并入Seed,AI布局迎新变

5月前 • AI热点
速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
​爱诗科技获 6000 万美元 B 轮融资,阿里巴巴领投

​爱诗科技获 6000 万美元 B 轮融资,阿里巴巴领投

1周前 • AI热点
斯坦福最新评测:DeepSeek R1医疗AI模型超越Google和OpenAI,赢得高分

斯坦福最新评测:DeepSeek R1医疗AI模型超越Google和OpenAI,赢得高分

3月前 • AI热点

热门标签

广义空间传播网络 老凤祥 鸣潮创作激励计划 大S去世 TPU 解谜游戏 GPT-3 多模态图像生成 Image 整活儿

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明