AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型
Top
AI视频 6分钟前 • 66

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

InternVLA·M1是什么InternVLA·M1 是上海人工智能实验室开发的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推理与任务规划。模型采用两阶段训练策略,先通过空间感知预训练,增强空间推理与规划能力;再以隐式空间推理方式实现高效的动作后训练。仅需“空间规划提示”即可高效训练,大幅降低成本。在 SimplerEnv

AI中国
AI中国

Read more
AI视频 2小时前

通义DeepResearch – 阿里推出的开源深度研究智能体

通义DeepResearch是什么通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模式(Heavy Mode),后者通过迭代研究范式(IterResearch)提升复杂推理能力。智能体采用全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限。训练流程

AI中国 AI中国
161 0
AI视频 4小时前

VLAC – 上海AI实验室开源的具身奖励大模型

VLAC是什么VLAC是上海人工智能实验室发布的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效区分正常推进与异常/停滞行为,支持通过in-context learning实现小样本快速泛化。具备局部平滑性和负向奖励机制,确保强化学习的稳定性和有效性。VLAC不仅输出奖励信号,

AI中国 AI中国
200 0
AI视频 4小时前

RustGPT – AI语言模型,根据输入内容自动文本补全

RustGPT是什么RustGPT 是用 Rust 编写的 Transformer 架构语言模型。RustGPT从零开始构建,不依赖任何外部机器学习框架,仅用 ndarray 进行矩阵运算。项目包括事实文本补全的预训练、用于会话 AI 的指令微调及交互式聊天模式测试。RustGPT模块化架构确保关注点的清晰分离,便于理解和扩展。RustGPT 适合对 Rust 和机器学习感兴趣的开发者,是一个

AI中国 AI中国
161 0
AI视频 7小时前

PromptEnhancer – 腾讯开源的文本到图像提示词增强框架

PromptEnhancer是什么PromptEnhancer是腾讯混元团队开源的用在提升文本到图像(T2I)模型的提示重写框架,通过思维链(Chain-of-Thought,CoT)提示重写和专用的奖励模型AlignEvaluator,显著提升T2I模型对复杂用户指令的理解和图像生成的准确性。框架无需修改T2I模型的权重,具有通用性和即插即用的特性,适用多种预训练模型。PromptEnhan

AI中国 AI中国
66 0
AI视频 10小时前

Nano Bananary – 开源AI图像编辑工具,基于Gemini模型

Nano Bananary是什么Nano Bananary(香蕉超市) 是开源的图像编辑工具,基于 Google Gemini 图像模型开发,支持中文界面和明暗主题切换,提供 50 多种图像转换效果,无需复杂提示词能一键将图片转为 3D 手办、乐高模型等。Nano Bananary 支持局部涂选、连续编辑、历史记录、多模式对比及一键下载等功能,方便用户进行创意图像生成和编辑。Nano Ba

AI中国 AI中国
171 0
LLaSO – 逻辑智能开源的语音模型
AI视频 1天前

LLaSO – 逻辑智能开源的语音模型

LLaSO是什么LLaSO(Large Language and Speech Model)是北京深度逻辑智能科技有限公司推出的全球首个完全开源的语音模型,能解决大型语音语言模型(LSLM)领域长期存在的架构碎片化、数据私有化、任务覆盖局限和交互模态单一等问题。LLaSO包含三大核心组件,LLaSO-Align(大规模语音-文本对齐数据集)、LLaSO-Instruct(多任务指令微调数据集)

AI中国 AI中国
121 0
InfiniteTalk – 美团开源的数字人视频生成框架
AI视频 1天前

InfiniteTalk – 美团开源的数字人视频生成框架

InfiniteTalk是什么InfiniteTalk是美团视觉智能部推出的新型数字人驱动技术,通过稀疏帧video dubbing范式,仅需少量关键帧能驱动数字人人生成自然流畅的视频,解决传统技术中口型、表情和肢体动作脱节的问题。InfiniteTalk使数字人视频更具沉浸感和自然感,生成效率高、成本低。InfiniteTalk的论文、代码和权重已开源,为数字人技术的发展提供重要参考。I

AI中国 AI中国
112 0
ERNIE-4.5-21B-A3B-Thinking – 百度推出的思考模型
AI视频 1天前

ERNIE-4.5-21B-A3B-Thinking – 百度推出的思考模型

ERNIE-4.5-21B-A3B-Thinking是什么ERNIE-4.5-21B-A3B-Thinking 是百度推出的专注于推理任务的大型语言模型。采用混合专家(MoE)架构,总参数量达210亿,每个token激活30亿参数,支持128K的长上下文窗口,适用于复杂推理任务。模型通过文本预训练构建语言核心骨干,在推理增强后训练阶段,利用监督式微调(SFT)和渐进式强化学习(PRL)等技术,

AI中国 AI中国
118 0
FunAudio-ASR – 阿里达摩院推出的端到端语音识别模型
AI视频 1天前

FunAudio-ASR – 阿里达摩院推出的端到端语音识别模型

FunAudio-ASR是什么FunAudio-ASR 是阿里巴巴达摩院推出的端到端语音识别大模型,专为解决企业落地中的关键问题设计。通过创新的 Context 增强模块,有效优化了“幻觉”和“串语种”等问题。模块利用 CTC 解码器快速生成第一遍转写文本,将其作为上下文信息输入 LLM,显著提升了识别的准确性和稳定性。FunAudio-ASR 在远场、嘈杂背景等复杂场景下表现出色,轻量化版本

AI中国 AI中国
191 0
GPT-5-Codex – OpenAI推出的Agent编程优化模型
AI视频 1天前

GPT-5-Codex – OpenAI推出的Agent编程优化模型

GPT-5-Codex是什么GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型,基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务,如从零搭建项目、代码重构、调试、测试和代码审查等。模型能根据任务复杂度动态调整思考时间,简单任务秒回,复杂任务深度思考,支持独立完成长达 7 小时的复杂任务。模型代码审查能力出色,能精准发现关键缺陷,减少无效评论。GPT-5-Codex

AI中国 AI中国
126 0
ROMA – Sentient AGI开源的多智能体框架
AI视频 1天前

ROMA – Sentient AGI开源的多智能体框架

ROMA是什么 ROMA(Recursive Open Meta-Agent) 是Sentient AGI团队开源的多Agent系统框架,通过递归层次结构将复杂任务拆解为可并行的子任务,由父节点分配给子节点执行,再将结果汇总。ROMA支持多模态输入输出,内置通用任务解决器、深度研究Agent和金融分析Agent等,适用从研究分析到金融决策的多种场景。ROMA透明的执行过程便于调试和优化,在多个基

AI中国 AI中国
72 0
Mini-o3 – 字节联合港大推出的视觉推理模型
AI视频 1天前

Mini-o3 – 字节联合港大推出的视觉推理模型

Mini-o3是什么Mini-o3 是字节跳动和香港大学联合推出的开源模型,专为解决复杂的视觉搜索问题而设计。模型通过强化学习和基于图像的工具,能执行深度多轮推理,推理轮次可扩展至数十轮。Mini-o3 通过构建挑战性数据集、采用迭代数据收集流程以及提出过轮遮蔽策略等方法,显著提升模型的推理能力和交互轮次。模型在多个视觉搜索基准测试中取得最佳性能,所有代码、模型和数据集均开源,便于复现和进一步

AI中国 AI中国
198 0
Grok 4 Fast – xAI推出的快速版AI模型
AI视频 1天前

Grok 4 Fast – xAI推出的快速版AI模型

Grok 4 Fast是什么Grok 4 Fast是xAI推出的快速版人工智能模型,最大的特点是响应速度快,最高可达标准版的10倍,生成速度每秒75个token,能快速完成简单查询、基础代码生成等任务,大幅提升效率。模型目前处于早期访问测试版阶段,未来有望向更多用户开放,甚至取代旧版Grok 3,适配移动端应用。Grok 4 Fast的主要功能语言生成:Grok 4 Fast能快速生成

AI中国 AI中国
79 0
Lumina-DiMOO – 上海AI Lab推出的多模态生成与理解模型
AI视频 1天前

Lumina-DiMOO – 上海AI Lab推出的多模态生成与理解模型

Lumina-DiMOO是什么Lumina-DiMOO是上海人工智能实验室等机构开源的新一代多模态生成与理解模型。模型采用全离散扩散架构,统一处理文本、图像等多模态数据,支持文本到图像生成、图像编辑、风格转换等多种任务。Lumina-DiMOO在多个基准测试中表现优异,采样效率高,生成质量好,为多模态AI领域带来新的突破,有望在内容创作、智能分析、教育研究等多个领域发挥重要作用。Lumin

AI中国 AI中国
151 0
UnifoLM-WMA-0 – 宇树科技开源的世界模型行动框架
AI视频 1天前

UnifoLM-WMA-0 – 宇树科技开源的世界模型行动框架

UnifoLM-WMA-0是什么 UnifoLM-WMA-0 是宇树科技开源的跨多类机器人本体的世界模型 – 动作架构,专为通用机器人学习设计。核心是世界模型,能理解机器人与环境的物理交互,具备仿真引擎和策略增强两大功能。仿真引擎可生成合成数据用于机器人学习,策略增强通过预测未来交互优化决策性能。架构已在真实机器人上部署,能实现动作可控生成和长期交互生成,提升机器人在复杂环境中的学习和决策能力。

AI中国 AI中国
123 0
PP-OCRv5 – 百度推出的文字识别模型
AI视频 1天前

PP-OCRv5 – 百度推出的文字识别模型

PP-OCRv5是什么PP-OCRv5 是百度推出的高效、精准的文字识别模型。模型基于两阶段处理流程,专门用在快速、准确地检测和识别图像中的文字。模型参数量仅为0.07亿,体积小、效率高,在CPU和边缘设备上表现优异,每秒能处理370多个字符。模型支持简体中文、繁体中文、英文、日文和拼音等5种文字类型,能识别40多种语言。在多种OCR基准测试中,PP-OCRv5 的表现优于通用视觉语言模型,尤

AI中国 AI中国
67 0
Stable Audio 2.5 – Stability AI推出的音频生成模型
AI视频 1天前

Stable Audio 2.5 – Stability AI推出的音频生成模型

Stable Audio 2.5是什么Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型,专为企业级声音制作设计。模型具备快速生成(三分钟音频仅需两秒)、动态音乐创作和音频修复功能。模型能根据品牌需求定制音频,支持企业创建独特的声音身份。Stable Audio 2.5 与专业音频品牌代理机构合作,为企业提供定制化解决方案,通过 API 和合作伙伴平台供用户

AI中国 AI中国
164 0
Live Interpreter API – 微软推出的实时多语言翻译服务
AI视频 1天前

Live Interpreter API – 微软推出的实时多语言翻译服务

Live Interpreter API是什么Live Interpreter API 是 Azure 语音翻译的新功能,能实现实时的多语言语音翻译。无需用户手动设置输入语言, Live Interpreter API 能自动连续识别正在使用的语言,能用自然的声音进行低延迟的语音到语音翻译,同时保留说话者的风格和语调。Live Interpreter API支持 76 种输入语言和 143 个

AI中国 AI中国
109 0
Youtu-GraphRAG – 腾讯优图开源的图检索增强生成框架
AI视频 1天前

Youtu-GraphRAG – 腾讯优图开源的图检索增强生成框架

Youtu-GraphRAG是什么Youtu-GraphRAG是腾讯优图实验室开源的图检索增强生成框架,通过将知识组织成图谱,结合大语言模型进行检索和推理,帮助模型更精准地回答复杂问题,减少“胡言乱语”。框架具有多跳推理、知识密集型任务处理和领域可扩展性等特点,通过创新的图模式构建、社区检测和代理检索等技术,大幅降低token成本,提高准确性。Youtu-GraphRAG支持无缝领域迁移,适用

AI中国 AI中国
131 0
AI视频 2天前

veCLI – 字节火山引擎推出的命令行AI工具

veCLI是什么 veCLI 是字节跳动火山引擎推出的命令行 AI 工具,提升开发效率。无缝集成豆包大模型 1.6 等多种模型,开发者可通过自然语言交互,快速生成代码并完成本地部署,无需记忆复杂命令。veCLI 支持密钥鉴权,保障安全,能灵活切换模型。集成了火山引擎云服务,从构建到部署都更便捷,具备自由扩展能力,可提升编程效率。 veCLI的主要功能 无缝集成大模型:veCLI 深度集成了

AI中国 AI中国
60 0
AI视频 2天前

ZipVoice – 小米推出的零样本语音合成模型

ZipVoice是什么ZipVoice 是小米集团 AI 实验室发布的高效零样本语音合成(TTS)模型。模型基于 Flow Matching 架构,包含 ZipVoice(单说话人)和 ZipVoice-Dialog(对话语音)两个版本。模型通过技术创新,如基于 Zipformer 的高效建模、平均上采样策略和 Flow Distillation 方法,实现轻量化建模和快速推理,解决现有模型参

AI中国 AI中国
117 0
AI视频 2天前

MobileLLM-R1 – Meta推出的专项高效推理模型系列

MobileLLM-R1是什么 MobileLLM-R1是Meta推出的一系列专为数学、编程和科学推理设计的高效推理模型。系列包含基础模型和最终模型,分别有1.4亿、3.6亿和9.5亿参数版本。模型并非通用聊天模型,是经过监督微调(SFT)的专项模型,专注于特定任务的高效推理。MobileLLM-R1-950M模型仅用约2万亿高质量token进行预训练,总训练token量少于5万亿,但在多个基准

AI中国 AI中国
141 0
AI视频 3天前

AgentCLUE-ICabin – 汽车智能座舱的AI Agent评测基准

AgentCLUE-ICabin是什么 AgentCLUE-ICabin 是专注于汽车智能座舱场景的 AI 智能体测评基准,全面评估大语言模型在智能座舱中的工具调用能力。基准基于12大常见用车场景构建,覆盖从日常通勤到长途自驾等多种出行需求,充分贴合国内用户的实际交互场景。测评设计了1至10轮的多轮交互对话,每轮对话至少调用一个工具,全面考察模型在复杂环境下的交互能力。 AgentCLUE-IC

AI中国 AI中国
164 0
AI视频 3天前

IndexTTS2 – B站开源的最新文本转语音模型

IndexTTS2是什么 IndexTTS2是B站语音团队开发的新型文本转语音(TTS)模型,已经正式开源。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归TTS模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格,支持多语言。IndexTTS2实现了情感音色分离控制,用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能,支持通过情感参考

AI中国 AI中国
172 0
LMDeploy – 上海AI Lab开源的大模型推理部署工具
AI视频 1周前

LMDeploy – 上海AI Lab开源的大模型推理部署工具

LMDeploy是什么LMDeploy 是上海人工智能实验室推出的大模型推理部署工具,能显著提升大模型的推理性能,支持多种硬件架构,包括 NVIDIA 的 Hopper 和 Ampere 系列 GPU,实现了 FP8 和 MXFP4 等高效量化技术。LMDeploy 提供从模型量化到推理优化的全流程支持,支持多机多卡分布式推理,能满足大规模生产环境的需求。LMDeploy 具备良好的兼容性和易

AI中国 AI中国
168 0
文心大模型X1.1 – 百度推出的深度思考模型
AI视频 1周前

文心大模型X1.1 – 百度推出的深度思考模型

文心大模型X1.1是什么文心大模型X1.1是百度推出的深度思考模型,基于迭代式混合强化学习框架,在事实性、指令遵循能力和智能体能力上显著提升,分别提高34.8%、12.5%和9.6%。在权威评测中,表现超越DeepSeek R1-0528,与GPT-5和Gemini 2.5 Pro持平。用户能在文心一言官网、文小言APP使用文心大模型X1.1,已上线百度智能云千帆平台,全面开放给企业客户和开发

AI中国 AI中国
111 0
SpikingBrain-1.0 – 中国科学院推出的类脑脉冲大模型
AI视频 1周前

SpikingBrain-1.0 – 中国科学院推出的类脑脉冲大模型

SpikingBrain-1.0是什么SpikingBrain-1.0(瞬悉 1.0)是中国科学院自动化研究所推出的类脑脉冲大模型。模型基于内生复杂性,用新型非Transformer架构,突破Transformer架构在处理超长序列时的瓶颈。模型在国产GPU算力平台上完成全流程训练和推理,实现大模型在超长序列推理上的效率和速度提升,具有极低数据量上的高效训练、推理效率的数量级提升等核心

AI中国 AI中国
208 0
混元图像2.1 – 腾讯开源的文生图模型
AI视频 1周前

混元图像2.1 – 腾讯开源的文生图模型

混元图像2.1是什么混元图像2.1(HunyuanImage 2.1)是腾讯推出的开源文生图模型,支持原生2K分辨率,具备强大的复杂语义理解能力,能精准生成场景细节、人物表情和动作。模型支持中英文输入,能生成多种风格的图像,如漫画、手办等,同时对图像中的文字和细节把控稳定。模型基于双通道文本编码器和高压缩率VAE等技术,大幅提升训练和推理效率。模型现已开源,方便开发者研究和开发衍生模型,可通过

AI中国 AI中国
199 0
AI视频 1周前

AI Image Editor

AI Image Editor 是什么? AI Image Editor 是一款基于网页的智能图片编辑工具,支持用户通过 文字提示(text prompt) 来实现图像生成与编辑。无需掌握 Photoshop 或复杂的修图技巧,用户只需输入描述,AI 就能自动完成图片修改、增强或风格转换。 它支持 2K 分辨率输出、3 秒快速生成,并提供 多种艺术风格(写实、动漫、油画、赛博朋克等),帮助用户快

AI中国 AI中国
142 0
加载更多

推荐文章

腾讯的 AI 大招,落在微信上

腾讯的 AI 大招,落在微信上

5月前 • AI热点
3个趋势,看AI到底是怎么重构广告行业的?

3个趋势,看AI到底是怎么重构广告行业的?

3月前 • AI热点
速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
哪些AI是真正好用的?2025年最新AI工具推荐

哪些AI是真正好用的?2025年最新AI工具推荐

4月前 • 学习教程
Grok 4作战图刷爆全网,80%华人横扫硅谷!清华上交校友领衔

Grok 4作战图刷爆全网,80%华人横扫硅谷!清华上交校友领衔

2月前 • AI热点
全网都在玩的生图模型,我用它把 iPhone 17 提前发布了

全网都在玩的生图模型,我用它把 iPhone 17 提前发布了

1周前 • AI热点
宇树开源 UnifoLM-WMA-0 世界模型架构:可理解机器人与环境交互物理规律

宇树开源 UnifoLM-WMA-0 世界模型架构:可理解机器人与环境交互物理规律

2天前 • AI热点
手机满意度跌至 10 年来的最低水平,AI人工智能只是部分原因

手机满意度跌至 10 年来的最低水平,AI人工智能只是部分原因

3月前 • AI热点

热门标签

品牌产品词 Gem-2.5-Pro-Grounding Protégé 金山云星流训推平台 DiT调制方法 公众号封面生成 Search-R1 AI入门教程 DolphinGemma 剧本闯关

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明