AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

Kimi Linear – 月之暗面开源的新型混合线性注意力架构
Top
AI视频 3天前 • 167

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear是什么Kimi Linear 是月之暗面推出的新型混合线性注意力架构,专为提升大型语言模型(LLMs)在长序列任务中的效率和性能设计。核心组件 Kimi Delta Attention(KDA)通过精细化的通道级门控机制和高效的块处理算法,显著提升模型的表达能力和硬件效率。Kimi Linear 采用 3:1 的 KDA 与全注意力层(MLA)混合设计,大幅减少 KV 缓

AI中国
AI中国

Read more
AI视频 3周前

DeepScientist – 西湖大学推出的全自动AI科学家系统

DeepScientist是什么DeepScientist 是西湖大学等机构提出的自主科研系统,实现从假设生成到实验验证、再到结果分析与论文撰写的全流程自动化。通过多智能体架构与强化学习策略,使人工智能能在无人干预的情况下不断探索、验证并推进科学前沿。系统核心采用“假设—验证—分析(Hypothesize–Verify–Analyze)”的闭环流程,结合贝叶斯优化思想,将科学发现视为一个在庞大

AI中国 AI中国
188 0
AI视频 3周前

Picture to Drawing AI

一、PicturetoDrawing 是什么?PicturetoDrawing 是一款由人工智能驱动的 照片转手绘转换平台,可在数秒内将你的图片转换为逼真的素描、彩铅画、水彩画或漫画风格作品。该平台通过深度学习模型理解图片的光影、纹理与构图,并模拟真实艺术家的绘画笔触,让每张照片都化身为手绘艺术作品。它既是一个AI艺术创作工具,也是个人创意表达和视觉设计的生产力神器。二、Picture

AI中国 AI中国
174 0
AI视频 3周前

WAN22 AI

🎬 WAN22 AI 是什么?WAN22(WAN 2.2) 是一款由 WAN 2.2 TI2V-5B 模型驱动的下一代 AI视频生成平台,能将文本或图像直接转换为高质量的动态视频。它拥有 50亿参数(5B Parameters) 的超大规模模型架构,并基于 Mixture-of-Experts(专家混合机制) 构建,实现了高效的AI视频生成性能。WAN22 支持 Text-to-Video(

AI中国 AI中国
193 0
AI视频 3周前

Opera Neon

🌐 一、Opera Neon 是什么?Opera Neon 是 Opera 公司推出的一款新一代 AI 驱动浏览器,官方定义为:“A browser built to act.” —— 一款能够主动执行任务、理解网页语义、并直接为你行动的智能浏览器。Neon 不再只是“展示网页”,而是一个具备 Agent 能力的操作型浏览器(Agentic Browser)。它能阅读、总结、搜索、执

AI中国 AI中国
83 0
AI视频 3周前

Hairstyle Changer

一、Hairstyle Changer 是什么?Hairstyle Changer(hairstyle-changer.com)是一款基于AI的虚拟发型模拟器,用户只需上传自己的照片,就能瞬间试戴不同的发型与发色。它的AI模型会自动识别面部特征与发区,生成自然、逼真的效果图,帮助用户在剪发或染发前提前预览理想造型。官方在Product Hunt上的口号是:“Unlock Perfect

AI中国 AI中国
145 0
AI视频 3周前

Sora2 AI

一、Sora2 AI 是什么?Sora2 AI 是一款先进的 AI视频生成平台,通过文字或图片输入即可自动生成高质量视频。它结合了文本转视频(Text-to-Video)与图像转视频(Image-to-Video)技术,用户只需输入描述即可快速生成具有运动感、光影、特效及声音的专业视频。其核心目标是:让每个人都能像导演一样,用语言创造视觉故事。二、Sora2 AI 应用场景内容创作者

AI中国 AI中国
168 0
AI视频 3周前

SceneGen – 上海交大推出的3D场景生成框架

SceneGen是什么SceneGen是上海交通大学研究团队开发的高效开源3D场景生成框架。能从单张场景图像及其对应的物体分割掩码出发,通过一次前向传播,直接生成包含完整几何结构、纹理和空间布局的3D场景。创新之处在于端到端的生成流程,无需依赖耗时的优化过程或从资产库中检索组装,显著提升了生成效率。技术核心包括局部与全局场景信息的聚合模块,以及能同时预测3D资产及其相对空间位置的位置预测头,确

AI中国 AI中国
136 0
AI视频 4周前

Ming-UniAudio – 蚂蚁集团开源的音频多模态模型

Ming-UniAudio是什么Ming-UniAudio 是蚂蚁集团开源的音频多模态模型,统一语音理解、生成和编辑任务。核心是 MingTok-Audio,一个基于 VAE 框架和因果 Transformer 架构的连续语音分词器,能有效整合语义和声学特征。基于此,Ming-UniAudio 开发了一个端到端的语音语言模型,平衡了生成和理解能力,并通过扩散头确保高质量的语音合成。Ming-U

AI中国 AI中国
146 0
AI视频 4周前

Agent Kit – OpenAI推出的AI Agent开发工具

Agent Kit是什么Agent Kit 是 OpenAI 推出的一套完整的智能体开发工具包,帮助开发者将 AI 代理从原型快速推进至生产环境。包含三大核心组件:Agent Builder可视化画布工具,支持拖拽节点设计复杂工作流,无需从零编写代码、ChatKit可定制聊天界面工具包,支持嵌入自有品牌并降低交互开发成本, Connector Registry集中管理数据与工具连接的中心。工具

AI中国 AI中国
98 0
AI视频 4周前

Code2Video – 国立大学推出的AI教学视频生成框架

Code2Video是什么Code2Video是新加坡国立大学Show Lab团队开发的AI教学视频生成框架,通过Python代码自动生成高质量教育视频。核心创新在于采用三智能体协作模式:Planner负责将知识点转化为结构化故事板,Coder将故事板转为可执行Manim代码,Critic优化视觉布局。相比传统视频生成工具,在知识传递效率(MMMC基准测试中提升40%)、画面稳定性方面表现更优

AI中国 AI中国
170 0
AI视频 4周前

OpenLens AI – 清华推出的医学研究AI助手

OpenLens AI是什么OpenLens AI 是清华大学自动化系推出的专为医学研究设计的全自主人工智能研究助手,通过多智能体协作,实现从文献综述、实验设计、数据分析到论文生成的全流程自动化,极大提升医学研究效率,将科研周期从“月级”缩短至“小时级”。工具集成多种质量控制机制,确保研究结果的可靠性和可复现性。OpenLens AI 的出现标志着医学研究进入“零人工”时代,为科研范式带来重大

AI中国 AI中国
186 0
AI视频 4周前

ReceiptHero – 开源AI记账工具,拍照生成数字化账单

ReceiptHero是什么ReceiptHero 是开源的 AI 记账工具,能通过拍照将收据快速转化为数字化账单。工具基于先进的 AI 图像识别技术,用高达 95% 的准确率提取收据上的日期、金额、商户名称等关键信息,支持自动对支出进行智能分类,如餐饮、交通等。系统能生成可视化报表,帮助用户清晰了解消费情况。ReceiptHero 能节省时间,提升财务管理效率,是现代人高效记账的理想选择。

AI中国 AI中国
66 0
AI视频 1月前

StableAvatar – 复旦推出的音频驱动视频生成模型

StableAvatar是什么StableAvatar 是复旦大学、微软亚洲研究院等推出的创新音频驱动虚拟形象视频生成模型。模型通过端到端的视频扩散变换器,结合时间步感知音频适配器、音频原生引导机制和动态加权滑动窗口策略,能生成无限长度的高质量虚拟形象视频。模型解决了现有模型在长视频生成中出现的身份一致性、音频同步和视频平滑性问题,显著提升生成视频的自然度和连贯性,适用虚拟现实、数字人创建等场

AI中国 AI中国
79 0
混元3D-Part – 腾讯推出的组件式3D生成模型
AI视频 1月前

混元3D-Part – 腾讯推出的组件式3D生成模型

混元3D-Part是什么混元3D-Part是腾讯推出的3D生成模型,由P3 – SAM和X – Part组成,首次实现高精度、可控的组件式3D生成,支持50 + 组件自动生成。用户可先用混元3D 2.5或3.0生成整体Mesh,再由P3 – SAM进行自动、精确的组件分割,X – Part将其分解为独立部件,输出高保真、结构一致的部件几何体,同时保持灵活可控性。在游戏建模、3D打印等领域有广泛

AI中国 AI中国
218 0
AI视频 1月前

混元3D-Omni – 腾讯混元推出的3D资产生成框架

混元3D-Omni是什么混元3D-Omni(Hunyuan3D-Omni)是腾讯混元3D团队提出的3D资产生成框架,通过多种控制信号实现精准的3D模型生成。基于Hunyuan3D 2.1架构,引入了统一的控制编码器,可处理点云、骨骼姿态、边界框等多种控制信号,避免信号混淆。框架采用渐进式、难度感知的采样策略进行训练,优先采样难度较高的信号,提升模型对缺失输入的鲁棒性。Hunyuan3D-Omn

AI中国 AI中国
153 0
GDPVAL – OpenAI开源的AI模型经济价值评估框架
AI视频 1月前

GDPVAL – OpenAI开源的AI模型经济价值评估框架

GDPVAL是什么GDPval 是 OpenAI 推出的全新评估框架,用在衡量 AI 模型在真实经济价值任务上的表现。GDPval 从美国 GDP 贡献最大的 9 个行业中选取 44 种职业,设计 1320 个真实任务(开源版本包含 220 个),涵盖软件开发、法律文书、机械工程、护理计划等多个领域。任务由平均有 14 年经验的专业人士设计,经过多轮审核,确保贴近实际工作场景。GDPval 的

AI中国 AI中国
163 0
FLM-Audio – 智源研究院开源的全双工音频对话模型
AI视频 1月前

FLM-Audio – 智源研究院开源的全双工音频对话模型

FLM-Audio是什么FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型,支持中文和英文。采用原生全双工架构,可在每个时间步合并听觉、说话和独白通道,避免传统时分复用方案的高延迟问题。其独特的自然独白与双重训练范式,使模型在对话中更接近人类的自然交流方式,有效解决了异步对齐问题。FLM-Audio 仅用 100 万

AI中国 AI中国
203 0
Spark Chemistry-X1-13B – 科大讯飞开源的化学模型
AI视频 1月前

Spark Chemistry-X1-13B – 科大讯飞开源的化学模型

Spark Chemistry-X1-13B是什么Spark Chemistry-X1-13B 是科大讯飞开源的化学专业大型语言模型。模型基于讯飞星火X1-0420大模型,经过多种化学任务数据集的微调,具备卓越的复杂化学问题解决能力,同时保持强大的通用性。模型基于新的注意力掩码机制,结合长思维链和快思考,有效防止不同推理模式之间的干扰。模型在高等知识问答、化学名称转换和分子性质预测等任务上表现

AI中国 AI中国
163 0
AI视频 1月前

SimpleFold – 苹果开源的轻量级蛋白质折叠预测AI模型

SimpleFold是什么SimpleFold 是苹果公司推出的轻量级蛋白质折叠预测 AI 模型。模型基于流匹配(Flow Matching)技术,跳过多序列比对(MSA)等复杂模块,直接从随机噪声生成蛋白质的三维结构,大幅降低计算成本。在 CAMEO22 和 CASP14 等权威基准测试中,SimpleFold 表现出色,无需昂贵的多序列比对和三角注意机制,能达到与顶尖模型(如 AlphaF

AI中国 AI中国
192 0
AI视频 1月前

Vidu Q2 – 生数科技推出的新一代图生视频模型

Vidu Q2是什么Vidu Q2是生数科技推出的新一代图生视频大模型,实现了AI视频生成技术从“视频生成”到“演技生成”的跨越,标志着AI视频进入追求“神似”的新纪元。Vidu Q2能生成极其细腻的面部微表情,使数字角色展现出生动且具感染力的演技,可胜任复杂表情变化的文戏、多人打斗场景的武戏及大片炫酷特效。在镜头语言上更丰富,可实现从宏观全景到微观特写的快速切换,复杂运镜秒级精准可控;语义理

AI中国 AI中国
90 0
AudioFly – 科大讯飞开源的文生音效模型
AI视频 1月前

AudioFly – 科大讯飞开源的文生音效模型

AudioFly是什么AudioFly 是科大讯飞开源的文本生成音效的AI模型。模型用潜在扩散模型架构,拥有10亿参数,通过大量开放数据集(如AudioSet、AudioCaps、TUT)及内部专有数据训练而成。AudioFly 能根据文本描述生成高质量音频,采样率高达44.1kHz,生成的音效与文本描述高度匹配。模型在单事件和多事件场景下均表现出色,在AudioCaps数据集上性能卓越,超越

AI中国 AI中国
210 0
Audio2Face – 英伟达开源的AI面部动画生成模型
AI视频 1月前

Audio2Face – 英伟达开源的AI面部动画生成模型

Audio2Face是什么Audio2Face 是 NVIDIA 推出的AI面部动画生成模型,通过音频输入能生成逼真的面部动画。模型能分析音频中的音素和语调,驱动角色的嘴唇动作和表情,实现精准的口型同步与情感表达。模型现已开源,开发者可通过 SDK 和插件,在 Maya 和 Unreal Engine 5 等工具中快速生成高质量的动画,或用训练框架定制模型。Audio2Face 广泛应用在游戏

AI中国 AI中国
203 0
CWM – Meta开源的代码世界模型
AI视频 1月前

CWM – Meta开源的代码世界模型

CWM是什么CWM(Code World Model)是Meta开源的320亿参数的代码世界模型,是全球首个将世界模型系统性引入代码生成的语言模型,支持代码生成和理解。模型通过世界模型技术,模拟代码执行过程,不只是基于模式匹配生成代码。CWM在多个基准测试中表现出色,例如在Math-500数据集上达到96.6%的准确率。模型权重已公开,CWM的开源推动了代码生成和理解领域的研究,帮助开发者更好

AI中国 AI中国
78 0
Neovate Code – 蚂蚁集团开源的AI编程助手
AI视频 1月前

Neovate Code – 蚂蚁集团开源的AI编程助手

Neovate Code 是什么Neovate Code 是蚂蚁集团开源的智能编程助手,专注于提升开发效率。工具能深度理解代码库,遵循既有编码习惯,精准完成代码生成、Bug修复和重构等任务。通过对话式界面,支持开发者用自然地描述需求,Neovate Code 提供安全、可控的实现方案。工具支持多种流行模型(如 OpenAI、Anthropic 等),可通过插件系统灵活扩展功能。目前以 CLI

AI中国 AI中国
152 0
LucaVirus – 阿里开源的病毒基础大模型
AI视频 1月前

LucaVirus – 阿里开源的病毒基础大模型

LucaVirus是什么LucaVirus 是阿里巴巴云 LucaGroup 研发的专为病毒设计的统一核酸 – 蛋白质语言模型。在 254 亿个核苷酸和氨基酸标记上训练,涵盖几乎所有已知病毒。模型可学习核苷酸和氨基酸序列间的关系等生物学上有意义的表示,基于此开发的下游模型能应对病毒学关键挑战,如识别基因组“暗物质”中的病毒、表征未知蛋白质酶活性、预测病毒进化能力、发现针对新病毒的抗体药物等,在

AI中国 AI中国
196 0
MiroFlow v0.2 – MiroMind开源的研究智能体框架
AI视频 1月前

MiroFlow v0.2 – MiroMind开源的研究智能体框架

MiroFlow v0.2是什么MiroFlow v0.2是MiroMind推出的开源研究智能体框架,能将任何大型语言模型(LLM)升级至OpenAI深度研究级别的能力,专注于可靠完成复杂的工具使用任务。框架具有开源可复现、高并发高可靠性及部署成本低等优势,在GAIA、HLE、xBench-DeepSearch和BrowserComp等多个基准测试中取得顶尖成果。MiroFlow v0.2基于

AI中国 AI中国
195 0
Kronos – 微软联合清华开源的金融K线图基础模型
AI视频 1月前

Kronos – 微软联合清华开源的金融K线图基础模型

Kronos是什么Kronos 是首个面向金融市场的 K 线图基础模型,由清华大学与微软亚洲研究院联合开源。通过分析股票、加密货币等资产的 K 线数据,包括开盘价、最高价、最低价、收盘价及成交量,来预测未来价格走势。Kronos 采用两阶段处理框架:智能分词器将连续的 K 线数据转化为离散的「金融词汇」,预测大模型基于 Transformer 架构,从历史数据中学习规律,预测未来走势。模型训练

AI中国 AI中国
118 0
OneSearch – 快手推出的电商搜索端到端生成式框架
AI视频 1月前

OneSearch – 快手推出的电商搜索端到端生成式框架

OneSearch是什么OneSearch 是快手推出的电商搜索端到端生成式框架,优化传统电商搜索的级联式架构,提升搜索精准度和用户体验。三大创新点包括:关键词增强层次量化编码(KHQE)模块,通过提取商品核心属性并生成层次化编码(SID),强化 Query-商品相关性约束;多视角用户行为序列注入策略,构建行为驱动的用户标识(UID),融合显式短期行为与隐式长期序列,精准建模用户偏好;偏好感知

AI中国 AI中国
103 0
Codexia – 开源的AI编码桌面应用程序,多会话支持
AI视频 1月前

Codexia – 开源的AI编码桌面应用程序,多会话支持

Codexia是什么Codexia是强大的跨平台AI编码桌面应用程序,支持为OpenAI Codex CLI提供图形界面和工具集,增强开发体验。Codexia支持多会话管理、实时流式响应、多种文件格式(如PDF、CSV、XLSX)的内置预览,及灵活的配置选项。用户能自定义AI提供商、模型、沙盒策略等。专业用户体验包括记事本与聊天集成、增强的Markdown渲染、主题选择等。Codexia注重安

AI中国 AI中国
99 0
Lego-Edit – 小米开源的图像编辑框架
AI视频 1月前

Lego-Edit – 小米开源的图像编辑框架

Lego-Edit是什么Lego-Edit 是小米开源的基于指令的图像编辑框架,通过多模态大语言模型(MLLM)的泛化能力,实现对图像的灵活编辑。采用模型级工具包,包含多种高效训练的模型,可执行多种图像操作。Lego-Edit 通过三阶段渐进式强化学习训练策略,先进行监督微调(SFT),再在特定任务上强化学习(RL),最后利用大量未标注指令进行额外 RL 训练,增强对灵活指令的处理能力。优势在

AI中国 AI中国
206 0
加载更多

推荐文章

腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容

腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容

2月前 • AI热点
​全球数据中心电力需求将在2030年翻倍,AI 成主要推动力

​全球数据中心电力需求将在2030年翻倍,AI 成主要推动力

6月前 • AI热点
视频版AI换衣框架MagicTryOn,基于Wan2.1视频模型

视频版AI换衣框架MagicTryOn,基于Wan2.1视频模型

4月前 • AI热点
最强AI编程神器Cursor,全网最详细教程

最强AI编程神器Cursor,全网最详细教程

4月前 • 图文教程
图像反推提示语模型JoyCaption本地部署指南,支持SFW和NSFW图像描述

图像反推提示语模型JoyCaption本地部署指南,支持SFW和NSFW图像描述

1年前 • 学习教程
银发市场是第一站,家电巨头押注机器人做“智能家居入口”

银发市场是第一站,家电巨头押注机器人做“智能家居入口”

2月前 • AI热点
OpenAI 重返非营利模式,终止营利性实体控制机制

OpenAI 重返非营利模式,终止营利性实体控制机制

6月前 • AI热点
速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • 图文教程

热门标签

宣传片 生活便利 赛博算命 ai准确性高吗 SE-Agent 现场直播 OpenCUA 预算有限 原神5.8版本 Yi系列参数对比

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明