AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

Kimi Linear – 月之暗面开源的新型混合线性注意力架构
Top
AI视频 1天前 • 164

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear是什么Kimi Linear 是月之暗面推出的新型混合线性注意力架构,专为提升大型语言模型(LLMs)在长序列任务中的效率和性能设计。核心组件 Kimi Delta Attention(KDA)通过精细化的通道级门控机制和高效的块处理算法,显著提升模型的表达能力和硬件效率。Kimi Linear 采用 3:1 的 KDA 与全注意力层(MLA)混合设计,大幅减少 KV 缓

AI中国
AI中国

Read more
AI视频 1天前

Music 2.0 – MiniMax推出的新一代音乐创作模型

Music 2.0是什么Music 2.0 是MiniMax最新推出的先进音乐创作模型。模型能精准捕捉和还原人声的细腻情绪与器乐的动态张力,支持多种唱法和风格切换,如流行、爵士、摇滚等,还能实现男女对唱、阿卡贝拉等效果。模型生成的旋律抓耳且具有完整结构,能独立控制伴奏乐器,打造丰富编曲。音质升级,带来沉浸式体验,生成影视级配乐独白。Music 2.0让音乐创作让每个人都能轻松表达音乐灵感,实现

AI中国 AI中国
200 0
AI视频 1天前

Aardvark – OpenAI推出的漏洞发现与修复智能体

Aardvark是什么Aardvark 是 OpenAI 推出的基于 GPT-5 的智能体,能自动发现和修复代码中的安全漏洞。Aardvark通过不间断地分析源代码仓库,识别漏洞、评估可利用性、划分严重等级,提出针对性修复方案。Aardvark 用多阶段工作流程,包括分析、提交扫描、验证和修复,能像人类安全研究员一样阅读代码、编写测试、验证漏洞。Aardvark能无缝集成 GitHub 和现有

AI中国 AI中国
158 0
AI视频 1天前

WOWService – 美团推出的大模型交互系统技术报告

WOWService是什么WOWService 是美团 LongCat 团队发布的智能交互系统,通过融合大型语言模型(LLMs)和多智能体架构,优化用户体验并降低成本。系统针对智能交互领域的五大挑战:冷启动数据构建、多轮对话性能、业务规则变化、单一 LLM 的局限性以及多轮对话的量化评估难题,提出了创新解决方案。WOWService 采用四阶段训练流水线:持续预训练(CPT)、有监督微调(SF

AI中国 AI中国
186 0
AI视频 2天前

AI阴影去除器

🌤️ AI阴影去除器 是什么?AI阴影去除器Remove Shadow From Photo 是一款专业级的 AI照片去阴影工具,通过先进的机器学习算法,自动识别并去除人像、产品或风景照片中的阴影,让图像恢复自然光照和平衡的视觉效果。它能在数秒内完成阴影去除,输出高达4K分辨率的干净照片,无需专业技能或复杂操作。这款工具由AI影像技术驱动,深度学习了数百万张照片的光影特征,因此在“识别阴影

AI中国 AI中国
71 0
AI视频 2天前

酷宣AI

🚀 一、酷宣AI是什么?酷宣AI 是一个集 AI图文排版、AI生图、AI修图、AI视频生成、AI动图制作 于一体的超级智能体内容创作平台。它融合了多种先进的AI生成模型,覆盖从 文字 → 图片 → 视频 → 动图 的全链路内容创作场景,帮助用户在几分钟内完成专业级视觉内容。无论你是自媒体创作者、品牌营销人员、教师、还是设计小白,酷宣AI都能帮助你:快速生成高颜值图文内容一键制作海报、

AI中国 AI中国
100 0
AI视频 2天前

Hailuo 2.3 – MiniMax推出的AI视频生成模型

Hailuo 2.3是什么Hailuo 2.3 是MiniMax推出的先进 AI 视频生成模型,基于 Hailuo 02 升级而来。模型在肢体动作、微表情、风格化表现及物理真实性方面实现显著提升,能生成更加流畅自然且复杂的动态画面,支持多种画风,如动漫、水墨等。模型对运动指令的响应更加精准,画面效果接近实拍。Hailuo 2.3 包含Hailuo 2.3 提供高质量的视频生成效果,适合对细节和

AI中国 AI中国
79 0
AI视频 2天前

Glyph – 智谱联合清华开源的视觉文本压缩框架

Glyph是什么Glyph 是智谱联合清华大学 CoAI 实验室开源的创新框架,能通过视觉 – 文本压缩解决大语言模型(LLM)上下文过长的问题。框架将长文本渲染为图像,用视觉语言模型(VLM)处理图像,实现 3 – 4 倍的上下文压缩。Glyph 显著降低了计算成本和显存占用,同时大幅提升推理速度。Glyph在多模态任务中表现出色,展现出强大的泛化能力。Glyph的主要功能长上下文压

AI中国 AI中国
172 0
AI视频 2天前

GigaBrain-0 – 开源VLA具身模型,基于世界模型生成的数据

GigaBrain-0是什么GigaBrain-0 是新型的视觉-语言-行动(VLA)基础模型,由世界模型生成的数据驱动。模型通过大规模生成多样化数据,减少了对真实机器人数据的依赖,显著提升了跨任务泛化能力。采用 RGB-D 输入建模,增强了空间感知能力,通过具身思维链(Embodied CoT)监督,强化了模型在任务执行中的推理能力。使得 GigaBrain-0 在真实世界中的灵巧操作、长时

AI中国 AI中国
109 0
AI视频 2天前

SoulX-Podcast – Soul推出的多说话人语音合成模型

SoulX-Podcast是什么SoulX-Podcast 是 Soul AI Lab 推出的多说话人文本到语音(TTS)模型,专为生成长篇播客对话设计。模型参数为1.7B,支持普通话、英语及多种汉语方言(如四川话、河南话、粤语等),具备跨方言提示功能,可通过普通话提示生成目标方言语音。模型支持副语言控制(如笑声、叹气等),增强语音合成的真实感。SoulX-Podcast 能生成超过 90 分

AI中国 AI中国
65 0
AI视频 2天前

FlowithOS – Flowith推出的全球首个智能体操作系统

FlowithOS是什么FlowithOS是Flowith推出的全球首个智能体操作系统,使其能像人类一样与数字世界互动。FlowithOS具备浏览器、终端和脚本使用功能,能自动执行复杂任务,如文件管理、游戏操作等。通过在线强化学习和自我进化能力,FlowithOS的智能体能随时间变得更加智能和个性化。在性能评测中,Flowith OS 表现卓越,其“代码 + 视觉”双模态理解框架使其在网页操作

AI中国 AI中国
128 0
AI视频 2天前

Speech 2.6 – MiniMax推出的语音生成模型

Speech 2.6是什么Speech 2.6 是MiniMax推出的全新语音生成模型,专为新一代语音智能体设计,具备超低延时(低于250毫秒),确保实时对话流畅;支持多种语言的网址、邮箱、电话号码等非标准文本格式的直接转换,无需繁琐预处理。模型通过 Fluent LoRA 技术,进一步提升音韵自然度和音色复刻的流利性,原始素材带有口音或不流利,也能生成高质量语音。模型适用智能客服、智能硬件等

AI中国 AI中国
201 0
AI视频 2天前

FIBO – 开源的图像生成模型,首个原生支持JSON

FIBO是什么FIBO 是首个开源的原生支持 JSON 的文本生成图像模型,专为长结构化描述训练而成。模型在超过 1 亿条结构化 JSON 描述(每条约 1,000 字)上训练,能精确、可重复地控制光线、构图、色彩与相机参数。FIBO 支持生成、精修和灵感三种模式,具备特征解耦能力,能单独调整某个属性不破坏整体场景。FIBO使用 100% 授权数据,确保合规性和法律透明性,适合专业工作流。

AI中国 AI中国
106 0
AI视频 2天前

Sonic-3 – Cartesia推出的实时语音对话模型

Sonic-3是什么Sonic-3是Cartesia最新发布的语音AI引擎,是当前市场上速度最快、最自然的实时语音对话模型。采用创新的“状态空间模型”(SSM)架构,非传统的Transformer模型,能更有效地模拟人类思维,记住对话主题和情绪,无需每次都从头分析上下文。使得Sonic-3的延迟低于100毫秒,在实时语音交互行业中处于领先地位。Sonic-3支持42种语言,覆盖全球95%的人口

AI中国 AI中国
192 0
AI视频 2天前

Composer – Cursor推出的自研编码模型

Composer是什么Composer 是Cursor推出的自研编码模型,专为低延迟的智能体式编码设计。模型生成速度极快,每秒可达 250 个 token,是同等智能模型的 4 倍,大多数任务在 30 秒内完成。Composer 通过语义搜索等工具训练,对大型代码库的理解和处理能力显著更强。模型支持调用多种工具,如代码编辑、终端命令和语义搜索,同时具备并行处理能力,可并行运行多个智能体以提升复

AI中国 AI中国
193 0
AI视频 2天前

Firefly Image 5 – Adobe推出的最新图像生成模型

Firefly Image 5是什么Firefly Image 5 是 Adobe 发布的最新图像生成模型。具备原生400万像素输出能力,能直接生成高分辨率图像,细节表现力大幅提升。在人物渲染方面,新模型优化了面部结构、肢体比例和光影逻辑,减少了常见问题,使生成的人物图像更加逼真。Firefly Image 5 引入了图层编辑功能,能智能识别图像中的不同元素并将其作为独立图层处理。创作者可以通

AI中国 AI中国
71 0
AI视频 6天前

LongCat-Video – 美团开源的视频生成模型

LongCat-Video是什么LongCat-Video是美团LongCat团队开源的136亿参数的视频生成模型,在文本到视频(Text-to-Video)、图像到视频(Image-to-Video)和视频续写(Video-Continuation)等任务上表现出色,尤其擅长高效生成高质量的长视频。模型通过多奖励强化学习优化(GRPO),在内部和公共基准测试中展现出与领先开源视频生成模型及最

AI中国 AI中国
83 0
AI视频 1周前

MiniMax M2 – MiniMax推出的Agent编程和优化模型

MiniMax M2是什么MiniMax M2是MiniMax推出的专为编程和Agent工作流优化的大语言模型。模型拥有100亿激活参数和2300亿总参数,支持204,800的上下文窗口和131,072的最大输出Token数。在通用推理、工具使用和多步任务执行方面表现出接近前沿的智能水平,同时保持了低延迟和部署效率。根据Artificial Analysis的基准测试,M2在数学、科学和指令遵

AI中国 AI中国
161 0
AI视频 1周前

Kimi CLI – Moonshot AI推出的命令行通用智能体工具

Kimi CLI是什么Kimi CLI 是 Moonshot AI 推出的命令行通用智能体工具,为开发者提供高效、便捷的编程辅助和文件处理功能。支持 macOS 和 Linux 系统,通过 uv 包管理器安装,安装过程简单快捷。首次使用时,用户需通过 /setup 元命令进行配置,输入 API Key 并选择合适的模型,如 Coding 会员可选择「Kimi For Coding」模型。Kim

AI中国 AI中国
88 0
AI视频 1周前

veo3.1

🎥 Veo 3.1 是什么?Veo 3.1 是由 Google 推出的次世代 AI 视频生成平台,基于 Veo 3.1 AI 模型 构建,支持从 文字、图片或照片 自动生成具备 声音、对白与精准口型同步 的 4K 电影级视频。这款工具将 视觉、声音与物理模拟 融合在一起,使创作者能在几分钟内完成传统视频制作需要数小时才能完成的工作。无论你是内容创作者、品牌营销人员还是影视制作者,Veo 3

AI中国 AI中国
209 0
AI视频 1周前

Nof1.ai交易提示词 – 为AI交易系统设计的模板

Nof1.ai交易提示词是什么Nof1.ai交易提示词是为AI交易系统设计的详细输入模板,提供全面的市场数据、技术指标和账户信息。提示词包括多个币种的当前价格、EMA、MACD、RSI等指标,及账户的持仓详情和性能指标。提示词结构化地组织信息,支持AI进行深入分析和交易决策,最终输出每个币种的具体操作建议、置信度和持仓数量,实现优化交易策略。Nof1.ai交易提示词的核心模块 USER

AI中国 AI中国
129 0
AI视频 1周前

VitaBench – 美团推出的大模型Agent评测基准

VitaBench是什么VitaBench 是美团 LongCat 团队发布的面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体,构建了包含66个工具的交互式评测环境,设计了跨场景综合任务,从深度推理、工具使用与用户交互三大维度衡量智能体表现。首次量化拆解智能体任务,构建大规模真实环境数据库,引入真实用户模拟器,通过原子化评估准则(Rubric)实现细粒度行

AI中国 AI中国
129 0
AI视频 1周前

KoalaQA – 开源AI售后服务社区,能7×24小时服务

KoalaQA是什么KoalaQA 是AI大模型驱动的开源售后服务社区,支持智能问答、语义搜索和自动运营等功能。KoalaQA 能帮助团队实现 7×24 小时服务,显著降低人工成本,提升客户满意度与响应效率,助力实现零接触解决(ZCR)目标。KoalaQA 适用售后客服、产品答疑、需求反馈等场景,通过知识库管理和 AI 辅助创作,进一步优化用户体验。KoalaQA的主要功能AI 智能回

AI中国 AI中国
212 0
AI视频 1周前

DeepSeek-OCR – DeepSeek团队开源的视觉语言模型

DeepSeek-OCR是什么DeepSeek-OCR 是 DeepSeek 团队推出的视觉语言模型,专注于通过光学压缩技术高效处理长文本内容。模型由 DeepEncoder 编码器和 DeepSeek3B-MoE 解码器组成,能在保持高分辨率输入的同时,显著降低激活内存和视觉标记数量。模型在 10 倍压缩比下 OCR 精度可达 97%,在 20 倍压缩比下仍能保持 60% 的准确率。Deep

AI中国 AI中国
98 0
AI视频 1周前

Dexter – AI金融研究Agent,自动进行金融任务规划

Dexter是什么Dexter 是自主金融研究智能代理(Agent),专为处理复杂金融问题而设计。工具能将复杂查询分解为清晰的分步骤研究计划,通过实时市场数据进行分析。Dexter 用多Agent架构,包括规划Agent(分解任务)、执行Agent(获取数据)、验证Agent(检查结果)和回答Agent(整合答案)。Dexter 支持智能任务规划、自主执行、自我验证,内置安全机制防止无限循环。

AI中国 AI中国
127 0
AI视频 1周前

PaddleOCR-VL – 百度飞桨开源的多模态文档解析模型

PaddleOCR-VL是什么PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型,参数量仅0.9B,专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一,超越GPT-4o等主流模型。模型采用双阶段架构:PP-DocLayoutV2负责版面分析,PaddleOCR-VL-0.9B完成内容识别,支持109种语言,能精准处理表格、公式、图表等复杂

AI中国 AI中国
170 0
AI视频 2周前

Coral NPU – 谷歌推出的全栈开源AI平台

Coral NPU是什么Coral NPU 是谷歌推出的全栈开源AI平台,专为低功耗边缘设备(如智能手表、AR 眼镜等)设计,能解决性能、碎片化和隐私三大挑战。Coral NPU基于 RISC-V 指令集,包含标量核心、向量执行单元和矩阵执行单元,能高效支持机器学习推理任务。Coral NPU 提供统一的开发者体验,支持 TensorFlow、JAX 和 PyTorch 等框架,通过硬件强制的

AI中国 AI中国
153 0
AI视频 2周前

LongCat-Audio-Codec – 美团开源的语音编解码方案

LongCat-Audio-Codec是什么LongCat-Audio-Codec 是美团 LongCat 团队开源的语音编解码方案,专为语音大语言模型(Speech LLM)设计。通过语义和声学双 Token 并行提取机制,兼顾语音的语义理解与声学特征保留,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,将解码延迟控制在百毫秒级,满足车载语音助手、实时翻译等场景的

AI中国 AI中国
141 0
AI视频 2周前

RTFM – 李飞飞团队推出的实时生成式世界模型

RTFM是什么RTFM(Real-Time Frame Model)是李飞飞团队推出的实时生成式世界模型。模型能在单块H100 GPU上运行,实时生成3D场景,支持持久交互。RTFM通过观看大量视频数据学习光影、材质和空间关系,将复杂的物理渲染问题转化为基于数据的感知问题。RTFM为每一帧赋予空间坐标,用“上下文腾挪”技术,只关注附近帧生成新画面,实现高效且持久的世界构建。RTFM展示了未来世

AI中国 AI中国
138 0
AI视频 2周前

UniPixel – 香港理工联合腾讯推出的像素级多模态大模型

UniPixel是什么UniPixel是香港理工大学和腾讯ARC Lab团队开发的首个统一像素级多模态大模型,专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的”对象记忆机制”和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。模型基于Qwen2.5-VL框架,支持点、框、掩码三种交互方式,在9项视觉任务基准测试中超越72B参数的

AI中国 AI中国
124 0
加载更多

推荐文章

速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
谷歌:员工若使用 AI 处理行政任务,每年可节省 122 小时工作时间

谷歌:员工若使用 AI 处理行政任务,每年可节省 122 小时工作时间

6月前 • AI热点
GPT+即梦AI 如何生成模特效果图

GPT+即梦AI 如何生成模特效果图

3月前 • 视频教程
CrowdStrike 推出 Charlotte AI,开启安全运营新纪元

CrowdStrike 推出 Charlotte AI,开启安全运营新纪元

6月前 • AI热点
​马斯克 xAI 在孟菲斯开建全球最大污水处理厂,年节约饮用水达 190 亿升

​马斯克 xAI 在孟菲斯开建全球最大污水处理厂,年节约饮用水达 190 亿升

2周前 • AI热点
n8n vs Dify vs Coze 自动化和AI平台的全面比较(建议收藏)

n8n vs Dify vs Coze 自动化和AI平台的全面比较(建议收藏)

6月前 • 学习教程
全球首个无限执行的 AI 出现!给我玩爽了

全球首个无限执行的 AI 出现!给我玩爽了

4月前 • 视频教程
当顶级AI被拉去炒币,结果只有中国模型赚疯了

当顶级AI被拉去炒币,结果只有中国模型赚疯了

1周前 • AI热点

热门标签

高音质 Hyperliquid AI模型微调 大模型六小虎 KimiDeltaAttention 非侵入式脑机接口 AI视频技术 SeedanceSeedream即梦4 MoE 翻唱

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明