AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

Kimi Linear – 月之暗面开源的新型混合线性注意力架构
Top
AI视频 3天前 • 167

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear是什么Kimi Linear 是月之暗面推出的新型混合线性注意力架构,专为提升大型语言模型(LLMs)在长序列任务中的效率和性能设计。核心组件 Kimi Delta Attention(KDA)通过精细化的通道级门控机制和高效的块处理算法,显著提升模型的表达能力和硬件效率。Kimi Linear 采用 3:1 的 KDA 与全注意力层(MLA)混合设计,大幅减少 KV 缓

AI中国
AI中国

Read more
AI视频 2周前

豆包语音2.0 – 字节跳动推出的升级版AI语音模型

豆包语音2.0是什么豆包语音2.0是字节跳动推出的升级版AI语音模型,包含两大核心模型:豆包语音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型2.0(Doubao-Seed-ICL 2.0)。语音合成模型2.0支持对话式合成,可精准理解语义和情感,实现复杂公式朗读,准确率高达90%。声音复刻模型2.0仅需5秒即可复刻音色,支持多语种,在交互中传递情感,分饰多角色。两

AI中国 AI中国
195 0
AI视频 2周前

豆包大模型1.6 lite – 字节跳动推出的轻量级AI模型

豆包大模型1.6 lite是什么豆包大模型1.6 Lite(Doubao-Seed-1.6-lite)是字节跳动推出的轻量级人工智能模型。模型相比旗舰版豆包1.6更轻量、推理速度更快,性价比更高。在企业级场景测评中,性能较豆包1.5 Pro提升14%,使用成本在0 – 32k输入区间内降低53.3%。模型支持思考程度可调节,有minimal、low、medium、high四种模式,用户能根据需

AI中国 AI中国
167 0
AI视频 2周前

DiaMoE-TTS – 清华联合巨人网络开源的多方言TTS框架

DiaMoE-TTS是什么DiaMoE-TTS 是清华大学和巨人网络联合推出的多方言语音合成(TTS)框架。框架基于国际音标(IPA)统一输入体系,结合方言感知的 Mixture-of-Experts(MoE)架构和低资源适配策略(PEFT),实现低成本、低门槛的多方言语音合成。框架支持多种方言和小语种,能在少量数据下快速建模,兼具高效性和灵活性。DiaMoE-TTS数据、代码和方法全面开源,

AI中国 AI中国
212 0
AI视频 2周前

Claude Haiku 4.5 – Anthropic最新推出的小型AI模型

Claude Haiku 4.5是什么Claude Haiku 4.5 是 Anthropic 公司最新推出的高性能、低成本的小型 AI 模型。模型在编码性能上与之前的旗舰模型 Claude Sonnet 4 相当,且在某些任务中表现更优,成本仅为三分之一,速度提升两倍多。模型具备出色的对齐性和安全性,被评为 AI 安全等级 2(ASL-2)。模型支持通过 Claude API、Amazon

AI中国 AI中国
134 0
AI视频 2周前

Veo 3.1 – 谷歌推出的AI视频生成模型

Veo 3.1是什么Veo 3.1 是谷歌推出的最新 AI 视频生成模型,在Veo 3基础上进行了重大升级,带来更丰富的音频支持、更强的叙事控制及更逼真的质感还原。通过原生音频生成和更精细的编辑能力,Veo 3.1 让用户能直接在生成阶段完成视频创作,无需后期处理。模型支持多种输入类型,包括文本提示、图像和视频片段,能生成高质量的 720p 或 1080p 视频。Veo 3.1 的目标是简化创

AI中国 AI中国
148 0
AI视频 2周前

Pyscn – AI代码质量分析工具,快速发现和清理代码问题

Pyscn是什么Pyscn 是专为 Python 开发者设计的智能代码质量分析工具,帮助开发者快速发现并清理代码中的问题,如死代码、重复代码、复杂代码结构等。通过控制流图(CFG)检测死代码,利用树编辑距离技术识别代码克隆,分析代码的耦合度和圈复杂度。Pyscn 的分析速度快,可达 100,000+ 行/秒,支持多种安装方式,包括 pipx 和 Go 安装。Pyscn 提供全面的分析功能,支持

AI中国 AI中国
189 0
AI视频 2周前

Local-NotebookLM – 开源PDF转播客AI工具,自定义音频

Local-NotebookLM是什么Local-NotebookLM 是开源的本地 AI 工具,能将 PDF 文档转换为引人入胜的音频内容,如播客、访谈、辩论等。支持多种输出格式和内容风格,用户可以根据需求选择不同的音频长度和风格,如短篇、中篇、长篇,以及正常、轻松、正式、技术、学术等风格。支持多种 LLM 提供商,如 OpenAI、Groq、Azure OpenAI 等,以及文本到语音转换

AI中国 AI中国
119 0
AI视频 2周前

FS-DFM – 苹果联合俄亥俄州立大学推出的扩散语言模型

FS-DFM是什么FS-DFM(Few-Step Discrete Flow-Matching)是苹果联合俄亥俄州立大学推出的用在快速生成长文本的扩散语言模型。模型通过将采样步数作为显式参数进行训练,使模型能在较少的步骤内生成高质量的文本。FS-DFM结合可靠的更新规则和强大的教师指导,确保概率更新准确且不会过度调整。在语言建模基准测试中,FS-DFM用8步采样达到1024步离散流基线的困惑度

AI中国 AI中国
96 0
AI视频 2周前

Kandinsky 5.0 – 俄罗斯AI-Forever开源的视频生成模型

Kandinsky 5.0是什么Kandinsky 5.0 是俄罗斯 AI 研究实验室 AI-Forever 开发的文本到视频生成模型,具有强大的生成能力和高效的性能表现。核心版本 Kandinsky 5.0 Video Lite 是一款参数量为 20 亿的轻量级模型,生成质量优异,甚至优于一些更大规模的模型。支持多种变体,包括 SFT 模型(生成质量最高)、CFG 蒸馏模型(推理速度提升约

AI中国 AI中国
186 0
AI视频 2周前

SongBloom – 腾讯AI Lab推出的全长度歌曲生成模型

SongBloom是什么SongBloom 是腾讯 AI Lab 开发的全长度歌曲生成框架,结合了自回归草图绘制和基于扩散的细化技术,通过交错生成范式(Interleaved Generation)交替生成语义和声学上下文,生成高质量的完整歌曲。模型只需输入 10 秒音频样本和对应歌词,即可生成长达 2 分 30 秒的双通道、48kHz 音频。SongBloom 在音频质量和歌词准确性方面表现

AI中国 AI中国
151 0
AI视频 2周前

MAI-Image-1 – 微软推出的首款自研图像生成式AI模型

MAI-Image-1是什么MAI-Image-1是微软推出的首款自研图像生成式AI模型。模型以“创作者导向”为核心设计理念,擅长生成逼真的自然光照效果和复杂场景图像,如闪电、风景等。与一些更大、更慢的模型相比,MAI-Image-1能更快地处理请求并生成图像。微软在研发过程中征求了专业创意人士的反馈,以避免程式化输出。目前,MAI-Image-1正在LMArena平台上测试。MAI-Im

AI中国 AI中国
151 0
AI视频 2周前

Youtu-Embedding – 腾讯优图开源的通用文本嵌入模型

Youtu-Embedding是什么Youtu-Embedding 是腾讯优图实验室开源的面向企业级应用的通用文本表示模型。模型通过大规模语料训练和创新的微调框架,具备强大的语义理解能力,能胜任文本检索、意图理解、相似度判断等六大任务。Youtu-Embedding 避免传统模型在新领域容易出现的“负迁移”问题,支持即插即用和基于业务数据的定制化训练。模型在中文语义评测基准 CMTEB 上表现

AI中国 AI中国
67 0
AI视频 2周前

Get Jobs – 开源的AI简历投递工具,支持多平台投递

Get Jobs是什么Get Jobs是开源的自动化简历投递工具,能帮助用户高效地在多个招聘平台(如Boss直聘、猎聘、拉勾、51job、智联招聘等)上投递简历。工具通过AI技术能实现岗位匹配和个性化打招呼语生成,支持定时投递、智能过滤、黑名单管理等功能,能有效提高投递精准度和效率。Get Jobs的主要功能自动化投递简历:支持多个招聘平台,自动批量投递简历,减少手动操作。AI

AI中国 AI中国
150 0
AI视频 2周前

SAIL-VL2 – 字节抖音联合国立大学开源的视觉语言模型

SAIL-VL2是什么SAIL-VL2 是抖音团队和新加坡国立大学联合开发的开源视觉语言基础模型,专注于多模态理解和推理。由视觉编码器 SAIL-ViT、视觉-语言适配器和大语言模型组成,采用渐进式训练框架,从视觉预训练到多模态融合,最终通过 SFT-RL 混合范式提升性能。SAIL-VL2 在架构上引入了混合专家(MoE)架构,突破了传统密集型模型的限制,显著提升了效率和性能。SAIL-

AI中国 AI中国
64 0
AI视频 2周前

nanochat – Karpathy开源的低成本自建ChatGPT全栈项目

nanochat是什么nanochat是AI领域专家Andrej Karpathy发布的开源项目,以极低成本和高效流程训练小型语言模型,实现类似ChatGPT的对话功能。仅需约100美元(使用8张H100 GPU训练4小时),即可训练出能进行基础对话、创作故事/诗歌、回答简单问题的小型模型。若增加预算至1000美元(训练约41.6小时),模型性能可显著提升,能解决简单数学/代码问题并参与多项选

AI中国 AI中国
73 0
AI视频 3周前

LLaVA-OneVision-1.5 – EvolvingLMMS-Lab开源的多模态模型

LLaVA-OneVision-1.5是什么LLaVA-OneVision-1.5 是开源的多模态模型,通过高效训练和高质量数据实现高性能、低成本和强复现性。采用自研的 RICE-ViT 作为视觉编码器,结合 2D 旋转位置编码和区域感知注意力机制,支持可变输入分辨率,增强对象和 OCR 能力。语言模型基于 Qwen3,通过三阶段训练流程(语言–图像对齐、高质量知识中期预训练和视觉指令对齐)进

AI中国 AI中国
165 0
AI视频 3周前

MineContext – 字节开源的主动式上下文感知 AI 工具

MineContext是什么MineContext 是字节跳动开源的主动式上下文感知 AI 工具,通过挖掘数字生活中的“方块”,帮助用户高效管理知识和信息。每 5 秒截取一次屏幕,经过处理后,批量发送给视觉语言模型(VLM)分析,提取出人物、产品、公司档案等六种结构化上下文,主动生成日报、待办、洞察等高质量信息,非被动等待用户提问。多模态信息处理能力,未来还将支持文档、图片、视频等多种数据来源

AI中国 AI中国
147 0
AI视频 3周前

Banana AI

💡 Banana AI 是什么?Banana AI Photo Editor 是一款基于 Nano Banana 技术 的高级生成式图像编辑平台,可将文字提示(text prompt)转化为高质量、风格多样的图像。其核心是 Nano Banana 引擎 —— 一种优化的AI渲染系统,能够理解场景语境、光影关系和色彩构成,从而生成具备摄影级真实感的视觉作品。官方定义:“Turn simpl

AI中国 AI中国
125 0
AI视频 3周前

Noah AI

💡Noah AI 是什么?Noah AI 是一款专为 生命科学和医学研究领域 打造的智能AI助手平台。它的核心使命是帮助 科学家、制药专家、投资分析师和临床医生 从海量科研与医疗信息中,快速获得可行性洞察与数据分析。Noah 的智能体(AI Agent)结合了 知识图谱、自然语言理解和专业数据库检索技术,能为用户自动化完成研究查询、数据整理、竞争分析与报告生成。官方定位:“AI Ag

AI中国 AI中国
169 0
AI视频 3周前

NeuTTS Air – Neuphonic开源的语音合成模型

NeuTTS Air是什么NeuTTS Air 是 Neuphonic 开发的超拟真、可离线运行的 TTS(文本到语音)模型。具备高拟真语音合成能力,声音自然流畅,几乎能以假乱真。支持本地运行,提供 GGML 格式,兼容 CPU,可部署在手机、笔电或树莓派等设备上,无需联网即可使用。NeuTTS Air 支持即时语音克隆,仅需 3 秒音频样本就能克隆说话者的声音。采用基于 LM + Codec

AI中国 AI中国
100 0
AI视频 3周前

Paper2Video – 国立大学推出的学术论文生成演示视频项目

Paper2Video是什么Paper2Video 是新加坡国立大学 Show Lab 开发的项目,从学术论文自动生成演示视频。通过 PaperTalker 多智能体框架,将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频。框架包含幻灯片构建器、字幕构建器、光标构建器和演讲者构建器四个模块,分别负责幻灯片生成、字幕生成、光标定位和演讲者视频生成。Paper2Video 提供了首个高质

AI中国 AI中国
168 0
AI视频 3周前

KAT-Dev-72B-Exp – 快手开源的编程模型

KAT-Dev-72B-Exp是什么KAT-Dev-72B-Exp 是快手推出的开源编程专用大语言模型,参数规模达720亿。模型是 KAT-Coder 的强化学习版本,专为软件工程任务设计。在 SWE-Bench Verified 基准测试中,模型准确率高达74.6%,表现优异。通过优化注意力核和训练引擎,模型实现了高效的强化学习训练,通过调整优势分布防止探索坍塌。模型开源特性为开发者和研究人

AI中国 AI中国
206 0
AI视频 3周前

Qwen3-VL Cookbooks – 阿里推出的多模态任务开发指南

 Qwen3-VL Cookbooks是什么Qwen3-VL Cookbooks 是阿里推出的为 Qwen3-VL 模型设计的实用指南集合,帮助用户快速掌握和应用该模型的各种功能。集合涵盖多种能力的使用示例,包括物体识别、文档解析、视频理解、空间理解、多模态编码等。每个 Cookbook 都提供详细的代码示例和操作步骤,用户能通过示例快速学习如何在实际场景中使用 Qwen3-VL 模型,更好地

AI中国 AI中国
61 0
AI视频 3周前

UserLM-8b – 微软开源的用户对话模拟模型

UserLM-8b是什么UserLM-8b是微软推出的用户语言模型(User Language Model),专门用在模拟对话中的“用户”角色,不是常见的“助手”角色。UserLM-8b通过在大规模真实对话数据集(如WildChat-1M)上进行训练,能生成更接近真实用户行为的对话内容。模型能用在研究和开发更强大的助手模型,帮助评估助手在多轮对话中的表现。模型支持生成多种用户话语,包括对话的初

AI中国 AI中国
185 0
AI视频 3周前

Androidify – 谷歌开源的如何构建AI Android应用项目

Androidify是什么Androidify 是谷歌推出的一个开源项目,帮助开发者学习如何在 Android 上构建 AI 驱动的应用。项目使用了谷歌最新的技术,如 Jetpack Compose、Gemini API(通过 Firebase AI Logic SDK)、CameraX 和 Navigation 3。用户可以通过上传照片或输入文字描述来创建个性化的安卓机器人形象,并添加颜色、

AI中国 AI中国
163 0
AI视频 3周前

Jamba Reasoning 3B – AI21开源的轻量级推理模型

Jamba Reasoning 3B是什么Jamba Reasoning 3B 是 AI21 Labs 推出的轻量级高效推理模型,拥有 30 亿参数和 256K 的超长上下文处理能力。模型用混合 Transformer-Mamba 架构,结合注意力机制和状态空间模型的优势,具备高效推理、低延迟的特点。模型在多项智能基准测试中表现卓越,尤其擅长指令跟随和常识推理任务。模型支持多种语言,可部署于本

AI中国 AI中国
77 0
AI视频 3周前

Imagine v0.9 – xAI推出的视频生成模型

Imagine v0.9是什么Imagine v0.9 是 xAI 公司推出的最新视频生成模型。模型能在不到20秒内生成6秒左右的视频,支持运动控制、动态相机效果、自然对话添加等功能,且配备语音优先界面,支持用户通过语音指令能快速创建内容。模型已集成到Grok中,现已免费向所有用户开放,为内容创作带来高效便捷体验。Imagine v0.9的主要功能快速生成视频:模型能在不到20秒的时间

AI中国 AI中国
64 0
AI视频 3周前

OpenAgents – 构建AI Agent网络的开源框架

OpenAgents是什么OpenAgents 是用在构建AI Agent网络的开源框架,将Agent连接到网络实现开放式协作。框架通过创建持久化的Agent网络,让Agent能像人类一样长期在线、相互协作、共享知识,完成复杂任务。每个网络是一个社区,Agent能实时互动、共同维护知识库或讨论问题。OpenAgents 支持多种协议和框架,提供丰富的插件功能,致力于打造一个开放、可扩展的“Ag

AI中国 AI中国
179 0
AI视频 3周前

Ling-1T – 蚂蚁集团开源的大型语言模型

Ling-1T是什么Ling-1T 是蚂蚁集团开源的万亿参数语言模型,定位为“旗舰级非思考模型”。基于 MoE(Mixture of Experts)架构,拥有 1 万亿参数,每次推理激活约 510 亿参数,支持 128K 上下文长度,适合处理长文档任务。Ling-1T 专注于在有限的输出 token 下直接给出高质量的推理结果,推理效率极高。模型在编程、数学推理、知识理解、创意写作等任务中表

AI中国 AI中国
111 0
AI视频 3周前

Gemini 2.5 Computer Use – 谷歌推出的计算机使用模型

Gemini 2.5 Computer Use是什么Gemini 2.5 Computer Use 是谷歌 DeepMind 推出的基于 Gemini 2.5 的计算机使用模型。模型能让 AI 直接控制浏览器,执行点击、滚动和输入等操作。模型通过视觉理解和推理能力,帮助用户完成各种任务,例如从网页中获取信息或整理笔记。模型在基准测试中表现优异,速度也很快。开发者能通过 Google AI St

AI中国 AI中国
102 0
加载更多

推荐文章

速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
因商标纠纷遭法院禁令,OpenAI 撤下与苹果前首席设计官乔纳森・伊夫合作相关的宣传材料

因商标纠纷遭法院禁令,OpenAI 撤下与苹果前首席设计官乔纳森・伊夫合作相关的宣传材料

4月前 • AI热点
Claude 小升级就赢了OpenAI 9年“开源神作”?高强度推理直接歇菜、幻觉率高达50%,写作还被Kimi 2吊锤?

Claude 小升级就赢了OpenAI 9年“开源神作”?高强度推理直接歇菜、幻觉率高达50%,写作还被Kimi 2吊锤?

2月前 • AI热点
18个月狂揽近1亿美元融资,外科医生创立的AI公司让2百万医生用上瘾

18个月狂揽近1亿美元融资,外科医生创立的AI公司让2百万医生用上瘾

2周前 • AI热点
热潮过后 Manus 宣布全面开放注册,用户每天可免费执行一项任务

热潮过后 Manus 宣布全面开放注册,用户每天可免费执行一项任务

5月前 • AI热点
一张照片就能通过AI制作跳舞视频,只需三步实现动物与美女共舞视频

一张照片就能通过AI制作跳舞视频,只需三步实现动物与美女共舞视频

10月前 • 学习教程
今年最大机器人单笔融资刷新:银河通用机器人完成新一轮 11 亿融资,宁德时代领投

今年最大机器人单笔融资刷新:银河通用机器人完成新一轮 11 亿融资,宁德时代领投

4月前 • AI热点
LeVo – 腾讯AI实验室推出的AI唱歌模型

LeVo – 腾讯AI实验室推出的AI唱歌模型

4月前 • AI热点

热门标签

塔防 剪辑新手入门教程 Gemini vs GPT4 饿了么 苹果AI搜索 混元模型 桌游棋牌 鸣潮创作激励计划 人像写真 AI实践指南

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明