AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型
Top
AI视频 2小时前 • 66

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

InternVLA·M1是什么InternVLA·M1 是上海人工智能实验室开发的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推理与任务规划。模型采用两阶段训练策略,先通过空间感知预训练,增强空间推理与规划能力;再以隐式空间推理方式实现高效的动作后训练。仅需“空间规划提示”即可高效训练,大幅降低成本。在 SimplerEnv

AI中国
AI中国

Read more
AI视频 1周前

Engagement Photos AI

Engagement Photos AI 是什么?Engagement Photos AI 是一款专注于 订婚照与情侣人像生成 的 AI 工具。用户只需上传个人或情侣照片,选择背景和姿势,AI 即可在 20–30 秒 内生成高质量的订婚写真。它采用 AI人脸替换与智能背景合成技术,确保人物表情自然、光影协调,适合用于 订婚公告、婚礼请柬、纪念相册 等场景。Engagement Photo

AI中国 AI中国
97 0
AI视频 1周前

OneCAT – 美团联合上交大推出的统一多模态模型

OneCAT是什么OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的专家混合(MoE)结构和多尺度自回归机制,实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制,进一步增强了视觉生成能力和跨模态对

AI中国 AI中国
79 0
AI视频 1周前

剪映

剪映 是什么?**剪映(国际版称 CapCut,中国版称 JianYing)**由字节跳动开发,是一款兼具多平台支持与 AI 智能功能的视频和图像编辑工具。最初于 2019 年上线移动端,随后扩展至网页端与专业版桌面端(Windows/macOS)。剪映 应用场景社交媒体短视频创作:深度整合抖音(Douyin)平台资源,无论是日常记录、Vlog 还是创意视频,都能轻松剪辑并快速发布。

AI中国 AI中国
107 0
AI视频 1周前

InfinityHuman – 字节联合浙大推出的AI数字人视频生成模型

InfinityHuman是什么InfinityHuman 是字节跳动与浙江大学联合团队推出的商用级长时序音频驱动人物视频生成模型,开启 AI 数字人实用化新篇章。模型基于 coarse-to-fine 框架,生成低分辨率的动作表示,通过姿态引导细化器逐步生成高分辨率的长时视频。模型引入手部专属奖励机制,优化手部动作的自然性和同步性,有效解决现有方法中常见的身份漂移、画面不稳定和手部动作生硬等

AI中国 AI中国
116 0
AI视频 1周前

mobile-use – 开源的移动端AI Agents,自然语言控制手机

mobile-use是什么mobile-use是移动端AI Agents工具,支持自然语言控制Android和iOS设备,帮助用户操作手机。用户用日常语言下达指令,工具自动完成任务,如打开应用、填写表单、提取信息等。mobile-use能感知UI界面,智能导航,支持数据抽取和结构化处理。工具具有良好的可扩展性,支持配置不同的语言模型。mobile-use已在GitHub上开源,提供详细的使用指

AI中国 AI中国
142 0
AI视频 1周前

EmbeddingGemma – 谷歌开源的多语言文本嵌入模型

EmbeddingGemma是什么EmbeddingGemma是谷歌开源的多语言文本嵌入模型,专为端侧AI设计,支持在笔记本、手机等设备上部署。模型拥有3.08亿参数,基于Gemma 3架构打造,支持100多种语言,量化后内存占用不到200MB,能在EdgeTPU上15ms内生成嵌入向量。模型在海量文本嵌入基准(MTEB)上表现优异,性能接近尺寸翻倍的Qwen-Embedding-0.6B,能

AI中国 AI中国
168 0
AI视频 1周前

X-All in one

X-All in one 是什么?X-All in one 是由深圳遥声科技有限公司推出的自研型AI API平台,提供高性能、低成本的AI算力服务,特别适用于需要模型推理、高并发处理和跨区域服务的场景。平台依托三大运营商的国家级算力基础设施,具备弹性扩展与智能调度能力,支持从模型选型、优化、部署到运维的一站式服务。它采用分布式架构,自主研发核心引擎,在性能、稳定性、响应速度等方面表现突出。

AI中国 AI中国
90 0
AI视频 1周前

LongCat AI

LongCat 是什么?LongCat AI 是美团自研的大模型AI对话平台,其核心模型为最新开源的 LongCat-Flash-Chat。它基于 Mixture-of-Experts(MoE) 架构构建,总参数量高达 5600亿,但每次推理仅激活 186亿至313亿参数,平均激活约 270亿参数,显著提高了推理效率与算力利用率。LongCat已在多个国际大模型基准评测中名列前茅,表现出卓越的

AI中国 AI中国
159 0
Super Agent Party – 开源3D AI桌面伴侣,全渠道一键部署
AI视频 1周前

Super Agent Party – 开源3D AI桌面伴侣,全渠道一键部署

Super Agent Party是什么Super Agent Party 是开源的3D AI桌面伴侣软件,将桌宠、智能助手、知识库、机器人控制等多种功能集于一体。用户能通过Docker或源码快速部署到Windows、macOS、Linux等系统。Super Agent Party 支持接入微信、QQ、B站直播等平台,具备联网能力、永久记忆、代码执行和多模态交互等功能。软件能作为可爱的桌面宠物

AI中国 AI中国
107 0
AudioStory – 腾讯ARC推出的音频生成模型
AI视频 1周前

AudioStory – 腾讯ARC推出的音频生成模型

AudioStory是什么AudioStory 是腾讯 ARC 实验室发布的音频生成技术,能根据自然语言描述生成高质量的长篇叙事音频。采用分而治之策略,将复杂叙事请求拆解为有序子任务,通过解耦桥接机制,精准协调语义与音效细节。端到端训练方式,提升了模型协同作用,生成的音频具有时序逻辑与情绪层次。AudioStory的主要功能视频自动配音:用户上传无声视频并描述音效风格,AudioSt

AI中国 AI中国
194 0
Open-Fiesta – 开源的AI聊天平台,能同时运行多种模型对比
AI视频 1周前

Open-Fiesta – 开源的AI聊天平台,能同时运行多种模型对比

Open-Fiesta是什么Open-Fiesta 是开源的多模型 AI 聊天平台,基于 Next.js 14 构建。平台支持多种 AI 提供商(如 Gemini、OpenRouter 等)和多种模型,用户能同时选择 5 种模型进行对比。Open-Fiesta具备网页搜索、图片附件(仅 Gemini 支持)等功能,为用户提供简洁的用户界面和流畅的交互体验。基于配置环境变量(如 API 密钥),

AI中国 AI中国
97 0
AgentScope 1.0 – 阿里通义开源的多Agent开发框架
AI视频 1周前

AgentScope 1.0 – 阿里通义开源的多Agent开发框架

AgentScope 1.0是什么AgentScope 1.0 是阿里通义开源的多智能体开发框架,通过三层技术架构,AgentScope核心框架、AgentScope Runtime 和 AgentScope Studio,提供从开发到部署的全生命周期支持。AgentScope核心框架用模块化设计,包含消息、模型、记忆和工具四大组件,支持高效构建基于大语言模型的智能体应用。AgentScope

AI中国 AI中国
180 0
HunyuanWorld-Voyager – 腾讯推出的超长漫游世界模型
AI视频 1周前

HunyuanWorld-Voyager – 腾讯推出的超长漫游世界模型

HunyuanWorld-Voyager是什么HunyuanWorld-Voyager(简称混元Voyager)是腾讯推出的业界首个支持原生3D重建的超长漫游世界模型。是新颖的视频扩散框架,能从单张图片生成用户定义相机路径的3D点云序列,支持沿着自定义相机轨迹进行世界探索的3D一致场景视频生成,可生成对齐的深度和RGB视频,用于高效直接的3D重建。模型包含两个关键组件:世界一致视频扩散和长距离

AI中国 AI中国
69 0
USO – 字节跳动推出的内容与风格解耦与重组统一框架
AI视频 1周前

USO – 字节跳动推出的内容与风格解耦与重组统一框架

USO是什么USO(Unified Style-Subject Optimized)是字节跳动 UXO 团队推出的内容与风格解耦与重组统一框架。能将任何主题与任何风格在任何场景中自由组合,生成具有高度主体一致性、强烈风格保真度且自然、非塑料感的图像。USO 通过构建大规模三元组数据集,采用解耦学习方案同时对齐风格特征并分离内容与风格,引入风格奖励学习(SRL)来进一步提升模型性能。USO 发布

AI中国 AI中国
131 0
Prompt Tools – 开源AI提示词管理工具,支持跨平台运行
AI视频 1周前

Prompt Tools – 开源AI提示词管理工具,支持跨平台运行

Prompt Tools是什么Prompt Tools 是开源的桌面应用程序,能帮助用户高效管理 AI 提示词(Prompt)。工具支持跨平台运行(Windows、macOS、Linux),提供快速、安全的体验。用户能像管理笔记一样轻松创建、编辑、搜索和组织 Prompt,所有数据存储在本地,确保隐私安全。Prompt Tools是一个工具,更是一种高效的工作方式,能将零散的 Prompt 汇

AI中国 AI中国
178 0
编码面试解题助手 – 开源的AI编程辅助工具
AI视频 1周前

编码面试解题助手 – 开源的AI编程辅助工具

编码面试解题助手编码面试解题助手是面向中文用户的编程辅助工具,能通过快捷键抓取屏幕上的编程题目,实时借助AI生成解题思路和代码。在面试或笔试时,工具窗口能半透明置顶,不会导致原页面失焦,支持在屏幕分享时隐身,避免被发现。编码面试解题助手支持多种编程语言,如Python、JavaScript、Java、C++等,简单易用,只需配置API就能使用。编码面试解题助手的主要功能屏幕内容抓取:通

AI中国 AI中国
190 0
RealDevWorld – MetaGPT推出的AI自动化测试工具
AI视频 1周前

RealDevWorld – MetaGPT推出的AI自动化测试工具

RealDevWorld是什么RealDevWorld 是 MetaGPT 团队开发的新一代自动化测试工具。基于多智能体框架,通过模拟真实开发团队的工作流程,将需求分析、测试用例生成、代码调试到最终部署的全流程实现自动化。用户只需用自然语言描述需求,RealDevWorld 能自动生成测试用例,降低技术门槛。具备自愈测试脚本功能,能自动修复因 UI 更新失效的脚本,减少维护成本。RealDev

AI中国 AI中国
155 0
Kimi K2-0905 – 月之暗面推出的最新AI模型
AI视频 1周前

Kimi K2-0905 – 月之暗面推出的最新AI模型

Kimi K2-0905是什么Kimi K2-0905是月之暗面科技有限公司推出的AI大模型最新版本。模型在原有基础上进行增强,特别是在编程能力上,支持高达256K的上下文长度,远超之前的128K。Kimi K2-0905在创意写作、前端功能和与Claude Code的兼容性方面也有所提升,模型目前仍不具备思考或视觉能力,保留K2-0711模型的个性和风格。模型目前处于Beta测试阶段,尚未开

AI中国 AI中国
93 0
Apertus – 瑞士开源的首个大规模语言模型
AI视频 1周前

Apertus – 瑞士开源的首个大规模语言模型

Apertus是什么Apertus是瑞士EPFL、ETH Zurich和瑞士国家超级计算中心(CSCS)联合推出的瑞士首个大规模开放、多语言的大型语言模型,有70B和8B两个参数版本,用大规模语言进行训练,其中40%的数据为非英语,包括瑞士德语、罗曼什语等此前在LLM中被低估的语言。Apertus用解码器仅的Transformer架构,基于新的xIELU激活函数和AdEMAMix优化器。模型完

AI中国 AI中国
108 0
AI视频 1周前

Modor

Modor 是什么?Modor 是一款免费在线的 AI Mockup 生成器,允许用户快速创建专业产品展示图,无需设计技能。它支持从T恤、马克杯、书籍封面到移动设备等多种模板,只需上传设计,几秒钟即可生成高质量的Mockup图像。特别适合电商、品牌设计、社交媒体内容创建者使用。目前 Modor 拥有超过 10,000 个专业模板、支持 100K+ 图片下载、并且已有超 5000+ 用户 在使

AI中国 AI中国
177 0
AI视频 1周前

博简智慧专利

博简智慧专利 是什么?博简智慧专利 是一个强大的 AI 驱动的专利查新检索与撰写平台,接入全球170多个专利数据库,覆盖数据超过 2 亿条,支持语义检索与检索式检索,可实现精准专利文档分析,快速锁定相似与关联内容。它不仅让查新过程大幅提速(10 分钟完成以往需 2 天的工作),还可在3分钟内依据用户提供的创新说明,自动生成结构清晰、逻辑严谨、格式规范的交底书初稿,并智能给出优化建议、帮助拓宽

AI中国 AI中国
94 0
AI视频 1周前

TabTab AI

TabTab 是什么?TabTab 是一款 AI 驱动的全链路数据分析平台,自称为“你身边的 AI 数据分析师”。它不只是辅助你完成数据清洗、处理与可视化,而是模拟“人类分析师的思维”,自动思考、调用工具、生成可视化报告,实现从原始数据到业务洞察的全流程智能化处理。其核心定位是「Data Agent」,以 AI 编程逻辑驱动,通过类 Coding 的方式生成复杂图表与分析结论,彻底简化从数据

AI中国 AI中国
106 0
问小白o4 – 问小白推出的首个并行思考模型
AI视频 3周前

问小白o4 – 问小白推出的首个并行思考模型

问小白o4是什么问小白o4是国内首个并行思考模型,能同时启动8条思考路径,自动筛选最优解,提供精准答案。模型融合Long‑CoT强化学习与过程奖励学习,具备深度推理和高质量思考筛选能力。问小白o4在复杂任务上表现卓越,打字速度比DeepSeek R1提升70%,性能显著优于OpenAI o3-mini-medium和Claude Opus 4。模型适用学科试题、代码编程和搜索场景,能有效降低幻

AI中国 AI中国
163 0
SlowFast-LLaVA-1.5 – 苹果推出的多模态长视频理解模型
AI视频 3周前

SlowFast-LLaVA-1.5 – 苹果推出的多模态长视频理解模型

SlowFast-LLaVA-1.5什么SlowFast-LLaVA-1.5(简称SF-LLaVA-1.5)是专为长视频理解设计的高效视频大语言模型。基于双流(SlowFast)机制,平衡处理更多输入帧与减少每帧令牌数量之间的关系,能捕捉详细的空间特征,且能高效地处理长时序运动信息。模型包含从1B到7B参数规模的模型,基于简化的两阶段训练流程和高质量的公开数据集混合训练而成,模型在长视频理解任

AI中国 AI中国
156 0
FutureX – 字节联合复旦等高校推出的动态实时评估基准
AI视频 3周前

FutureX – 字节联合复旦等高校推出的动态实时评估基准

FutureX是什么FutureX是字节跳动、复旦大学、斯坦福大学和普林斯顿大学的研究团队联合发布的,专为LLM智能体未来预测任务设计的动态实时评估基准。通过半自动化管道从195个高质量网站实时收集未来事件问题,在事件解决后自动获取真实结果进行评分,有效避免了数据污染。FutureX覆盖政治、经济、金融、体育和娱乐等多个领域,包含单选、多选、开放性排名和数值预测等多种类型的问题,分为四个难度层

AI中国 AI中国
164 0
ComoRAG – 华南理工联合微信推出的认知启发式RAG框架
AI视频 3周前

ComoRAG – 华南理工联合微信推出的认知启发式RAG框架

ComoRAG是什么ComoRAG 是华南理工大学未来技术学院、微信 AI 团队等机构联合推出的认知启发式检索增强生成(RAG)框架,专门用在长篇叙事文本的理解和推理。ComoRAG能模拟人类大脑前额叶皮层的功能,基于动态记忆工作空间和迭代推理循环,将碎片化的证据整合为连贯的上下文,实现有状态的长篇叙事推理。在多个长文本叙事基准测试中,ComoRAG 显著优于传统 RAG 方法,在需要全局理解

AI中国 AI中国
105 0
Prompt Optimizer – 开源AI提示词优化工具,支持MCP协议
AI视频 3周前

Prompt Optimizer – 开源AI提示词优化工具,支持MCP协议

Prompt Optimizer是什么Prompt Optimizer 是开源的 AI 提示词优化工具,帮助用户快速编写高质量的提示词,提升 AI 输出的质量。一键优化提示词,支持多轮迭代改进,提升 AI 回复的准确度和相关性。支持系统提示词和用户提示词的优化,满足不同使用场景。支持原始提示词和优化后提示词的实时对比,直观展示优化效果。支持 OpenAI、Gemini、DeepSeek、智谱

AI中国 AI中国
117 0
Grok 2.5 – xAI正式开源的AI模型,前身是Grok 2
AI视频 3周前

Grok 2.5 – xAI正式开源的AI模型,前身是Grok 2

Grok 2.5是什么Grok 2.5 是埃隆·马斯克旗下 xAI 公司开源的人工智能模型。模型文件可在 Hugging Face 下载,包含 42 个文件,总大小约 500GB,需 8 张显存超 40GB 的 GPU 才能运行。开源采用 Grok 2 社区许可证协议,允许非商业与年收入低于 100 万美元的商业使用,禁止用于训练其他基础模型,使用时需标识 “Powered by xAI”。

AI中国 AI中国
181 0
Fun-ASR – 钉钉联合通义推出的语音识别大模型
AI视频 3周前

Fun-ASR – 钉钉联合通义推出的语音识别大模型

Fun-ASR是什么Fun-ASR 是钉钉与通义实验室语音团队联合推出的新一代语音识别大模型。经过海量音频数据训练,能精准识别互联网、科技、家装、畜牧等十多个行业的专业术语,能听懂“黑话”。例如,在保险行业,准确率较以往提升18%,在家装、畜牧等行业也实现了15%-20%的提升。模型能结合钉钉内的企业信息进行推理优化,减少幻觉问题,提供更可靠的转写结果。Fun-ASR支持企业专属模型定制训练,

AI中国 AI中国
126 0
Intern-S1-mini – 上海AI Lab开源的轻量级科学多模态推理模型
AI视频 3周前

Intern-S1-mini – 上海AI Lab开源的轻量级科学多模态推理模型

Intern-S1-mini是什么Intern-S1-mini是上海人工智能实验室推出的轻量级开源多模态推理模型。基于与 Intern-S1 相同的技术构建。模型融合 8B 密集语言模型(Qwen3)和 0.3B 视觉编码器(InternViT),在包含 2.5 万亿科学领域标记的多模态数据上进一步预训练,Intern-S1-mini 具备强大的通用能力,在解释化学结构、理解蛋白质序列和规划化

AI中国 AI中国
174 0
加载更多

推荐文章

Deepseek+头条搬砖,日进1500+,保姆级教程分享(附变现教程)~

Deepseek+头条搬砖,日进1500+,保姆级教程分享(附变现教程)~

3月前 • 视频教程
讲师课程海报制作难?AI来拯救你的设计烦恼!

讲师课程海报制作难?AI来拯救你的设计烦恼!

1月前 • AI热点
谷歌大脑之父首次坦白,茶水间闲聊引爆万亿帝国,AI自我突破触及门槛

谷歌大脑之父首次坦白,茶水间闲聊引爆万亿帝国,AI自我突破触及门槛

3周前 • AI热点
从私域知识到智能 Agent:构建智能运维知识库

从私域知识到智能 Agent:构建智能运维知识库

3周前 • AI热点
我花500块测了所有Deep Research,终于找到最强AI研究助手

我花500块测了所有Deep Research,终于找到最强AI研究助手

3月前 • 视频教程
速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
​NVIDIA AI推出Audio-SDS,革新音效生成与多任务音频处理

​NVIDIA AI推出Audio-SDS,革新音效生成与多任务音频处理

4月前 • AI热点
兼职在家ai绘图怎么变现副业做什么轻松又赚钱跟着ai风口轻松实现财富自由AI绘图制作视频教学

兼职在家ai绘图怎么变现副业做什么轻松又赚钱跟着ai风口轻松实现财富自由AI绘图制作视频教学

3月前 • 视频教程

热门标签

SundarPichai MTEB 模型评测 移除背景 AI会议助手 RAGflow DATAxAI AI聊天机器人 AI数据报告 GPT-4.1

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明