采访嘉宾|段然,拂曦科技 CEO
AI 眼镜作为融合人工智能与可穿戴技术的下一代交互终端,正经历从技术突破到产业生态重构的关键阶段。2025 年,行业呈现技术多模态化、应用场景多元化、产业链协同深化三大趋势:多模态大模型赋能实现自然交互与主动服务能力,成熟供应链和市场新需求双轮驱动场景落地。
但硬件重量、续航等性能瓶颈,以及对多模态模型的端云协同计算、主动感知下的数据处理等核心问题仍待解决。未来,随着端云协同计算、AI 存算一体芯片和底层系统生态体系的成熟,AI 眼镜将向泛智能终端演进,成为 PC、手机之后另一个可能突破十亿用户的消费产品。
而在国内 AI 眼镜市场,一位 90 后技术人创办的企业——拂曦科技正在被越来越多人熟知。
作为拂曦科技创始人,段然是一位资深 XR 与 AI 行业从业者,连续创业者,曾带领团队开发过多款年收入过千万的相关产品,累计获得数家战投、风投的投资。目前所创办的拂曦科技,目前是 AI 眼镜领域的头部供应商,已服务多家上市公司客户,并积极布局与 Meta、华为的合作推动 AI 眼镜行业进一步发展。回顾段然的创业历程,每一步都与技术变革紧密相连。
最初在人工智能与文旅行业的结合中,他尝到了技术赋能传统行业的甜头,在云计算与智慧城市领域,他更是凭借出色的成绩获科技部直属平台高度认可。但挑战也随即而来——疫情的冲击让他意识到行业的不确定性,也让他更加坚定地寻找更具潜力的赛道。当 AI 技术与 AI 眼镜的融合逐渐展现出巨大可能性时,段然果断带领团队涉足扩展现实领域,完成融资、服务众多知名大客户,在一次次实践中积累经验,最终选择向消费端市场发力,打造属于自己的 AI 眼镜品牌。
本次AICon深圳大会前夕,我们采访到了段然,听他分享了在 AI 眼镜领域创业经历、感悟和技术实践。他将在 8 月 22 日-8 月 23 日 AICon 深圳站发表主题为《AI眼镜在线下社交场景中的多模态智能感知与主动交互》的演讲。
以下为访谈实录:
两次创业经历都与 AI 相关
InfoQ:我看到您的简历中提到,您是一位连续创业者,方便聊一聊您过去的一些创业经历吗?曾带领团队开发过多款年收入过千万的产品,是指现在做的拂曦 XR 眼镜产品吗?
段然:我此前有过两次创业经历。最初是从事人工智能与文旅行业的结合,当时市场环境较好,产品收入可观。但后来因疫情冲击,文旅行业整体受挫,我便转向云计算与智慧城市领域。在这一领域,我们取得了不错的成绩,还获得了科技部直属平台在该领域的第一名。然而,后续因一些原因,我开始涉足扩展现实(XR)领域,即虚拟现实(VR)与增强现实(AR)眼镜。在此领域,我们完成了一轮融资,并服务了众多知名大客户,例如麦肯锡、字节、歌尔以及深圳市科技馆等,打造了一系列地标性项目。起初,我们主要面向企业端(B 端)客户,但随着业务发展,我们意识到需要打造自己的品牌,于是转向消费端(C 端)市场,选择以 AI 眼镜作为主要赛道。
InfoQ:从您的介绍来看,您最初是面向 B 端客户,现在则转向 C 端市场,对吗?
段然:是的。在国内,B 端市场竞争激烈,且发展空间有限。趁着年轻,我们希望能做一些更具前景的事情。
InfoQ:那您在做 B 端业务时,也是从事与 AI 眼镜相关的工作吗?
段然:我们当时主要提供的是与 AI 眼镜相关的服务。
InfoQ:在 B 端市场中,AI 眼镜是如何被应用的?比如 AI 眼镜在具体场景中是如何发挥作用的?
段然:以我们服务麦肯锡的一个案例为例,我们曾为一家世界 500 强保险公司提供服务。当时,这家保险公司在香港举办金融科技展会,计划推出新的健康险产品。传统上,保险公司会通过销售人员向客户介绍保险产品的优势,但这次我们借助 AI 眼镜技术,将该保险公司的一位著名球星代言人“植入”到应用内容中。我们通过技术手段精准复刻了这位球星的姿态、动作和行为逻辑。当摩根大通、高盛、渣打银行等金融机构的高管们戴上眼镜后,他们可以在球星的引导下,体验健康险所包含的基础福利和 VIP 特权等。同时,我们还通过引导用户进行舒缓肩颈的动作或冥想等方式,让用户感受健康带来的好处。这种体验方式比传统的保险政策解读更具可视化效果和参与感,用户也更愿意购买。这是一次金融科技领域的 AI 创新应用。
押注 AI 眼镜,是踩在了风口上
InfoQ:您最初是如何关注到 AI 眼镜这一赛道的?是哪些技术突破或市场空白让您决定投身其中,甚至可能走上创业道路的?
段然:坦诚地说,大家都希望赶上风口,借助趋势的力量来获得更多资源和机会。我们分析了多个领域,比如具身智能和大模型基座,但我们既没有相关经验,也没有足够的实力去涉足。然而,在眼镜领域,我们有近四年的优质案例积累,团队成员也大多来自大数据研究院或实验室,对大模型的微调和训练有一定的基础。同时,AI 眼镜赛道当下很火,且未来前景广阔。从市场层面来看,AI 眼镜或 VR/AI 眼镜被称为下一代可穿戴移动计算平台,从传统电脑到手机,再到眼镜终端,这一逻辑具有很大的想象空间。无论是 Meta 的改名,还是 Robin 眼镜的爆发,亦或是小米投身 AI 眼镜市场,各大厂的逻辑都是一致的,只是市场爆发点尚未明确。从技术突破来看,目前主要得益于大模型底层能力的突破。
InfoQ:创业中遇到的最大挑战是什么?比如技术攻坚、供应链磨合或市场教育等方面,您是如何克服的?
段然:我觉得最大的挑战在于硬件与软件的结合。硬件本身就很复杂,再加上软件,复杂度会呈倍数增长。以 AI 眼镜为例,仅音频眼镜就涉及麦克风、喇叭、镜框、电路板布局设计等诸多因素。喇叭有圆形、方形之分,麦克风有高中低端之别,音频芯片也有多种选择。如何选择最适合自身产品体验的方案,这是一个非常复杂的问题。
在产品设计上,我们面临交互方式和外形设计的抉择。比如,用户何时需要调用 AI 模型,以及如何调用,眼镜的外形是更贴合日常佩戴的眼镜以突出隐蔽性,还是像小米一样采用电质变色、电镀层等设计以凸显科技时尚感,这些问题都没有成熟的答案。此外,与手机市场不同,眼镜市场尚未成熟,缺乏清晰的发展方向。比如,Robin 眼镜的出货量有限,且主要面向欧美市场,中国玩家如何针对中国客户或国外客户进行独特设计,并实现千万台的销售目标,这也是一个核心问题。不过,国内成熟的供应链为我们提供了便利,深圳及其周边地区有许多相关展会和工厂,这为我们提供了优势。
在技术攻坚方面,主要挑战在于如何对大模型进行微调训练,构建推理引擎,实现快速流式推理,让用户在需要时能够快速获得答案。同时,由于人类阅读速度远高于听力速度,如何在短时间内为用户提供有用信息也是一个难题。我们采用混合专家模型(MOE),结合多种模型,如 GPT-5、Claude、国内的 MiniMax 等,以提供更好的用户体验。在市场教育方面,我们主要通过视频拍摄和流量平台进行宣传。由于产品小众,大多数用户没有体验过,因此我们需要通过场景演绎来打开用户认知市场。例如,我们的一款恋爱眼镜可以作为用户的实时个人助手,在约会场景中提供实时提醒。通过视频展示这种场景中的“作弊”能力,我们可以更好地进行市场教育。
锚定社交场景,一亮相就被抢空
InfoQ:您这款产品目前主要锚定的是社交领域,尤其是恋爱场景,对吗?
段然:是的,我们的产品主要面向社交领域,第一款产品是针对年轻男性设计的恋爱眼镜,帮助他们提升社交能力。我们计划通过小红书等平台进行推广,引发争议,从而快速完成前期的市场教育。
InfoQ:这款产品听起来很有趣,我们也很期待。那它现在已经可以使用了吗?
段然:我们的原型机已经完成,并在 7 月底的华为 HDC 开发者大会上进行了展示,受到了与会者的欢迎。甚至有来自中东、北非和亚太地区的海外客户购买了我们全部的展示样品。
InfoQ:当时为什么会设定这样一个场景呢?把第一款产品作为主打产品推向市场,您是怎么考虑的?
段然:这主要是从个人经历出发。我是一名大龄单身男程序员,这本身就是一个有趣的卖点——单身但尚未秃头的男程序员,而且实验室里有 18 位罗汉,我这个月参加了好朋友的婚礼,他从本科开始恋爱,一直到博士毕业才结婚。这让我想到,很多男生因为是独生子女,更倾向于打游戏、和同性朋友相处,而不是主动去了解情感类知识。
他们遇到情感问题时,通常不是去和朋友讨论“我哪里做错了”,而是和好哥们一起吃烧烤、喝啤酒、大哭一场,然后下个月就忘了。尽管如此,大多数男生还是渴望找到伴侣,只是他们不知道如何去做。相比之下,女生在这方面的知识更丰富,因为她们会讨论、会聊天。那我们如何帮助男生更好地在感情关系中快速推进,赢得心仪女生的青睐呢?这需要技巧。我采访过一些“海王”朋友后,总结了一些经验。另一方面,我也不想花时间去上情感课,但如果能通过一款产品把这些知识变成“外挂”,帮助用户在现实生活中加分,那就方便多了。我希望能在十分钟内让用户获得相当于一个月情感课程的能力,而且价格还低很多。
InfoQ:那这些数据是从哪里来的呢?比如在相亲过程中,那些话题的答案是怎么来的?这些数据是如何提供给眼镜的?
段然:第一,我们通过一些公开授权的数据集对模型进行强化学习,而不是简单地用固定的答案去映射问题。比如“你是否喜欢猫”,虽然 60%的女生可能喜欢猫,但还有 30%不喜欢,剩下 10%可能不确定。我们不能用一个简单的问题和答案来解决,而是通过强化学习让模型知道在某个场景下哪些答案是合适的。第二,我们通过规则来约束。这些规则不是传统工程师的规则,而是结合强化学习和深度学习的方式。比如,当女生说“不知道吃什么”时,你不要直接给她一个答案,而是结合她之前的照片或经历(比如她曾在日料店拍照或去过泰国旅游),给她提供几种选择,比如日料、泰餐或韩餐。这样她会觉得你很贴心,至少有一个选项是她喜欢的,而不是让她自己去美团上看。还有,如果女生说东西不好吃,但其实是她带你去吃的,你不能附和说不好吃,而应该说“其实还挺好吃的”。这些都需要我们结合模型训练和工程化方法来实现。
InfoQ:我觉得让大模型挺考验大模型的能力听起来挺有意思的。
段然:是的,情感大模型确实很复杂。我们在国内做得还算不错,但真正应用到场景中,还需要和早期种子用户不断实验、试错。
InfoQ:情感大模型确实很难,因为它涉及很多主观因素,如果不根据场景,答案可能会出错。现在实际应用起来效果怎样?
段然:对,当女生说“今晚要吃减肥餐”时,她可能并不是真的想吃减肥餐,而是希望你能陪她一起吃,并在吃的时候给她一些情绪支持,甚至帮她找一些好吃的减肥餐。这就需要对语义进行精细化处理。我们需要有足够的案例,通过互联网上的样本量来给用户画像,再根据用户背景和实时聊天内容进行场景分析。虽然目前还有一些误差,但我们已经比普通男性用户的回答好 30%到 50%了。我们的产品英文名叫 EYELONE,意思是“孤单的眼睛”,我们希望通过它帮助每一个男生,无论是程序员、工程师还是外卖小哥,都能拥有“海王”的能力,同时保持一颗真诚的心。
InfoQ:很多人认为 AI 眼镜仍处于“概念大于落地”的阶段,您坚持深耕的初心是什么?希望通过技术或产品解决哪些实际问题?
段然:根据我们参与的华为 AI 硬件调研报告,内部数据显示,到 2030 年,AI 眼镜的销量将达到 9600 万台,甚至过亿。2025 年到 2030 年是快速增长的爆发期,我认为 2027 年会是一个关键节点,届时销量有望达到千万台甚至 3000 万台的量级。
InfoQ:您的资料中提到 AI 眼镜行业正进入“百团大战”趋势,能否具体分析当前市场上的主要玩家(如 Meta、国内厂商等)的竞争焦点?不同玩家的技术路线或产品定位有哪些差异?
段然:这个问题比较复杂,因为各家都在定义自己的市场方向。以 Meta 的 Robin 眼镜为例,它主打 AI 与时尚的结合,最初以拍摄 Vlog 为核心功能,加上品牌效应,让用户成为随时随地的个人创作者,后续再加入 AI 问答功能。国内的 Rokid 则主打 AR 显示功能,通过单光机衍射波导方案,以提供 AI 提示、AI 翻译、AI 会议等功能。还有 Even Realities 等品牌,主要针对 CEO 或商务人士,提供会议和显示场景的轻量化解决方案。雷鸟、界环等品牌也在不同垂直领域深耕。但总体来看,目前市场上的产品主要集中在 AI 会议、AI 显示、AI 翻译、健康运动和拍摄等场景,尚未深入到用户的实际生活场景中。
AI 眼镜核心竞争力在于场景
InfoQ:对比 PC、手机端大模型应用的爆发,AI 眼镜侧的 AI 应用为何迟迟未形成规模?突破点可能出现在技术、场景还是生态层面?
段然:目前 AI 眼镜的销量还不够多。手机的销量是几亿台甚至十几亿台,而 AI 眼镜的总销量才三五百万台。没有基本盘,就谈不上独立自主性 VR 眼镜的出货量稍多一些,但也只有两三百万台。我认为突破点一定在场景方面。技术再进步,生态再完善,如果没有使用场景,一切都是空谈。我们常说“场景定义算法”或“场景定义技术”。以 AI 或大模型为例,早期的 AI 四小龙(商汤、旷视、依图、云从)主要面向 B 端和定制化需求,而 OpenAI 通过大模型开启了整个生态。国内 AI 发展虽然在技术上可能有差距,但并不算晚。关键还是要找到结合技术与场景的突破点,形成真正的市场需求。
InfoQ:您认为未来三年可能出现“爆款 AI 眼镜侧 AI 应用”吗,基于您的观察,这类应用可能诞生在哪些场景?文旅、教育还是其他领域?其核心竞争力会体现在哪里?
段然:我认为核心竞争力在于场景。可能的爆款场景包括社交恋爱领域,以及教育领域。文旅领域可能不太适合,因为用户群体过于泛化。教育场景可能是一个很好的方向,特别是针对 15 岁以下的孩子,AI 眼镜可以作为一种家长放心的设备,帮助孩子培养 AI 使用能力。医疗健康领域也有潜力,比如 AI 能否成为随身的家庭健康医生。核心竞争力在于 AI 眼镜与手机相比的优势:在手机不方便出现的场景中,AI 眼镜更具便携性和隐蔽性。比如在社交对话中,使用手机拍摄或录像是不合理的,但眼镜则非常合适。再比如会议场景,翻译眼镜的概念也很有前景。
InfoQ:您在资料中还提到,前国内 AI 眼镜相关岗位较少,但您判断“会的人更少”,这种供需关系背后反映出行业处于什么发展阶段?未来一年市场需求可能会有哪些具体变化?
段然:目前 AI 眼镜市场处于非常初级的阶段。虽然有“百镜大战”的说法,但真正掌握核心技术的厂商很少。镜腿部分的音频芯片市场主要被杰理和蓝讯占据,拍摄功能则主要有高通、恒玄等几家厂商。背后真正提供技术能力的厂商只有六七家,200 家代工厂的背后只有少数几家真正的出货商。随着 AI 模型能力的提升和出货量的增加,未来对嵌入式硬件开发、云边端计算架构、软件后端系统架构以及大模型训练等岗位的需求会急剧上升。
目前掌握这些技能的人才较少,可能会出现供不应求的局面。就像现在 AI、深度学习或强化学习领域的学生,毕业年薪最低三四十万,高的可达七八十万,面临人才短缺的困境。未来一到两年,市场对这些岗位的需求会急剧上升,而行业出货量可能会增长 200%到 300%。
InfoQ:从硬件架构来看,AI 眼镜的光学现实模组需要实现“增强现实叠加+物理环境深度理解”,这种深度理解具体依赖哪些技术?比如 SLAM 算法优化、多传感器融合还是特定硬件模组的加持?
段然:关于光学显示模组的具体依赖问题,我可能不太了解硬件方面,但从深度理解的角度来看,主要有两个方面。一方面是空间锚点相关的内容,即对物理环境的深度理解。这包括两个层面:一是深度层次,比如 AI 眼镜可以感知一张桌子离你大概十厘米还是二十厘米,一把椅子离你是一米还是两米。过去,这通常是通过深度相机(两个摄像头拍摄图像)来实现空间位置定位的。现在,单目摄像头也可以通过单目 SLAM 技术来实现深度理解。另一方面是对物体的语义理解,这主要依赖算法优化和传感器融合,而不需要特定的硬件模组,因为现在大多是基于摄像头和图像处理来实现的。
InfoQ:您提到芯片与交互设备是硬件组成的关键部分,当前 AI 眼镜在芯片选型上更倾向于专用 XR 芯片还是通用计算芯片?端侧算力与功耗的平衡是如何实现的?
段然:在芯片与交互设备方面,比如 XR 芯片、AI 眼镜的芯片选型,需要根据具体功能来选择。如果是音频功能,可能会用到蓝讯或杰理的芯片;如果是拍摄功能,可能会用到恒玄的芯片;如果是高端 AR 功能,可能会用到高通的 AR 芯片,比如 Rokid 所采用的型号。目前还没有特别针对 AI 眼镜的专用芯片,大多是传统计算芯片或通信芯片的组合,因为产品量还不够大,还没有达到芯片厂商愿意为此单独开发芯片的程度。AI 眼镜在端侧计算能力有限,基本上是将收集到的信息传到手机或云端进行处理,主要依靠云端算力。至于散热问题,如果在眼镜上进行大量计算,散热是个大问题,甚至可能会烫伤脸部。因此,有些产品会采用外置计算盒子来处理,类似于移动计算终端,或者将计算放在云端或手机端进行。
InfoQ:多模态能力是 AI 眼镜的核心竞争力,在您的实践中,摄像头捕捉的第一视角图像、音频信号与物理环境数据是如何实现实时融合处理的?是否面临数据延迟或精度不足的问题?
段然:这其实是混合现实(MR)的概念。多模态在 AI 眼镜上的应用是指对多种模态信息(如文字、图像、音频)的综合理解。例如,我们和华为讨论过一个案例:如果用户在戴眼镜时不小心把钥匙落在家里,眼镜可以收集相关数据。半个月后,用户问眼镜钥匙在哪里,眼镜可以通过图像识别和语音识别,结合跨模态检索技术,告诉用户钥匙在卧室的抽屉里。这个过程是在云端进行的,涉及数据库存储和跨模态检索。
如果谈到实时融合,比如在混合现实中将虚拟物体放置在现实环境中(如《精灵宝可梦 GO》中的小精灵藏在床底下),这就比较复杂了。这需要摄像头捕捉图像信息,然后通过虚拟图像检索和处理,在计算机中构建虚拟环境,并通过空间锚点定位将虚拟物体放置在现实环境中。这种混合现实的延迟大概在几百毫秒,精度方面可能会有不足。例如,Vision Pro 的误差大概在几厘米,而 PICO 和 Meta 的误差可能在十几厘米左右。
InfoQ:在我们的产品实际应用中,这样的延迟是否会对交流产生影响?还是可以忽略不计?
段然:我们将蓝牙通信的延迟降低到了 50 毫秒以内,主要的延迟在于 AI 模型的推理。我们通过流式输出的方式调用模型的消息函数,可以在一秒钟内给出回复。在现实生活中交流时,停顿一两秒钟其实是相对无感的。我们针对的场景不是游戏场景,因为游戏场景对延迟的要求非常高。如果延迟达到 200 毫秒,游戏体验就会很差,画面会卡顿,操作也会不流畅。但在日常交流中,这种延迟是可以接受的。
InfoQ:那关于数据集的问题,您之前提到过第一视角行为数据集的采集、标注和训练流程。对于 AI 眼镜来说,数据集是不是一个很重要的组件?
段然:坦诚地说,行为数据集主要是针对具身智能的研究,但目前具身智能领域资金有限,这类数据集对 AI 眼镜的帮助并不大。数据集对于 AI 眼镜来说,更多是一个附加的增值点,而不是核心组件。
未来趋势
InfoQ:对于想进入该领域的技术人(比如学生或从业者),您建议他们优先掌握哪些技术栈?从“一年后找工作”的角度,除了硬件知识,是否需要深耕多模态大模型或具身智能算法?
段然:我觉得没有必要主攻所有方面。如果你懂嵌入式硬件开发,并且在 AI 硬件公司实习过三个月,那你在这个行业里就已经比较吃香了。或者如果你擅长模型训练,掌握一些基础的提示词工程,甚至进行一些模型训练或微调,那就足够了。多模态和具身智能并不是必须掌握的。因为岗位会分得很细,比如硬件开发、前后端开发、模型训练等。如果你真的想深入这个行业,那需要成为一个非常综合性的全栈工程师,既懂硬件开发,又懂产品设计,还懂模型训练,这样的人才非常少。对于新入行的人来说,只要掌握一部分能力就足够了。
InfoQ:回顾在 AI 眼镜领域的深耕经历,有哪些技术突破或产品落地瞬间让您觉得“一切投入都值得”?这些经历给您带来了哪些关于技术创新与行业发展的感悟?
段然:我可以做一个开放式的回答。当我们的产品卖到 500 万台的时候,我再来回答这个问题。目前还没有一款 AI 眼镜的销量达到 500 万台。如果非要我推测的话,关键在于解决用户的真正痛点:要么帮用户赚钱,要么提供情绪价值。简单来说,就是经济利益和情感需求。这是用户最底层的需求逻辑。如果你能帮助用户解决这些问题,他们就愿意买单。