近日,影眸科技宣布完成新一轮数亿元人民币融资,由凯辉基金、上海国投先导领投,老股东持续跟投。在此之前,字节跳动、红杉中国、蓝驰创投已相继押注这家公司。三轮大额融资在不到两年内接连落地,构成了国内AI 3D赛道最密集的资本投注之一。

目前影眸的核心产品是Hyper3D 。基于其自研的原生3D大模型Rodin,用户输入一张图片或一句文字描述,就能输出可在真实生产流程中直接使用的3D资产,能直接用于游戏、3D打印、工业设计等生产流程。

在Hyper3D官网即可使用完整的3D生成功能

伴随这轮融资,影眸同步发布了最新一代模型Hyper3D Rodin Gen-2.5。这是全球首个千万面级3D生成模型,能从极速草稿到千万面级的精细模型,按需切换模型的思考深度,最快4秒生成百万面级模型,其同时推出的原生3D贴图模型最高支持12K精度。

经过数年的积累与迭代,如今的Hyper3D Rodin已经具备自然语言编辑、自动分件、多维度可控生成等业内独家能力,用户可以对模型局部修改、拆分部件、用边界框、体素和点云控制生成形状。经过这一套严格控制后,传统AI 3D生成中最大的问题——反复“抽卡”,可以得到尽可能的改善。

在大众视野中,影眸科技无疑是低调的。虽然AI+3D生成很容易和“世界模型”这样的宏大叙事联系在一起,影眸却极少为自己吆喝。

但在另一个维度上,影眸的名字却频繁出现在全球技术舞台上:今年二月,英伟达官方披露的黄仁勋CES Keynote制作工作流程中,3D资产生成环节采用了影眸的Hyper3D Rodin,整个工作流里其余合作方是DeepMind和OpenAI等巨头,影眸是其中唯一的初创企业。3月GDC上,Unity发布的AI Beta功能,调用的3D生成算法也来自影眸。

事实上,行业里现在主流的技术路线“原生3D生成”,最早就是影眸用CLAY框架定义的。Hyper3D是唯一同时接入好莱坞老牌影视渲染技术器OC和游戏引擎Unity,并对Blender、Unreal、Unity、Godot、C4D、Maya等全品类主流 3D 创作工具原生支持最齐全的3D 生成产品。在3D打印硬件领域,影眸则是拓竹最早的合作伙伴之一。

据悉,目前影眸有约80%的收入来自海外。最新模型上线后,数据又迎来一波激增,首月订阅用户与ARR的环比增速均扩大400%。影眸在3D生成领域走的和Anthropic几乎是同一条路——在企业级市场建立技术信誉和深度绑定。Hyper3D的客户列表里有字节跳动、Unity、Figma、Canva、全球第二大家居建材零售商Lowe’s等,覆盖游戏、工业设计、电商、具身智能、空间计算等多个领域。

据公司数据披露,其B端客户数量和收入超过同赛道其他公司的总和。

全球第二大家具建材零售巨头Lowe's,与影眸合作落地超30000个SKU的3D资产目录搭建,单个模型成本控制在1美元以内

1

如果只看最终呈现的效果,很容易忽略影眸在技术路线选择上经历过的赌注。

2023年到2024年初,AI 3D生成行业的主流路径是“2D升3D”——先用图像生成模型合成多视角照片,再通过几何重建还原为3D模型。这条路线有个显而易见的优势:可以直接借用当时已经非常成熟的2D图像生成技术。当时的OpenAI和英伟达都在走这条路。

2D升3D的效果图

但影眸的团队从自身先前做3D扫描和数字人的经验中,看到了这条路线的天花板。根据吴迪的判断,2D升3D的上限非常低,因为2D升维的过程中存在不可逆的信息丢失,生成的模型容易出现破面、拓扑混乱等问题——对于追求实际可用的专业用户来说,这些都是致命缺陷。

但在3年前,倘若要选择原生3D路线,就意味着要面对一个非常现实的困境——3D训练数据极度稀缺。当时整个行业对3D生成最大的不确定性就在这里——图像和文本大模型都是千万量级数据打底,而可用的三维数据只有80万,清洗后则只剩50万左右。彼时的国外AI巨头未必不能看到2D升3D的局限性,但客观上的素材缺失,是他们布局这条路线的最大障碍。

影眸决定向这个困难发起挑战。

2024年,影眸发布了一篇题为《CLAY:用于创建高质量3D资产的可控大规模生成模型》的学术论文,投稿于计算机图形学顶级会议SIGGRAPH 2024,当年获得了最佳论文提名,何恺明教授在MIT的深度生成模型课上也将它列为推荐阅读。

CLAY是影眸提出并命名的原生3D生成框架,也是全球第一个产品化的3D原生大模型架构。基于CLAY框架,影眸在2024年中发布了Hyper3D Rodin Gen-1——全球首个原生3D生成大模型产品。

影眸科技CTO张启煊回忆道:“我们做CLAY时,主要就是想证明用这个量级的数据也能训出可用的3D大模型,而且原生3D的效果,的确比从2D升维训练的模型好一个量级。”

用户在Hyper3D官网生成的模型

影眸拿到融资后,也很快扩充了训练素材量。一方面走商业采购,因为很多高质量的专业三维资产库是非开放的,“有了资金可以直接采购授权”。另一方面是与专业建模工作室合作,引入高质量模型产出。

路径一旦被验证,行业主流也随即跟进,多家公司从2D升维集体转向原生3D。有意思的是,之前3D训练素材不足的问题也在此时被迎刃而解——由于涌现出大量的资源采购需求,流通到市面上的高质量3D资产也随之增多,手握3D资产的专业工作室也开始寻求与AI训练公司合作。当生成质量提升后,更多创作者和工作室愿意进入这个循环,造成的结果就是,市面上优质3D素材的总量在过去两年出现了显著增长。

如果你留意过行业相关资讯,会发现现在3D生成主要公司都是中国团队。这其中很大一部分原因是,最早提出3D原生框架的是一个国人团队。

2

在影眸的产品哲学里,有一个很早确立的原则,它贯穿了从CLAY到Rodin Gen-2.5的所有版本:可控性优先于观赏性。

这种务实的风格源于团队早年“吃过亏”的心得。2020年他们的第一款产品其实充满学术气息。当时吴迪和张启煊还在大学,创业的第一个项目名叫“穹顶光场”,是亚洲唯一的亚微米级面部扫描系统。这个巨大的球形扫描仪能在0.1秒内向扫描对象投射二三十种不同的光照模式,采集到远超传统方式的超细腻皮肤细节,同时还能把人脸扫描的生产周期从传统的3到5个月缩短到3到5天。至今仍有3A游戏和影视公司在使用这套方案。

但穹顶光场第一代推出的时候,数据格式和影视行业并不能互通,导致根本没人买单。团队花了近一年才把数据对齐到行业的生产管线。

复盘这段经历时,吴迪说,“创业初期,学术圈的人容易有个惯性:觉得自己的技术、论文很厉害,为什么市场不用?但其实,实验室研发出来的东西和真正能被使用的东西之间,存在巨大的鸿沟。”

这段经历让他们形成了“一个根植于团队的理念”:做的东西必须能直接让用户使用。

尤其是,3D生成看似技术原理一样,实则需求千变万化。游戏往往需要低面数和好的拓扑结构,3D打印需要超高精度和水密性,工业设计需要倒角清晰、硬表面光滑,电商则需要快速、低成本地生成大量SKU,这些需求完全不在同一个坐标系里。

为了满足大相径庭的行业需求,Rodin Gen-2.5首次引入类大语言模型的“先思考、再生成”运行逻辑,提供五档可调的思考深度(Thinking Effort),生成耗时在4秒至80秒之间可控。此外,,影眸还打造了一整套业内独有的功能来增强生成过程中的可控性。根据张启煊列举:3D ControlNet可以控制生成结果的比例和形状;3D编辑功能支持用自然语言直接局部修改模型;递归分件技术BANG可以将模型自动拆分为不同部件,拆完还能继续拆。

甚至,他们的整个平台是开放的,支持导入任意第三方平台生成的模型进行二次编辑。

被问到为何Hyper3D能在可控性上领先行业时,张启煊认为结构性的原因在于:“可控性的关键,在于要在模型预训练阶段就把相关设计放进去。如果一个模型已经预训练完成,再回头加可控能力会比较难,往往要等到下一代重新训练时才能补上。我们因为长期对3D生成、专业领域的理解,从CLAY开始就把可控作为核心目标之一,所以这部分是和模型底层一起‘长’出来的,不是后期外挂的。”

这种对可控性的执着还延伸到了商业模式上。Hyper3D采用了“按交付收费”的思路——在用户满意之前,模型可以免费重新生成和局部编辑,只有最终成品下载才需要付费。

这种方案摒弃了行业普遍存在的“抽卡”商业化逻辑——现今有很多AI生成平台“管生不管养”,每一次生成都消耗积分或费用,用户为了得到满意的结果不得不反复付费尝试。但在Rodin Gen-2.5的使用上,除了生成精度最高的两档模式,其余都只到了下载环节才收费。也就是说,交付才产生价值,“抽卡”的过程则不算。从这个商业模型上也能看出影眸对其3D生成可控性的自信。

3

有人问影眸的研发方法论是什么,是在沙漠里找绿洲,靠的是运气吗?

张启煊的回答是:“我们在沙漠里观天象,然后找方向,更严谨一些。“

创业六年来,这种方向有过数次巨大的转折,最终带他们来到了绿洲。

吴迪和张启煊的创业故事,起初像是“年轻人才风口创业”的模板故事,高智商,有才华,能调动资源,也能抓住机遇。吴迪在本科就主导搭建了上科大的MARS实验室,在那里与一批研究计算机视觉和图形学的同学,一起搞出了前文提到的穹顶光场,还得到过央视的多次报道。

在学校里,他们与同校的张龙文、曾初啸一起,创立了影眸科技,接着马上做出了一个爆款应用,名叫WAND。你可能还对这个前几年短暂流行的AI二次元画板有印象,用户用粗糙的简笔画就能生成一张像那么回事的二次元少女。

虽然如今看来,这种AI生成的图像只能算得上半成品,在当时却相当时髦。WAND立刻登上了中日两国App Store图形与设计分区的榜首,两周获取了160多万注册用户,流量过亿。但团队却决定放弃这个产品,因为它背后的技术是GAN(生成对抗网络),在当时虽然是最主流的方案,却有着无法突破的瓶颈和硬伤。在不远的将来,GAN很快便会被Diffusion(扩散模型)所取代。

面对手头的爆款项目,吴迪和张启煊一来想不到合适的商业模型(据称一共赚了6000块钱),二来觉得GAN不是未来的技术方向。拿到第一波融资后,他们没有踌躇太久,果断选择砍掉这个爆款项目。

再后来,元宇宙浪潮来了。

2023年6月,影眸发布了3D角色生成器ChatAvatar,第一次将Diffusion应用到3D生成领域。但元宇宙的退潮比来时更快,光盯着数字人赛道,路会越走越窄。

到了2023年下半年,影眸迎来了最危险的时刻,当时国内AI工业的基本盘还尚不明朗,DeepSeek还得半年之后才能横空出世,公司账上的现金流也一度紧张。

当时显而易见的活路是继续做穹顶光场的服务,这个业务每年能带来可观收入,能让团队活下去。但团队做出了另一个选择:把几乎所有筹码押在训练一个当时没人做出来过的原生3D模型上。

2023年底,影眸的内部Demo跑通。基于CLAY框架的全球首个原生3D大模型,在效果上实现了代差级的领先。

后来的故事,你已经知道了。

4

自2020年成立以来,影眸的团队在顶级学术会议和期刊上发表了30余篇论文,其中70%的科研成果走向了产品落地。根据影眸的内部统计,他们的算法团队每2人中就有1人获得或提名过最佳论文。

在计算机图形学最顶尖的会议SIGGRAPH上,影眸一共拿了3次最佳论文及提名,其中一篇获得了最佳论文——2025年获奖的CAST(基于单张RGB图像的组件对齐式3D场景重建),同期获得最佳论文的商业公司仅有谷歌、Meta和影眸三家。

这些论文并非孤立的学术成果,而是与产品功能深度绑定。CLAY奠定了原生3D生成的底层框架;CAST为场景级生成铺路,理解的是物品与物品之间的力学关系、位置关系和使用语义;BANG解决了分件问题,让AI生成的模型从"一坨糊"变成可编辑的结构化部件。

张启煊描述了这套研究的内在逻辑:“完成了物体生成后,我们往两个方向延伸:一个是往内部走,理解物品部件与部件之间的关系,衍生出了分件模型;一个是往外延,物品与物品之间的关系该如何定义,衍生出了CAST。”

在实际的商业模式中,用到单一3D模型的场景很少,不管是游戏还是室内设计,本质上都是场景级的。而场景生成的智能程度要远超物品级、部件级的生产,因为它需要理解物品与物品之间的力学关系、位置关系、使用语义关系。这是 CAST 的核心。CAST 通过单目深度估计,结合领先的语言模型,来完成场景重建。

而一旦影眸搭建好这个全面的框架,对虚拟场景体验、游戏概念设计,以及具身智能的仿真环境训练都会有很大帮助。

与之对应的是影眸在训练效率上的优势。张启煊透露:“由于团队对底层算法架构理解比较深,我们的生成和推理效率远高于行业平均水平”

让人意外的是,身处日新月异的AI行业,影眸的人员流动却极少。目前整个公司约有60人,“成立到现在,流出去的人有3个,且都主要负责数字人相关业务线,分别去了英伟达、迪士尼(研发部门)和腾讯。”谈起这一点,两位年轻的创始人都有些自豪。

“公司6年了,核心算法大部分不是挖来的,从一开始都是本科生一起成长,默契程度和沟通效率不一样。”张启煊说:“研发团队没有那么多层级,不凭经验说话,因为这本身是新方向——如果凭经验说话,我们可能还在做2D升维,而不是3D原生。”

某种程度上,这种“不凭经验说话”构成了影眸成功的第一性原理。“我觉得是因为我们最开始做这个方向时,对前人的经验没有很大的包袱,所以很多时候决策是很第一性的。”张启煊说,“之前行业用2D原生,是因为他们大量的研发人员原来是做NeRF的,认为那是离3D生成更近的路线。我们的很多人反而会选撇开包袱后最近的路线。”

5

和影眸交流下来,我最明显的感受是,这个团队带着穿越过周期的冷静,即便团队几乎全员00后,两位创始人一位是97年人,一位是99年人。但校园创业的他们,已经穿越过了元宇宙泡沫、见过数字人赛道从热闹到沉寂,经历过国内AI技术前夕的融资寒冬,以及技术迭代的多轮周期。他们做过前沿硬件,面对过商业化和工业化的难题,做出过爆款APP然后主动转向,在公司快要弹尽粮绝时押上了没人敢尝试的原生3D模型训练。短短几年,这个团队经历了高密度的大风大浪。

面对技术和资本风云变幻的AI行业,张启煊坦言他们只是抛开包袱,走了一条更直接的路。对于这份优势能维持多久,他开玩笑说“可能过两年,我们也会进入带着包袱思考的路径。”吴迪则认为,“众人疯狂的时候,我们应该清醒一些。”

这种沉淀下来的克制,在一个史上热钱最多的行业里,可能是最稀缺的东西。