从游戏到具身智能：AI 3D生成前沿的隐秘东方力量

近日，影眸科技宣布完成新一轮数亿元人民币融资，由凯辉基金、上海国投先导领投，老股东持续跟投。在此之前，字节跳动、红杉中国、蓝驰创投已相继押注这家公司。三轮大额融资在不到两年内接连落地，构成了国内AI 3D赛道最密集的资本投注之一。

目前影眸的核心产品是Hyper3D 。基于其自研的原生3D大模型Rodin，用户输入一张图片或一句文字描述，就能输出可在真实生产流程中直接使用的3D资产，能直接用于游戏、3D打印、工业设计等生产流程。

在Hyper3D官网即可使用完整的3D生成功能

伴随这轮融资，影眸同步发布了最新一代模型Hyper3D Rodin Gen-2.5。这是全球首个千万面级3D生成模型，能从极速草稿到千万面级的精细模型，按需切换模型的思考深度，最快4秒生成百万面级模型，其同时推出的原生3D贴图模型最高支持12K精度。

经过数年的积累与迭代，如今的Hyper3D Rodin已经具备自然语言编辑、自动分件、多维度可控生成等业内独家能力，用户可以对模型局部修改、拆分部件、用边界框、体素和点云控制生成形状。经过这一套严格控制后，传统AI 3D生成中最大的问题——反复“抽卡”，可以得到尽可能的改善。

在大众视野中，影眸科技无疑是低调的。虽然AI+3D生成很容易和“世界模型”这样的宏大叙事联系在一起，影眸却极少为自己吆喝。

但在另一个维度上，影眸的名字却频繁出现在全球技术舞台上：今年二月，英伟达官方披露的黄仁勋CES Keynote制作工作流程中，3D资产生成环节采用了影眸的Hyper3D Rodin，整个工作流里其余合作方是DeepMind和OpenAI等巨头，影眸是其中唯一的初创企业。3月GDC上，Unity发布的AI Beta功能，调用的3D生成算法也来自影眸。

事实上，行业里现在主流的技术路线“原生3D生成”，最早就是影眸用CLAY框架定义的。Hyper3D是唯一同时接入好莱坞老牌影视渲染技术器OC和游戏引擎Unity，并对Blender、Unreal、Unity、Godot、C4D、Maya等全品类主流 3D 创作工具原生支持最齐全的3D 生成产品。在3D打印硬件领域，影眸则是拓竹最早的合作伙伴之一。

据悉，目前影眸有约80%的收入来自海外。最新模型上线后，数据又迎来一波激增，首月订阅用户与ARR的环比增速均扩大400%。影眸在3D生成领域走的和Anthropic几乎是同一条路——在企业级市场建立技术信誉和深度绑定。Hyper3D的客户列表里有字节跳动、Unity、Figma、Canva、全球第二大家居建材零售商Lowe’s等，覆盖游戏、工业设计、电商、具身智能、空间计算等多个领域。

据公司数据披露，其B端客户数量和收入超过同赛道其他公司的总和。

全球第二大家具建材零售巨头Lowe's，与影眸合作落地超30000个SKU的3D资产目录搭建，单个模型成本控制在1美元以内

如果只看最终呈现的效果，很容易忽略影眸在技术路线选择上经历过的赌注。

2023年到2024年初，AI 3D生成行业的主流路径是“2D升3D”——先用图像生成模型合成多视角照片，再通过几何重建还原为3D模型。这条路线有个显而易见的优势：可以直接借用当时已经非常成熟的2D图像生成技术。当时的OpenAI和英伟达都在走这条路。

2D升3D的效果图

但影眸的团队从自身先前做3D扫描和数字人的经验中，看到了这条路线的天花板。根据吴迪的判断，2D升3D的上限非常低，因为2D升维的过程中存在不可逆的信息丢失，生成的模型容易出现破面、拓扑混乱等问题——对于追求实际可用的专业用户来说，这些都是致命缺陷。

但在3年前，倘若要选择原生3D路线，就意味着要面对一个非常现实的困境——3D训练数据极度稀缺。当时整个行业对3D生成最大的不确定性就在这里——图像和文本大模型都是千万量级数据打底，而可用的三维数据只有80万，清洗后则只剩50万左右。彼时的国外AI巨头未必不能看到2D升3D的局限性，但客观上的素材缺失，是他们布局这条路线的最大障碍。

影眸决定向这个困难发起挑战。

2024年，影眸发布了一篇题为《CLAY：用于创建高质量3D资产的可控大规模生成模型》的学术论文，投稿于计算机图形学顶级会议SIGGRAPH 2024，当年获得了最佳论文提名，何恺明教授在MIT的深度生成模型课上也将它列为推荐阅读。

CLAY是影眸提出并命名的原生3D生成框架，也是全球第一个产品化的3D原生大模型架构。基于CLAY框架，影眸在2024年中发布了Hyper3D Rodin Gen-1——全球首个原生3D生成大模型产品。

影眸科技CTO张启煊回忆道：“我们做CLAY时，主要就是想证明用这个量级的数据也能训出可用的3D大模型，而且原生3D的效果，的确比从2D升维训练的模型好一个量级。”

用户在Hyper3D官网生成的模型

影眸拿到融资后，也很快扩充了训练素材量。一方面走商业采购，因为很多高质量的专业三维资产库是非开放的，“有了资金可以直接采购授权”。另一方面是与专业建模工作室合作，引入高质量模型产出。

路径一旦被验证，行业主流也随即跟进，多家公司从2D升维集体转向原生3D。有意思的是，之前3D训练素材不足的问题也在此时被迎刃而解——由于涌现出大量的资源采购需求，流通到市面上的高质量3D资产也随之增多，手握3D资产的专业工作室也开始寻求与AI训练公司合作。当生成质量提升后，更多创作者和工作室愿意进入这个循环，造成的结果就是，市面上优质3D素材的总量在过去两年出现了显著增长。

如果你留意过行业相关资讯，会发现现在3D生成主要公司都是中国团队。这其中很大一部分原因是，最早提出3D原生框架的是一个国人团队。

在影眸的产品哲学里，有一个很早确立的原则，它贯穿了从CLAY到Rodin Gen-2.5的所有版本：可控性优先于观赏性。

这种务实的风格源于团队早年“吃过亏”的心得。2020年他们的第一款产品其实充满学术气息。当时吴迪和张启煊还在大学，创业的第一个项目名叫“穹顶光场”，是亚洲唯一的亚微米级面部扫描系统。这个巨大的球形扫描仪能在0.1秒内向扫描对象投射二三十种不同的光照模式，采集到远超传统方式的超细腻皮肤细节，同时还能把人脸扫描的生产周期从传统的3到5个月缩短到3到5天。至今仍有3A游戏和影视公司在使用这套方案。

但穹顶光场第一代推出的时候，数据格式和影视行业并不能互通，导致根本没人买单。团队花了近一年才把数据对齐到行业的生产管线。

复盘这段经历时，吴迪说，“创业初期，学术圈的人容易有个惯性：觉得自己的技术、论文很厉害，为什么市场不用？但其实，实验室研发出来的东西和真正能被使用的东西之间，存在巨大的鸿沟。”

这段经历让他们形成了“一个根植于团队的理念”：做的东西必须能直接让用户使用。

尤其是，3D生成看似技术原理一样，实则需求千变万化。游戏往往需要低面数和好的拓扑结构，3D打印需要超高精度和水密性，工业设计需要倒角清晰、硬表面光滑，电商则需要快速、低成本地生成大量SKU，这些需求完全不在同一个坐标系里。

为了满足大相径庭的行业需求，Rodin Gen-2.5首次引入类大语言模型的“先思考、再生成”运行逻辑，提供五档可调的思考深度（Thinking Effort），生成耗时在4秒至80秒之间可控。此外，，影眸还打造了一整套业内独有的功能来增强生成过程中的可控性。根据张启煊列举：3D ControlNet可以控制生成结果的比例和形状；3D编辑功能支持用自然语言直接局部修改模型；递归分件技术BANG可以将模型自动拆分为不同部件，拆完还能继续拆。

甚至，他们的整个平台是开放的，支持导入任意第三方平台生成的模型进行二次编辑。

被问到为何Hyper3D能在可控性上领先行业时，张启煊认为结构性的原因在于：“可控性的关键，在于要在模型预训练阶段就把相关设计放进去。如果一个模型已经预训练完成，再回头加可控能力会比较难，往往要等到下一代重新训练时才能补上。我们因为长期对3D生成、专业领域的理解，从CLAY开始就把可控作为核心目标之一，所以这部分是和模型底层一起‘长’出来的，不是后期外挂的。”

这种对可控性的执着还延伸到了商业模式上。Hyper3D采用了“按交付收费”的思路——在用户满意之前，模型可以免费重新生成和局部编辑，只有最终成品下载才需要付费。

这种方案摒弃了行业普遍存在的“抽卡”商业化逻辑——现今有很多AI生成平台“管生不管养”，每一次生成都消耗积分或费用，用户为了得到满意的结果不得不反复付费尝试。但在Rodin Gen-2.5的使用上，除了生成精度最高的两档模式，其余都只到了下载环节才收费。也就是说，交付才产生价值，“抽卡”的过程则不算。从这个商业模型上也能看出影眸对其3D生成可控性的自信。

有人问影眸的研发方法论是什么，是在沙漠里找绿洲，靠的是运气吗？

张启煊的回答是：“我们在沙漠里观天象，然后找方向，更严谨一些。“

创业六年来，这种方向有过数次巨大的转折，最终带他们来到了绿洲。

吴迪和张启煊的创业故事，起初像是“年轻人才风口创业”的模板故事，高智商，有才华，能调动资源，也能抓住机遇。吴迪在本科就主导搭建了上科大的MARS实验室，在那里与一批研究计算机视觉和图形学的同学，一起搞出了前文提到的穹顶光场，还得到过央视的多次报道。

在学校里，他们与同校的张龙文、曾初啸一起，创立了影眸科技，接着马上做出了一个爆款应用，名叫WAND。你可能还对这个前几年短暂流行的AI二次元画板有印象，用户用粗糙的简笔画就能生成一张像那么回事的二次元少女。

虽然如今看来，这种AI生成的图像只能算得上半成品，在当时却相当时髦。WAND立刻登上了中日两国App Store图形与设计分区的榜首，两周获取了160多万注册用户，流量过亿。但团队却决定放弃这个产品，因为它背后的技术是GAN（生成对抗网络），在当时虽然是最主流的方案，却有着无法突破的瓶颈和硬伤。在不远的将来，GAN很快便会被Diffusion（扩散模型）所取代。

面对手头的爆款项目，吴迪和张启煊一来想不到合适的商业模型（据称一共赚了6000块钱），二来觉得GAN不是未来的技术方向。拿到第一波融资后，他们没有踌躇太久，果断选择砍掉这个爆款项目。

再后来，元宇宙浪潮来了。

2023年6月，影眸发布了3D角色生成器ChatAvatar，第一次将Diffusion应用到3D生成领域。但元宇宙的退潮比来时更快，光盯着数字人赛道，路会越走越窄。

到了2023年下半年，影眸迎来了最危险的时刻，当时国内AI工业的基本盘还尚不明朗，DeepSeek还得半年之后才能横空出世，公司账上的现金流也一度紧张。

当时显而易见的活路是继续做穹顶光场的服务，这个业务每年能带来可观收入，能让团队活下去。但团队做出了另一个选择：把几乎所有筹码押在训练一个当时没人做出来过的原生3D模型上。

2023年底，影眸的内部Demo跑通。基于CLAY框架的全球首个原生3D大模型，在效果上实现了代差级的领先。

后来的故事，你已经知道了。

自2020年成立以来，影眸的团队在顶级学术会议和期刊上发表了30余篇论文，其中70%的科研成果走向了产品落地。根据影眸的内部统计，他们的算法团队每2人中就有1人获得或提名过最佳论文。

在计算机图形学最顶尖的会议SIGGRAPH上，影眸一共拿了3次最佳论文及提名，其中一篇获得了最佳论文——2025年获奖的CAST（基于单张RGB图像的组件对齐式3D场景重建），同期获得最佳论文的商业公司仅有谷歌、Meta和影眸三家。

这些论文并非孤立的学术成果，而是与产品功能深度绑定。CLAY奠定了原生3D生成的底层框架；CAST为场景级生成铺路，理解的是物品与物品之间的力学关系、位置关系和使用语义；BANG解决了分件问题，让AI生成的模型从"一坨糊"变成可编辑的结构化部件。

张启煊描述了这套研究的内在逻辑：“完成了物体生成后，我们往两个方向延伸：一个是往内部走，理解物品部件与部件之间的关系，衍生出了分件模型；一个是往外延，物品与物品之间的关系该如何定义，衍生出了CAST。”

在实际的商业模式中，用到单一3D模型的场景很少，不管是游戏还是室内设计，本质上都是场景级的。而场景生成的智能程度要远超物品级、部件级的生产，因为它需要理解物品与物品之间的力学关系、位置关系、使用语义关系。这是 CAST 的核心。CAST 通过单目深度估计，结合领先的语言模型，来完成场景重建。

而一旦影眸搭建好这个全面的框架，对虚拟场景体验、游戏概念设计，以及具身智能的仿真环境训练都会有很大帮助。

与之对应的是影眸在训练效率上的优势。张启煊透露：“由于团队对底层算法架构理解比较深，我们的生成和推理效率远高于行业平均水平”

让人意外的是，身处日新月异的AI行业，影眸的人员流动却极少。目前整个公司约有60人，“成立到现在，流出去的人有3个，且都主要负责数字人相关业务线，分别去了英伟达、迪士尼（研发部门）和腾讯。”谈起这一点，两位年轻的创始人都有些自豪。

“公司6年了，核心算法大部分不是挖来的，从一开始都是本科生一起成长，默契程度和沟通效率不一样。”张启煊说：“研发团队没有那么多层级，不凭经验说话，因为这本身是新方向——如果凭经验说话，我们可能还在做2D升维，而不是3D原生。”

某种程度上，这种“不凭经验说话”构成了影眸成功的第一性原理。“我觉得是因为我们最开始做这个方向时，对前人的经验没有很大的包袱，所以很多时候决策是很第一性的。”张启煊说，“之前行业用2D原生，是因为他们大量的研发人员原来是做NeRF的，认为那是离3D生成更近的路线。我们的很多人反而会选撇开包袱后最近的路线。”

和影眸交流下来，我最明显的感受是，这个团队带着穿越过周期的冷静，即便团队几乎全员00后，两位创始人一位是97年人，一位是99年人。但校园创业的他们，已经穿越过了元宇宙泡沫、见过数字人赛道从热闹到沉寂，经历过国内AI技术前夕的融资寒冬，以及技术迭代的多轮周期。他们做过前沿硬件，面对过商业化和工业化的难题，做出过爆款APP然后主动转向，在公司快要弹尽粮绝时押上了没人敢尝试的原生3D模型训练。短短几年，这个团队经历了高密度的大风大浪。

面对技术和资本风云变幻的AI行业，张启煊坦言他们只是抛开包袱，走了一条更直接的路。对于这份优势能维持多久，他开玩笑说“可能过两年，我们也会进入带着包袱思考的路径。”吴迪则认为，“众人疯狂的时候，我们应该清醒一些。”

这种沉淀下来的克制，在一个史上热钱最多的行业里，可能是最稀缺的东西。