ETHZ&谷歌&斯坦福NeurIPS 2025新研究:从几张图片恢复建筑的三维CAD结构,代码和数据将开源
创始人
2025-12-07 06:07:20
0

  • 论文标题: HouseLayout3D: A Benchmark and Training-Free Baseline for 3D Layout Estimation in the Wild
  • 作者: Valentin Bieri, Marie-Julie Rakotosaona, Keisuke Tateno, Francis Engelmann, Leonidas Guibas
  • 机构: 苏黎世联邦理工学院、谷歌、斯坦福大学
  • 会议: NeurIPS 2025 (Datasets and Benchmarks Track)
  • 论文地址: https://arxiv.org/abs/2512.02450
  • 项目主页: https://houselayout3d.github.io
  • 代码仓库: https://github.com/houselayout3d/houselayout3d

大家好!今天想和大家聊一篇非常有趣的工作,来自谷歌、苏黎世联邦理工学院和斯坦福大学的研究者们,它发表在今年的NeurIPS数据集与基准测试方向上。这项研究直击当前建筑3D布局估计领域的一个核心痛点:现有模型大多在简单的单层或单房间合成数据上训练,一遇到真实世界里复杂的多层建筑就“水土不服”。

为了解决这个问题,他们做了两大工作:第一,发布了一个名为HouseLayout3D的全新基准数据集,专门针对真实世界的大型多层建筑。第二,提出了一个叫MultiFloor3D的无训练基线方法,效果惊人地好,甚至在多个指标上超越了现有的需要大量训练的深度学习模型。

研究背景:从单间到整栋楼的跨越

3D布局估计,通俗讲就是让计算机看懂一个空间的结构,比如墙壁、地板、天花板、门窗在哪里,把这些信息抽象成几何多边形。这对于机器人导航、增强现实、室内设计等应用至关重要。

目前的主流方法,比如RoomFormer和SceneScript,通常依赖于在合成数据集(如Structured3D)上进行监督学习。这些数据集虽然规模大,但场景相对简单,大多是单个房间或者小公寓。这就导致了一个问题:当模型面对真实世界里有楼梯、有多个楼层的大房子时,它们就很难处理了。

现有的一个“曲线救国”的办法是,先把一个大建筑手动或自动切分成一个个独立的楼层,单独处理完再拼起来。但这样做会丢失全局的空间上下文信息。比如,楼梯是连接不同楼层的关键结构,如果把楼层分开了,模型就很难理解楼梯的作用,也无法构建一个完整的、连贯的建筑结构。

正是为了填补这一空白,研究者们构建了HouseLayout3D数据集,希望推动3D布局估计技术从“单间”思维真正走向“整栋楼”的全局理解。

HouseLayout3D:首个真实多层建筑布局基准

HouseLayout3D是第一个专为大型、多层建筑3D布局估计设计的真实世界基准。它基于著名的Matterport3D (MP3D)数据集,通过手工标注的方式为真实的3D扫描模型创建了高质量的CAD级别布局注释。

HouseLayout3D数据集的规模和细节都相当可观:

  • 建筑数量:包含 16 栋建筑
  • 独立楼层:共 33 个独立楼层
  • 房间数量:共 317 个房间
  • RGB-D帧数:超过 26,000 帧
  • 注释元素:292 扇门、379 扇窗户、34 段楼梯
  • 建筑层数:每栋建筑包含 1 到 5 层,每个建筑有 4 到 40 个房间。

特色非常鲜明:

  • 真实世界与大规模: 所有数据都源于真实的3D扫描,而不是人工合成。
  • 多楼层结构: 包含了复杂的跨楼层建筑,以及连接它们的楼梯。
  • 精细化标注: 不仅有墙体、地板、天花板,还精确标注了门、窗和楼梯的位置和几何形状。

如下表所示,HouseLayout3D在多项关键特性上都填补了现有数据集的空白。

MultiFloor3D:无需训练的强大基线方法

有了新的“考场”,还需要新的“考生”。研究者们提出的MultiFloor3D就是一个非常特别的考生——它不需要任何训练。这个方法巧妙地整合了近年来场景理解领域的一些成熟技术,通过一个四阶段的流程来生成3D布局。

整个流程的输入仅仅是场景的一组RGB图像,输出则是一个由多边形表示的、带有语义标签(墙、地板、门等)的3D布局。

1. 从图像到网格:三维重建

第一步,利用现成的技术(如DN-Splatter)从多张2D图像重建出场景的密集三维网格(Mesh)和深度图。这是后续所有处理的基础。

2. 提取骨架:识别核心结构

第二步,从重建的网格中提取出布局的“骨架”。这里,研究者们首先使用一个强大的图像分割模型(OneFormer)对输入图像进行语义分割,识别出墙壁、天花板、地板等“结构性组件”,以及家具、窗户、楼梯等其他元素。然后,通过将2D分割结果反投影到3D网格上,为网格的每个部分赋予语义标签。最后,筛选出墙、地、顶等主要结构,形成布局骨架。

3. 优化原型:填补缺失与修正瑕疵

从三维扫描数据中直接提取的骨架往往是不完美的,比如存在因为家具遮挡造成的空洞,或者窗户区域的几何信息缺失。

第三步是整个方法的核心,即通过一个优化过程,将不完美的“骨架”变成一个完整、连续的“布局原型”。研究者们将骨架初始化为一组3D多边形 ,然后通过梯度下降来优化这些多边形的顶点位置和所在的平面方程。优化的目标函数主要由三部分构成:

  • : 几何保真项,确保优化后的布局能准确地重建原始场景的几何形状,并且不会侵占已观测到的“空旷空间”。
  • : 连通性项,鼓励不同多边形之间紧密连接,消除微小的缝隙,形成连续的表面。
  • : 简洁性项,鼓励多边形共享边界,从而简化模型,去除冗余的边界。

最终的损失函数是这三项的加权和:。

具体的损失函数定义如下:

几何损失 由两部分组成:

  1. 代理损失 :惩罚布局骨架的顶点到最近多边形表面的距离,确保原型贴近原始观测。
  2. 空旷空间损失 :惩罚多边形与相机视线(代表已观测的空旷区域)的交叉。

连通性损失 惩罚每个多边形的顶点到其他多边形表面的距离,促进面与面之间的无缝连接。

简洁性损失 惩罚那些不被共享的边的长度,促使模型用更少的顶点和共享边来表示场景。

通过这个精巧的优化过程,模型能够智能地“脑补”出被遮挡的墙面和地面,修正几何错误,得到一个高质量的布局原型。

上图直观地展示了不同损失项的作用。例如,缺少 会导致多边形之间出现缝隙;缺少 则会使边界变得“犬牙交错”。

4. 生成场景图:从几何到语义

最后一步,将优化好的布局原型解析成一个结构化的场景图(Scene Graph)。这个图的节点代表房间,边代表人与人之间的连接(如门、楼梯)。

这个过程也很有意思:

  • 楼层识别: 根据布局原型中被标记为“地板”的多边形,聚类出不同的楼层。
  • 房间分割: 对每个楼层,结合地板和天花板信息生成2D平面图,再利用现有的房间分割算法(如Hov-SG)将其切分成不同的房间。
  • 回到3D: 最后,通过一个巧妙的“房间拉伸”算法,将每个房间的2D平面图拉伸回3D,形成一个封闭的房间壳体。这个算法会智能地将2D地板的每个三角面片拉伸到对应的天花板平面上。

通过这四步,MultiFloor3D就能够从一堆无序的图片中,重建出整个建筑的结构化3D布局。

实验结果:零训练吊打全场?

研究团队在HouseLayout3DScanNet++数据集上对MultiFloor3D进行了广泛的实验评估,并与RoomFormerSceneScriptSOTA方法进行了比较。

HouseLayout3D数据集上的表现

上表展示了在HouseLayout3D数据集上的F1分数和深度指标结果。尽管基线模型(RoomFormer和SceneScript)是针对单层或单房间设计的,并且通常在大型合成数据集上训练,但MultiFloor3D作为无需训练的方法,在所有评估指标上都显著优于现有SOTA方法。尤其值得注意的是,MultiFloor3D是唯一能够准确预测楼梯结构的方法,这凸显了其在处理多楼层复杂结构上的独特优势。

ScanNet++数据集上的表现

在ScanNet++数据集上,由于缺乏布局注释,研究团队使用深度精度作为布局估计误差的近似指标。

从上表可以看出,MultiFloor3DScanNet++数据集上同样超越了基线方法,尤其是在和深度精度指标上达到了67.884.7。这表明即便是在没有显式布局标注的数据集上,MultiFloor3D也能提供更准确的几何表示。

潜在应用:与大语言模型结合实现导航

论文还展示了全建筑3D布局的一个潜在应用:结合大语言模型 (LLM) 实现导航。如上图所示,通过将3D场景图(包含房间、门、楼梯等连接信息)以JSON格式输入给LLM,并提出导航指令,LLM可以生成逐向的导航指引。这为未来的智能导航、机器人路径规划等应用打开了新的可能性。

总结与思考

HouseLayout3DMultiFloor3D的发布,无疑是3D布局估计领域的一个重要里程碑。它不仅提供了一个更贴近真实世界复杂性的数据集,弥补了现有数据集的不足,更通过一个无需训练且性能优异的基线,展示了解决多层建筑布局估计问题的巨大潜力。

可能这一方向比较小众,但对于关心这一领域的研究者来说,这应该是一个不容忽视的进展。

相关内容

本周重磅事件:中东停火颠覆...
在中东局势出现缓和迹象之际,美元上周承压回落。随着美国与伊朗达成为...
2026-04-14 09:47:49
重仓AI与硬科技 蓝驰创投...
上证报中国证券网讯(记者 邓贞)近日,蓝驰创投已完成第四期双币基金...
2026-04-14 05:07:29
仓位超八成、重仓股洗牌,首...
公募基金一季报披露拉开帷幕。截至4月13日,已有兴银基金、金信基金...
2026-04-14 05:05:30
央行:3月末,广义货币余额...
观点网讯:4月13日,央行发布2026年一季度金融统计数据报告显示...
2026-04-14 03:43:47
黄金中长期配置逻辑强化,资...
黄金中长期配置逻辑强化,资金布局黄金股,资金面看,黄金股ETF国泰...
2026-04-14 02:04:10
ETF融资榜 | A500...
2026年4月10日,A500ETF华泰柏瑞(563360.SH)...
2026-04-14 01:55:10

热门资讯

关于召开嘉实润泽量化一年定期开... 嘉实基金管理有限公司决定召开嘉实润泽量化一年定期开放混合型证券投资基金基金份额持有人大会,并于202...
【高盛计划发行投资级债券,筹集... 【高盛计划发行投资级债券,筹集至少50亿美元】据知情人士透露,高盛集团寻求通过发行投资级债券筹资至少...
2026指尖理财指南:手机伦敦... 跨入2026年,移动互联网技术的迭代让贵金属投资彻底摆脱了空间束缚,手机端已成为现货黄金博弈的主战场...
国内商品期货收盘 多晶硅主力合... 每经AI快讯,4月13日,国内商品期货收盘,互有涨跌。多晶硅主力合约涨停,碳酸锂涨超5%,原油、LU...
“金牛至赢”期货大赛 启动招商 ● 本报记者 王超 为助力期货市场高质量发展,发掘和培育优秀交易人才,由中国证券报主办、至易赢公司协...
恒指期货夜盘收涨1.01%,报... 每经AI快讯,4月14日,恒指期货夜盘收涨1.01%,报15924点,高水263点。 每日经济新闻
WTI原油期货结算价收涨2.6... WTI原油期货结算价收涨2.6%,上涨2.51美元,报99.08美元/桶。布伦特原油期货结算价收涨4...
ICE农产品期货主力合约收盘表... 每经AI快讯,当地时间4月13日,洲际交易所(ICE)农产品期货主力合约收盘表现分化,原糖期货跌0....
瑞联银行重新购入黄金,押注年底... 瑞联 银行重新购入 黄金。此前,该银行因受伊朗战争引发的市场低迷影响而大幅削减了黄金持仓。该银行表示...
开局起步“十五五”|关岭石板井... “老朱,工期一定要盯紧。春节一过,咨询电话就没断过,一天得有几十个,目前已经有50多个房间被预订了。...