Spatial Intelligence
Spatial intelligence is the ability to understand, reason with, and manipulate visual and spatial information, involving perceiving the world in 3D, visualizing objects from different angles, and understanding relationships between shapes, lines, and space, crucial for tasks like navigation, design (architecture, engineering), and even everyday activities like parking.
Posts
-
AnyScene:从 BEV 布局到可控驾驶场景生成的完整框架
-
PGT:用程序化几何图元治好多模态大模型的"空间失明症"
-
SegCompass:用稀疏自编码器打开推理分割的"黑盒子"
-
用 AlphaEarth 地理空间嵌入做作物识别:卫星遥感语义分割实战
-
卫星图像变化归因:嵌入向量的比较方式决定了你能看见什么
-
TrajTok:GPS 轨迹的自适应六边形 Tokenization 与迁移学习
-
WorldString:物体状态流形的可动作化世界表示
-
用图谱特征去噪:让事件相机真正"看清楚"
-
VECA:用弹性核心注意力打破 Vision Transformer 的二次复杂度瓶颈
-
地理空间 3D 数据实战:Shapefile 解析、坐标变换与地理参考模型构建
-
LiVeAction:边缘设备的非对称神经编解码器,让传感器数据压缩不再两难
-
联合目标数量与波达方向估计:将信息论准则融入正交最小二乘
-
RD-ViT:用循环深度 Transformer 打破医学分割的数据瓶颈
-
DynoSLAM:用图神经网络让机器人在人群中安全导航
-
注视估计新范式:GMGaze 如何用语义原型、早期融合与稀疏 MoE 突破三大瓶颈
-
PhyCo:让视频生成模型真正"懂"物理——可控物理先验的生成运动
-
LiDAR 传感器遮挡预测:交互式动态贝叶斯网络的工程实践
-
用 Fréchet 距离训练生成模型:FD-loss 原理与实现
-
无约束图像稀疏视角 3D 重建:GenWildSplat 深度解析
-
HERMES++:统一 3D 场景理解与未来几何预测的自动驾驶世界模型
-
单张贴纸图像个性化生成:SEAL 如何同时克服背景污染与结构僵化
-
MIMO 雷达 Doppler 鲁棒波形设计:SQNGD 框架详解
-
稀疏影像的 3D 重建:MegaDepth-X 如何突破互联网长尾场景
-
从遮挡单视图检索 3D 形状:PASR 的分析-合成框架
-
AI 图像生成与真伪鉴别的协同进化:UniGenDet 统一框架详解
-
Vista4D:用4D点云实现动态视频的新视角重拍
-
地理信号如何驱动车险风险建模:从 OpenStreetMap 到视觉 Transformer
-
用 Sentinel-1 SAR 时序数据监测全球海上风电:从雷达信号到生命周期识别
-
AnyRecon:从任意稀疏视角重建大规模 3D 场景
-
LLM 的推理泛化极限:最短路径问题的系统性研究
-
UAV微小目标检测:DroneScan-YOLO如何解决三大系统性失效
-
流式 3D 重建的几何上下文 Transformer:让实时建图真正可用
-
RMGS-SLAM:多传感器高斯泼溅实时建图的工程之道
-
城市热岛逆问题:用扩散模型生成多样化降温植被方案
-
GenTac:用扩散模型生成足球战术轨迹
-
非鲁棒教师也能教出鲁棒性:测试时对抗适应新范式
-
Scal3R:大规模场景3D重建的测试时训练方案
-
ETCH-X:从着装人体点云到 SMPL-X 的鲁棒拟合
-
GaussiAnimate:用 Skelebones 系统为 4D 高斯角色绑定可控骨架
-
Fast Spatial Memory:用弹性测试时训练实现可扩展 4D 重建
-
ZeD-MAP:用 Bundle Adjustment 引导零样本深度扩散模型实现实时无人机三维重建
-
大模型少输出反而更快:多智能体推理框架的反直觉洞见
-
无人机热成像地理定位:跨模态视觉导航的工程实践
-
MRI 到 CT 图像合成:Drifting Model 的一步推理原理与实践
-
用 Google Earth Engine 监测野火:从卫星光谱到火烧频率图
-
欠定盲源分离:量子深度图像先验解锁多光谱解混
-
Light-UNETR:医学3D图像分割的轻量化Transformer设计
-
基于 Rectified Flow Matching 的雷达目标检测:D-RFM 方法详解
-
用城市 5G 基站网络测降雨:分布式机会雷达的信号处理原理
-
单目铰接体三维重建:MonoArt 的渐进式结构推理
-
MessyKitchens:接触感知的多目标三维场景重建
-
永冻土融化预测:从3D点云到2D预测图的垂直结构保留
-
HiAR:层次化降噪解决长视频自回归生成的误差积累
-
SEER:让医学 3D 影像分割读懂多变的临床语言
-
统计最优性不唯一:四种不相容的预测推断可容许性几何
-
分布式多目标跟踪中的标签劫持:当传感器网络的身份机制被欺骗
-
物理启发的粘性价值表示:攻克离线目标条件强化学习
-
镜面反射不再是敌人:用高光线索提升目标分割精度
-
VGG-T³:线性时间复杂度的大规模 3D 重建
-
冷冻电镜膜结构分析:从 ROI 分割到曲率量化的完整 Pipeline
-
无人机林业中的逐枝深度优化:DEFOM-Stereo 与 SAM3 联合分析
-
OFDM 雷达突破距离限制:从"信号干扰"到"干扰清洗"
-
深度增强的铁路道床检测:YOLO-SAM2 如何从"看得见"到"看得准"
-
DefenseSplat:让 3D 高斯泼溅对抗攻击防不胜防
-
自主扩散模型的几何奥秘:为什么不需要噪声条件
-
SARAH:空间感知的实时对话虚拟人
-
OpenEarthAgent:用 AI Agent 做遥感影像分析
-
接触锚点里程计:让四足机器人不靠视觉也能精准定位
-
雷达图像地形变化检测:物理先验与异常检测的融合
-
无 GNSS 导航:基于深度卷积网络的 UAV 地标实时提取
-
FlexAM:外观-运动解耦的视频生成控制
-
LongStream:千帧级序列的流式 3D 重建
-
3DGSNav:用 3D 高斯泼溅让 VLM "看懂"环境的物体导航
-
EO-VAE:统一多传感器的地球观测数据编码器
-
从少量 2D MRI 切片重建时序 3D 主动脉:可微网格优化的实践指南
-
6G 赋能未来机器人:从通信到协作的技术演进
-
自动驾驶轨迹规划:用扩散模型实现安全自适应决策
-
自监督视觉几何定位:GPA-VGGT大规模场景位姿估计详解
-
SE2(3)李群扩展卡尔曼滤波器:高精度导航系统的自治性改进实战
-
Yukthi Opus:多链混合元启发式算法详解与实现
-
分布式深度学习的统一框架:从放置语义理解并行策略
subscribe via RSS