Dev Tools

Some notes about open source data science software and libraries.

Posts

Jul 10, 2026
ZipDepth：用知识蒸馏把单目深度估计塞进移动端
Jun 28, 2026
DMuon：让矩阵正交化优化器达到接近 AdamW 的分布式训练开销
Jun 17, 2026
用 444 个参数打败图神经网络：交通流量预测中的过度设计陷阱
Jun 8, 2026
神经网络预测的二阶路径核：SGD 噪声如何写入模型权重
Jun 5, 2026
最远点采样提速 2.5x：RadiusFPS 球形体素剪枝原理与 GPU 实现
May 27, 2026
CUDA 13.3 Tile 编程：让编译器替你管理 GPU 内存层次
May 25, 2026
流式3D重建的长程注意力：HorizonStream 架构解析
May 20, 2026
十亿级 3D Gaussian Splatting 的 Out-of-Core 训练：TideGS 核心技术解析
May 13, 2026
TriBand-BEV：用三通道高度编码让 LiDAR 行人检测跑到 49 FPS
May 8, 2026
用反向自动微分加速贝叶斯推断：从有限差分到稀疏 GPU 反向传播
May 5, 2026
图像修复的效率革命：将 Transformer 蒸馏为 SSM 并在边缘端提速 3.4x
May 2, 2026
GPU 推理服务中的优先级调度与延迟预测
Apr 30, 2026
COPUS：大模型训练中批量大小与并行策略的协同自适应优化
Apr 26, 2026
Vision GNN 加速：GraphLeap 如何用"一层超前"打破动态图瓶颈
Apr 23, 2026
多智能体边缘计算的"协同崩溃"：DAOEF 框架深度解析
Apr 21, 2026
用2D高斯泼溅打破视频超分辨率的时序瓶颈：GS-STVSR深度解析
Apr 19, 2026
多 LLM 智能体工作流的 GPU 调度：从过度订阅到精准分配
Apr 13, 2026
LLM 强化学习训练权重传输：TensorHub 与引用导向存储原理解析
Apr 13, 2026
UHD 低光照图像增强：Clifford 代数特征融合与实时 4K 推理
Apr 9, 2026
近邻高斯过程（NNGP）：用 k 个邻居替代百万训练样本
Mar 16, 2026
用 Diffusion Transformer 重构图像压缩：DiT-IC 深度解析
Feb 21, 2026
用 Python 写 CUDA Kernel：NVIDIA cuda.compute 实战教程
Feb 20, 2026
Nested Sampling 与分层贝叶斯：用 Slice-within-Gibbs 实现高效证据计算
Feb 19, 2026
动态流水线重配置：异构 GPU 集群上 LLM 推理的在线调度实战
Feb 13, 2026
多模型推理系统的 Prefill 共享优化：让 Multi-Agent 快 4.5 倍
Feb 12, 2026
用强化学习训练 LLM 生成高性能 GPU Kernel：GPT-5 的实战突破
Feb 3, 2026
MoE 推理优化：通过预测性预取平衡计算与通信
Feb 2, 2026
大模型批处理推理的拥塞控制：CONCUR 系统深度解析
Jan 31, 2026
CUDA Tile IR：让 Triton 代码跑在 Tensor Core 上的新方式
Jan 30, 2026
CUDA推理能耗诊断与优化：从测量到优化的完整指南
Jan 29, 2026
Diffusion LLM采样优化：超越GEMM的GPU编程实践
Jan 26, 2026
大规模Transformer模型的异步检查点技术：CUDA实现与优化
Jan 23, 2026
RT Core加速固定半径近邻搜索：从原理到实战
Jan 23, 2026
CUDA中的测试时训练：从GPU矩阵乘法优化看TTT-Discover的实践应用
Aug 18, 2025
NVIDIA Dynamo：AI工厂操作系统
Aug 18, 2025
CUDA 13 革命性地改变GPU编程
Oct 18, 2023
Usingi Docker for Geospatial Data Science
Dec 21, 2021
My First Blog on Tools is about Vim and Spacevim