Dev Tools
Some notes about open source data science software and libraries.
Posts
-
流式3D重建的长程注意力:HorizonStream 架构解析
-
十亿级 3D Gaussian Splatting 的 Out-of-Core 训练:TideGS 核心技术解析
-
TriBand-BEV:用三通道高度编码让 LiDAR 行人检测跑到 49 FPS
-
用反向自动微分加速贝叶斯推断:从有限差分到稀疏 GPU 反向传播
-
图像修复的效率革命:将 Transformer 蒸馏为 SSM 并在边缘端提速 3.4x
-
GPU 推理服务中的优先级调度与延迟预测
-
COPUS:大模型训练中批量大小与并行策略的协同自适应优化
-
Vision GNN 加速:GraphLeap 如何用"一层超前"打破动态图瓶颈
-
多智能体边缘计算的"协同崩溃":DAOEF 框架深度解析
-
用2D高斯泼溅打破视频超分辨率的时序瓶颈:GS-STVSR深度解析
-
多 LLM 智能体工作流的 GPU 调度:从过度订阅到精准分配
-
LLM 强化学习训练权重传输:TensorHub 与引用导向存储原理解析
-
UHD 低光照图像增强:Clifford 代数特征融合与实时 4K 推理
-
近邻高斯过程(NNGP):用 k 个邻居替代百万训练样本
-
用 Diffusion Transformer 重构图像压缩:DiT-IC 深度解析
-
用 Python 写 CUDA Kernel:NVIDIA cuda.compute 实战教程
-
Nested Sampling 与分层贝叶斯:用 Slice-within-Gibbs 实现高效证据计算
-
动态流水线重配置:异构 GPU 集群上 LLM 推理的在线调度实战
-
多模型推理系统的 Prefill 共享优化:让 Multi-Agent 快 4.5 倍
-
用强化学习训练 LLM 生成高性能 GPU Kernel:GPT-5 的实战突破
-
MoE 推理优化:通过预测性预取平衡计算与通信
-
大模型批处理推理的拥塞控制:CONCUR 系统深度解析
-
CUDA Tile IR:让 Triton 代码跑在 Tensor Core 上的新方式
-
CUDA推理能耗诊断与优化:从测量到优化的完整指南
-
Diffusion LLM采样优化:超越GEMM的GPU编程实践
-
大规模Transformer模型的异步检查点技术:CUDA实现与优化
-
RT Core加速固定半径近邻搜索:从原理到实战
-
CUDA中的测试时训练:从GPU矩阵乘法优化看TTT-Discover的实践应用
-
NVIDIA Dynamo:AI工厂操作系统
-
CUDA 13 革命性地改变GPU编程
-
Usingi Docker for Geospatial Data Science
-
My First Blog on Tools is about Vim and Spacevim
subscribe via RSS