WingEdge777

[CUDA 入门] 认识 CUDA “不存在的存储层级” - local memory

[CUDA 入门] 认识 CUDA “不存在的存储层级” - local memory

code四月 1, 2026

网上关于NVIDIA存储层次架构的介绍文章数不胜数，但大多集中在globalmemory、sharedmemory、constantmemory、texturememory、L2/L1cache以及registers等。提及localmemory的文章相对较少。前置基础暂且略过，今天我们直奔主题，聊

[CUDA 优化实战] safe online softmax - 面试必问：任意 hidden_size、one pass、two pass、trade-off、split-k

[CUDA 优化实战] safe online softmax - 面试必问：任意 hidden_size、one pass、two pass、trade-off、split-k

code三月 31, 2026

从没有最佳kernel，只有最合适的kernel----------------------------------altumsonatur（随便加点拉丁语，就会显得高大上）#0.序-背景softmax是深度学习中常用算子，在几乎所有机器学习领域常用来做置信度/权重/概率输出预测。可以说没有soft

[CUDA 入门] L1/TEX/SMEM - 再识bank conflict

[CUDA 入门] L1/TEX/SMEM - 再识bank conflict

code三月 6, 2026

网上介绍和解决bankconflict的文章不胜枚举。我也不想多言，但是最近确实学到了一点新理解。有关bankconflict详细理解和分析，不要看乱七八糟的博客了，可以直接参考NV技术报告：https://www.nvidia.com/en-us/on-demand/session/gtcspri

[CUDA 优化实战] sgemm - 超越 cuBLAS：带你学会极致优化的矩阵乘法 cuda c++ 实现

[CUDA 优化实战] sgemm - 超越 cuBLAS：带你学会极致优化的矩阵乘法 cuda c++ 实现

code三月 5, 2026

在如今TensorCore满天飞的时代，写一个纯FP32的SIMT标量矩阵乘法（SGEMM）还有意义吗？有。因为它是检验一个底层计算工程师对GPU显存控制、Warp调度、共享内存/寄存器资源分配以及指令级并行（ILP）理解的最强试金石。#0.序略有一点标题党，cuBLAS毕竟是精确计算的通用库，是大

[CUDA 优化实战] RoPE - 手写算子的作用之 kernel fusion：减少访存次数、减少启动开销的优化技巧

[CUDA 优化实战] RoPE - 手写算子的作用之 kernel fusion：减少访存次数、减少启动开销的优化技巧

code三月 5, 2026

现在AI编译器进化得越来越快，PyTorch的torch.compile配合JIT优化经常能带来拔群的效果，以至于常常听到“手写算子已经没必要了”的论调。#背景本文直接聚焦一个核心命题：为什么“手写算子（hand-writtenoperator）”与“内核融合（kernelfusion）”能够带来大

[CUDA 优化实战] 矩阵转置-从 Padding 到 XOR Swizzle：CUDA 共享内存优化的艺术

[CUDA 优化实战] 矩阵转置-从 Padding 到 XOR Swizzle：CUDA 共享内存优化的艺术

code二月 13, 2026

矩阵转置（Transpose）是深度学习和高性能计算中极其基础的操作。看似简单的坐标交换B[y][x]=A[x][y]B[y][x]=A[x][y]，在CPU上可能只是两层循环，但在GPU这种吞吐导向的架构上，访存模式（MemoryAccessPattern）往往比计算逻辑更能决定性能的生死。如何写

CUDA 开发者应该熟悉的数

code二月 9, 2026

这是一篇为CUDA开发者准备的博客，旨在总结CUDA编程中至关重要的硬件参数和延迟数据。#0.序在高性能计算（HPC）和深度学习领域，写出“能跑”的CUDA代码并不难，但要写出“极致性能”的代码，则需要对底层硬件有深刻的理解。就像JeffDean曾经列出的“每个程序员都应该知道的延迟数字”一样，GP

深度解读 DeviceQuery：理解你的 GPU 硬件属性

深度解读 DeviceQuery：理解你的 GPU 硬件属性

hpc二月 6, 2026

读本文前最好先有基本的CUDA编程基础，对GPU的计算能力、内存、cache、warp、block、gride等概念有所了解。本文通过对deviceQuery结果的解读，来帮助开发者更好的理解并进行CUDAkernel开发#0.序读本文前最好先有基本的CUDA编程基础，对GPU的计算能力、内存、ca

手把手 CUDA 编程实践

随笔一月 21, 2026

开个坑，记录一下自己CUDA编程的实践kernel实现，从易到难，由基础开发到应用优化#vitmin-cuda好久没写过CUDAC++代码了，最近重新拾起来起因是看到了LeetCUDA这个项目，感觉非常不错，可以作为学习CUDA编程的参考同样的，本人正在开坑一个项目：vitamin-cuda，主要也

leetcode 712. 两个字符串的最小 ASCII 删除和 (medium)

leetcode 712. 两个字符串的最小 ASCII 删除和 (medium)

leetcode一月 10, 2026

经典动态规划-公共子序列问题的基础变形题#题面给定两个字符串s1和s2，返回使两个字符串相等所需删除字符的ASCII值的最小和。#解析经典的公共子序列问题是找出两个序列的最长公共子序列（可以通过删除或增加字符），动态规划主要思路是找到状态的定义以及状态间转移方式。公共子序列需要维护长度，该题相对应的

1 2 3