首页
avatar

WingEdge777

[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现

[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现

code

在如今TensorCore满天飞的时代,写一个纯FP32的SIMT标量矩阵乘法(SGEMM)还有意义吗?有。因为它是检验一个底层计算工程师对GPU显存控制、Warp调度、共享内存/寄存器资源分配以及指令级并行(ILP)理解的最强试金石。#0.序略有一点标题党,cuBLAS毕竟是精确计算的通用库,是大

[CUDA 优化实战] RoPE - 手写算子的作用之 kernel fusion:减少访存次数、减少启动开销的优化技巧

[CUDA 优化实战] RoPE - 手写算子的作用之 kernel fusion:减少访存次数、减少启动开销的优化技巧

code

现在AI编译器进化得越来越快,PyTorch的torch.compile配合JIT优化经常能带来拔群的效果,以至于常常听到“手写算子已经没必要了”的论调。#背景本文直接聚焦一个核心命题:为什么“手写算子(hand-writtenoperator)”与“内核融合(kernelfusion)”能够带来大

leetcode 712. 两个字符串的最小 ASCII 删除和 (medium)

leetcode 712. 两个字符串的最小 ASCII 删除和 (medium)

leetcode

经典动态规划-公共子序列问题的基础变形题#题面给定两个字符串s1和s2,返回使两个字符串相等所需删除字符的ASCII值的最小和。#解析经典的公共子序列问题是找出两个序列的最长公共子序列(可以通过删除或增加字符),动态规划主要思路是找到状态的定义以及状态间转移方式。公共子序列需要维护长度,该题相对应的

1 2 3