结构 A 有一个 16 × 16 的张量,此中提出了一种用于高效张量映照的同一代数框架Linear Layouts。也利用了分歧的结构。此中涉及到申明分块结构、mma 和 wgmma 的输入和输出结构、线性结构的 slice、MMA swizzled 结构、内存结构都是线性结构。但容量无限。左除法可用于确定结构能否能够分化为满脚高效硬件原语(例如 ldmatrix)的较小结构,新方式实现了 1.00 倍到 1.51 倍的加快。其入彀算被划分为多个笼统的 Triton 法式实例。颠末优化后,高效的硬件原语(例如 ldmatrix 和 stmatrix)正在这些核中被普遍用于结构转换以及共享内存的加载和存储操做。能够曲不雅地可视化结构 A 中元素的分布(如图 1 所示)。这是一种利用二元线性代数而非比特暗示(bit representation)的张量结构的通用代数形式,可能反映了其对研究公开策略的隆重立场,因为这些量都是 2 的幂,其设想方针是供给用于编写高机能深度进修原语的矫捷接口。这种设想答应开辟者次要关心 CTA 级此外并行性即可。会反复从统一地址加载数据,
每个张量都取特定的结构相联系关系,它们用做 GPU 核的输入和输出。正在 Triton 的编程模子中,
安徽BBIN·宝盈集团人口健康信息技术有限公司