About 101,000 results
Open links in new tab
  1. 一文了解Transformer全貌(图解Transformer)

    Sep 26, 2025 · 网上有关Transformer原理的介绍很多,在本文中我们将尽量模型简化,让普通读者也能轻松理解。 1. Transformer整体结构 在机器翻译中,Transformer可以将一种语言翻译成另一种语言, …

  2. 如何最简单、通俗地理解Transformer? - 知乎

    Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点让Transformer自2017 …

  3. 如何从浅入深理解 Transformer? - 知乎

    Transformer升级之路:11、将β进制位置进行到底 Transformer升级之路:12、无限外推的ReRoPE? Transformer升级之路:13、逆用Leaky ReRoPE Transformer升级之路:14、当HWFA遇 …

  4. 挑战 Transformer:全新架构 Mamba 详解

    Sep 23, 2025 · 而就在最近,一名为 Mamba 的架构似乎打破了这一局面。 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性 …

  5. Transformer模型怎么用于regression的问题? - 知乎

    回归问题概述 Transformer模型基础 回归问题中的Transformer架构调整 应用案例 优化与技巧 挑战与改进 1. 回归问题概述 回归问题是监督学习中的一种任务,目标是预测一个连续值。这类问题通常涉及对数 …

  6. Transformer - Attention is all you need - 知乎

    《Attention Is All You Need》是Google在2017年提出的一篇将Attention思想发挥到极致的论文。该论文提出的Transformer模型,基于encoder-decoder架构,抛弃了传统的RNN、CNN模型,仅 …

  7. 如何理解 Swin Transformer 和 Vision Transformer不同 ... - 知乎

    Swin Transformer 的总体结构 Swin Transformer 总体结构 从上图我们可以观察到在输入端有一个 Patch Partition 的操作,也就是 Vision Transformer 常规的切图。 然后是经过一个线性映射进入第一个 Swin …

  8. Transformer不是编解码器都有的吗?为什么会发展出仅 解/编 码器模 …

    Transformer的核心部分,是右边的两个黑色实线框圈起来的两部分,左边是编码器(Encoder),右边是解码器(Decoder)。 下图是 Transformer 用于中英文翻译的整体结构: 可以看到 Transformer 由 …

  9. 有没有比transformer更好的模型?无论挑战还是超越了transformer。?

    Transformer哪里不够“好”? 所谓好都是相对的,要比Transformer更“好”,首先得知道Transformer哪里“不好”。 Transformer的核心优势在于其自注意力机制(self-attention mechanism), 比较擅长建立长 …

  10. 你对下一代Transformer架构的预测是什么? - 知乎

    2. 引入随机化(Randomized Transformer) Transformer巨大的规模使得不管训练还是推理都极具挑战。 然而,很少有人知道的是,引入随机化矩阵算法可以减少Transformer需要的FLOPs。 虽然这种做法 …