在 Transformer 结构中,Attention 机制是核心,下面我们介绍各种 Attention 的变体 假设我们有一个句子: “我 ...

要讲 attention,肯定就离不开Attention is All You Need这篇文章,虽然我之前都是看的视觉任务,但是视觉任务比如 ...

Deepseek v1 1. 模型结构 Deepseek LLM 第一版本。 目前,ChatGPT、Claude、Bard 等封闭模型引领了 L...

CLIP: Learning Transferable Visual Models From Natural Language Supervi...

3月 10, 2025

pip install -e . 命令在可编辑模式下安装 Python 包时,实际上是通过创建一个指向源代码目录的链接来实现的。以下是这个过程的...

Huggingface 核心技巧(一): LengthGroupedSampler LengthGroupedSampler 的核心就是长度分组...

图片处理 pad def expand2square(pil_img, background_color=(127, 127, 127)): ...

1月 02, 2025

1. zip 文件解压 如果你有多个 zip 文件,并没有快速解压单个 zip 文件的方法, 但是可以同时解压多个 zip 文件 1.1 pyt...

12月 31, 2024

学术写作常用 Prompt 1. 英文学术润色 Below is a paragraph from an academic paper. Pol...

1. 前言 本文将从零开始编写一个简单的 Hexo 博客主题,帮助读者了解 Hexo 主题的构成和开发方法 1.1 前置知识 开始前,你需要了解...