跳转至

KVcache

KVcache

Key-Value cache是一种存储结构,它基于“键值对”(Key-Value Pair)形式存储数据,常用于提高数据访问速度。
当请求数据时,KVcache 会检查请求的键是否已经存在于缓存中。如果存在,直接返回缓存中的值,否则从数据库或其他源加载数据并缓存。

semantic cache

语义缓存是缓存的一个扩展,它不仅仅缓存数据本身,还缓存数据的语义信息或上下文。这使得系统能够在检索时基于语义理解来优化查询和响应。
语义缓存可能会存储与数据相关的附加信息,如标签、描述、上下文等,这样当用户进行查询时,系统可以根据语义信息推断出更准确的结果。

Timing side channel

计时侧信道攻击(Timing Side Channel)是一种利用系统在处理数据时的时间差异来泄露敏感信息的攻击方式。攻击者通过测量某些操作所花费的时间差异来推断系统内部的秘密,如加密密钥或其他敏感数据。

LLM Stages: Prefill & Decode

  • Prefill (预填充):在使用大型语言模型(LLM)时,"预填充"阶段指的是向模型输入提示或文本的初步阶段。在这一阶段,模型尚未开始生成输出,可能会对输入的文本进行一些初步处理,如分词、编码等。
  • Decode (解码):解码阶段是模型开始生成实际输出的过程。在这一阶段,模型根据已经处理的输入内容,通过解码器生成响应文本。这个阶段涉及到语言模型的推理过程,模型基于概率生成最可能的下一个词或标记,逐步构建完整的输出。

TTFT

Time to First Token指的是从模型接收到输入到它开始生成第一个令牌(Token)的时间。这个时间越短,表示模型的响应速度越快。

prompt stealing attack(PSA)

一种针对基于大型语言模型的系统的攻击。攻击者通过捕获和分析有效的提示(prompts),来窃取生成文本的核心信息或理解模型的行为。简单来说,攻击者“偷取”用户输入的提示,从而影响或篡改生成的输出。

peeping neighbour attach(PNA)

一种侧信道攻击,攻击者通过监视或干预邻居或同一系统中其他用户的活动,来推测他们的行为或数据。在这种攻击中,“邻居”通常指的是同一物理系统或同一网络中的其他用户。

TPR FPR

  • TPR (True Positive Rate):真正率,也叫敏感性,表示正确识别正样本的比例。公式为: $$ TPR = \frac{TP}{TP + FN} $$ 其中,TP 为真正例(正确的正例),FN 为假负例(错误的负例)。
  • FPR (False Positive Rate):假正率,表示错误将负样本判定为正样本的比例。公式为: $$ FPR = \frac{FP}{FP + TN} $$ 其中,FP 为假正例(错误的正例),TN 为真负例(正确的负例)。