跳转至

data_target

Paper list

A survey of Automatic Evaluation Methods on Test,Visual and Speech Generations

“数据靶点”综述范围:在AIGC领域生成的数据中找漏洞
评估出价值低的数据
数据评估的要素:context(input),criteria,reference answer,model-generated content
评估协议:single-wise,pair-wise,corpus-level(all generation in a test set)
评估基本方式:heuristic,embedding-based,learning-based,LLM-based,benchmark-based

NLG(neural text generation)

  • heuristic evaluation
  • word-overlap(词重叠)
    • 文本相似性
      BLEU,ROUGE,METEOR:n-gram overlap
      chrF,METEOR:combine precision and recall
      NIST,CIDEr:n-grams weight
    • 文本多样性
      Rep-n,Distinct-N:unique n-gram proportion
      Self-BLEU:sentence-level BLEU score calculation
      EAD:adjusts(how?) the number of distinct tokens based on statistical expectation for longer texts
    • 事实一致性
      QA models + output summary与source的一致性测量
      all reference-based(HighRES is reference-free but needs annotation to serve as reference)
      可以完全reference-free吗?
  • edit-distance
    TER,WER:generated text->reference text需要改变的词数
  • generation probability
    perplexity(PPL):对未知文本的预测准确度,PPL越低(接近1)模型预测置信度越高
    BARTScore
    CTRLEval:designed text infilling tasks(完形填空)
    GPTScore
  • other
    FACE:对文本交叉熵的傅里叶分析
    Mark-Evaluate:人口模型
    Zipf:自然语言的词法规律
    Q2:knowledge source&dialogue response
  • embedding-based evaluation:semantic similarity
    ...
  • learning-based evaluation:train on annotated(标注) data
  • LLM-based evaluation:prompt+reasoning
  • Benchmark-based evaluation

Vision

future work

评估偏差、跨领域泛化和复杂生成系统的可扩展性

A Comprehensive Study of Shapley Value in Data Analytics

沙普利值在数据分析流水线中的利用情况与前景
沙普利值的计算:排列/组合/蒙特卡洛采样法(数据要素交易基础Lab1)

合作博弈模型

合作博弈在数据分析实践中的对应:
player->数据特征/样本/数据集/派生数据
效用->goodness-of-fit scores(accuracy)/output 应用方面:构建公平的数据要素市场;提升数据的性价比;将分析结果转化为解决实际问题

沙普利值应用的挑战与解决方式

计算效率问题

  • 蒙特卡洛采样(MC)
  • ...

近似出错

隐私保护

可解释性

SVBench

Data Swarms: Optimizable Generation of Synthetic Evaluation Data

优化合成评估数据的生成推进LLM的量化评估

When Dynamic Data Selection Meets Data Augmentation

动态数据选择和数据增强优化结合的训练框架
估计样本的局部密度与多模态语义一致性联合分布,针对性筛选适合增强的样本,同时抑制噪声或模糊数据,在保证泛化能力的前提下缩减数据集规模

核心技术

data selection
data augmentation
combination

result

在ImageNet-1k数据集上实现了训练成本降低50%且性能无损
增强了模型的抗噪能力和鲁棒性

7.4明确data target:

不是将大部分数据低质量都视为靶点
而是寻找质量低数据的代表性范本,上游数据对下游任务(性能)有直接损害的关键数据
对这些数据做cluster,然后性能增强
首要关注目标:文本/图像->数值类型(e.g.传感器,缺失,偏移,...)
自动增强(后续考虑)

尽可能在少量的条目上修改对下游task提升
增强手法:“治疗”,update而非传统data augmentation通过增加新的样本的增强方式
//调研传统data augmentation的方式,比较不同(可能还能结合?比如先治疗再增强)
少量高质量的数据,大量低质量的数据
低质量数据靶点:什么是低质量的,有哪些(类别),如何识别,如何增强

调研方向:数值类型数据
数值类型的数据集(结构化的表格类型):质量是如何评估的(传统数据评估的算法,缺失值,错误值);传感器/分类器:目前数据修正的方法
传感器数据做预测/regression,kaggle上找一些数据集(天然有缺陷)

下一步:调研文献,收集数据集