谢谢🐙老师,希望他不要挂我
2 信息检索模型
Boolean Model
BM优缺点
-
最常用:简单、易理解,方便控制
-
相当有效的实现方法
-
不支持部分匹配
-
难以对输出排序
-
难以进行自动的相关反馈
VSM
- 假设索引项不相关,文档和查询是同一类东西
- 词袋模型:不考虑词的顺序
TF-IDF
wt,d=(1+logtft,d)⋅logdftN
Similarities
@Include Similarities={DotProduct,Cosine}
Jaccard
JaccardSim(D,Q)=D2+Q2−D⋅QD⋅Q
VSM原理
doc/query to vec
VSM优缺点
-
易实现
-
引入词项权重
-
能进行相似度的度量
-
独立词项假设
-
缺乏语义和语法信息
-
仅是一个检索模型
-
假设文档和查询是同一类东西
概率模型与语言模型
@IIgnorable🌑
3 信息检索评价
评价动机
基本指标
@Include ClassifierBase={Precision,Recall,F-Measure}
单值概括
MAP
查询集合中,每个查询平均准确率(不同召回率点上的平均准确率)的均值
R-Precision
查询q结果中,第R个位置的准确率(R为相关文档总数)
准确率直方图
多个查询的R-Precision
Precision@N
第N个位置上的准确率
RR & MRR
- RR=结果中第一个相关文档出现位置的倒数
- MRR=平均的RR
Bpref
如果对于查询,已知R个相关结果,n是前R篇不相关文档集合的子集
Bpref=R1r∑(1−R∣排在r之前的n∣)
NDCG
CGn={G1,CGi−1+Gi,i=1i>1DCGn={CGi,DCGi−1+logbiGi,i<b(通常为2)i≥b
IDCG:通过Gi排序的理想情况下,计算的DCG
NDCGn=IDCGnDCGn
一致性检验的判定
- 判定人之间的一致性:Kappa指标κ=1−P(E)P(A)−P(E)
- P(A)观察到的一致性判断比例:expected.Zip(actual).Where(i1=i2).Count()/total.Count()
- P(E)随机情况下期望的一致性判断比例:expected.Zip(actual).Sum(i1∗i2)/total.Count()∗total.Count()
- 32≤κ≤1时,判定结果可接受
4 文本操作
文本处理
- 断词(英文)
- 异文合并
- 提取词干,形态还原(英文):查表,词缀删除,后继变化数
- 繁简转化
文本特性
@IIgnorable🌑
5 相关反馈和查询扩展
相关反馈
@IIgnorable🌑
查询扩展