信息检索之词典及容错式检索
扫描二维码
随时随地手机看文章
1、主要内容:对查询中存在拼写错误或存在不同拼写形式具有鲁棒性的拼写矫正技术
①、支持词典快速查找的多个数据结构;
②、通配符查询;
③、拼写上存在错误的查询,自动校正技术(针对单个词的独立矫正;针对整个查询串的整体矫正技术);
④、查询词发音相似的查询;
2、词典搜索的数据结构:确定每个查询此项是否在词汇表中 可参见:1、MySQL索引背后的数据结构及算法原理;2、从B树、B+树、B*树谈到R
树;3、深入研究B树索引
①、哈希表方式;
②、搜索树方式;
存在某种方法允许内部绩点的子树树目在某个固定区间内变化来实现树的插入删除操作,B树:
B树的特点是将二叉树的多层“压平”到一层而得到树结构,在内存空间不足以存下全部词典而必须要将部分词典常驻磁盘时,这样做非常有效,因为在这种情况下“压平”可以在将词典调入内存时实现后续而知测试的预读取。
3、通配符查询:[k-gram索引]
4、拼写矫正:可参见:
①、英文版:How to Write a Spelling Corrector
②、中文版:怎样写一个拼写检查器
③、贝叶斯推断及其互联网应用(三):拼写检查
④、拼写纠正
5、基于发音的矫正技术[soudex算法]
基本思路:对每个词项,进行一个语音哈希操作,发音相似的词项都被映射为同一值。