Lecture 3 B+树和检索

:material-circle-edit-outline: 约 422 个字 :material-clock-time-two-outline: 预计阅读时间 1 分钟

B+树

m阶B+数每个结点最多有m个子树，有m-1个数值

3阶B+数又称2-3树

4阶又称2-3-4树

根节点性质比较特殊，子树数量下限是2，为什么（90min）

去看一下删除（90min）

学信息检索，做一个搜索引擎

这个办法好用，但实际得到的矩阵太大了

然后可以将这个矩阵看成邻接矩阵，转化为图

现实中节点数和边数相似，故将图用邻接表表示更好

这里没听见为什么是倒排

倒排表不仅记录在哪出现，还记录了度数/频率

记录度数是为了加快检索速度。当用户输入多个词的时候，先交度数少的就能减少交的运算量

再记录词出现的位置

这里已经能写出一个搜索引擎框架了，但是想应用还有很多问题

下面给出一些解决策略

比如有些词每个文档都有，那就不要维护这个词了

字典树课后学一下，什么try树，hash函数

那个什么内存爆炸的地方重新听一下11：14

为了应对变化（网页更新等等），我们可以准备两个倒排表，一个稳定的主表，一个不断更新的小表，小表接受爬虫的折磨。检索时两个表都检索。

至于网站过时可以打一个mark，但不删除，检索时给最新的就好。

课后重新听，看钉钉群材料

第二节课后面没听