作业8:百度搜索策略优化

发布日期:2021-10-16 12:29:50 作者:admin 人气:

工作规定:

依据出示的百度后台检索天气200个query,进行下列每日任务:

确立网页搜索对策的方向或理想化态对取样数据信息开展识别剖析,并归类找到最少三类典型难题。(可依照搜索关键词、系统软件识别为天气需求、人工识别为天气需求,是不是误识别、误识别缘故等维度开展标注剖析...)界定并估算出关键指标值:均方误差和准确度为提升关键指标值,试对于每类典型难题,得出优化提议和解决优先(最少三类)

1、确立网页搜索对策的方向或理想化态

网页搜索的理想化态:满足客户迅速找出自已想查找的內容。一是精确识别客户需求(这儿是天气),二是迅速回到結果(对好几个結果开展排列并呈现)。

可以用准确度、均方误差、客户点击量来考量。

2、对取样数据信息开展识别剖析,并归类找到最少三类典型难题。(可依照搜索关键词、系统软件识别为天气需求、人工识别为天气需求,是不是误识别、误识别缘故等维度开展标注剖析...)

根据依照搜索关键词、系统软件识别为天气需求、人工识别为天气需求来剖析,发觉系统软件识别主要是借助爬取“天气”这一关键字,因而存有系统软件误识别和漏识别状况,关键有下列典型难题:

不正确识别:歌曲歌词或是俗话中含有“天气”,被误爬取。例如“音乐春季天气真棒”、“天气 品冠”、“男友今天气死我了”。确立需求未被识别:“溫度”、“雨天”、“冷”等有关词系统软件爬取不上。例如“广州市如今冷不冷”、“北京市明天下雨吗”、“九寨沟现在温度怎样”。潜在性需求未被识别:例如检索地名大全、自驾旅游,是有检索天气的潜在性需求的,可是未被识别。例如“昆山市”、“大连自驾游”。

3、界定并估算出关键指标值:均方误差和准确度

在其中理想化情况下应当被识别为天气需求的query总数:34

恰当识别为天气需求的query总数:28

系统软件识别的天气需求的query总数:36

4、为提升关键指标值,试对于每类典型难题,得出优化提议和解决优先(最少三类)

根据剖析取样数据信息,找到的典型难题,制订下列优化方案:

评定每一个优化方案的需求应急度、开发设计难度系数,确立优先。

优化切词标准

尽管不正确的比率低,可是做为检索设备的基本作用,必须十分重视。

选用“权切词”的技术性,依据近期一个星期或是近期一天合理搜索指数的综合性,来给每一个搜索关键词权重计算,权重值高的优先选择切词。

扩大词典,优化词典全自动百度收录标准

依照尽量细的层面开展重要词的分类归库,持续优化关键词库全自动百度收录标准。

优化词义解决,提升关联词语分辨

整理普遍的需求,例如“冷不冷”“穿什么衣服”。例如将与天气有关的语汇,如“溫度”“雨天”,与“天气”关系。

根据自然语言理解解决、深度学习不断完善。

返回顶部

拨打电话
在线咨询