用户输入相关query能够被正确识别
核心指标:query识别准确率 和query识别的召回率
抽样200条query,其中重复项数量为10。
机器识别出33条(包含天气关键词),25条识别正确,8条识别错误,准确率 = 25/33 = 75.76%;
手动识别还有6条query明显为搜索天气,召回率 = 25/(25+6) = 80.65%
一、识别错误query,共8条,占比5%
系统识别策略为query包含“天气”即展示天气信息,同组搜索词中包含“天气”,但未进行其他关键词识别,如“歌曲”“品冠”
二、应识别query,共6条,占比3%
口语化query不包含“天气”关键词,没有被识别出来,如“冷不冷”,“准备什么衣服”,及非常明显的“温度如何”
三、建议识别query,共40条,占比20%
与地点、景区相关query,与天气需求有潜在关联,如“河北迁西游”“大连自驾游”“深圳”“昆山”等
四、问题小结
-当前识别策略仅识别带有”天气“的query
-切词不够准确
-不识别与天气强关联、潜在关联的其他关键词
将表格中query按需求明确、需求明确且有特殊要求、需求不明确、非query需求进行归纳
-解决方案及优先级预估
开发难度与收效评估
综合影响面和开发难度,确认开发优先级:潜在关键词拓展>多关键词切词>口语化同义词拓展>转化特殊要求>长query处理
一、项目背景
目前的搜索策略对于用户搜索天气需求的识别存在较为明显的问题,经计算:
准确率 = 25/33 = 75.76%;
手动识别还有6条query明显为搜索天气,召回率 = 25/(25+6) = 80.65%
二、项目目标
通过对搜索词识别的优化,将整体召回率、准确率提升至90%以上
三、需求描述
3.1 切词及口语化关键词的优化
3.1.1 切词
切取强关联词,根据识别展现搜索结果,如男朋友今天气死我了,则切词为男朋友I今天I气死我;同时,切取天气+歌曲,识别两个关键词的关联性
3.1.2 需求明确时,拓展口语化同义词库。天气的延展关键词,如冷、暖、雨、雪等,相关延展如下:
识别出以上同义词,都展示天气搜索结果。如关键词为北京冷吗,则识别为北京+冷(=天气),显示搜索地点的天气状况;
3.2 转化特定需求
3.2.1 转换query中特定需求,如关键词为北京今天冷吗,则识别为北京+今天+冷(=天气),其中”今天“关键词需要系统获取今日日期(2018-01-10),则显示今天起近一周的天气预报
3.3 潜在关键词拓展
3.3.1 潜在关键词拓展,有关天气的query中地点搜索占比较大,策略一期优化地点搜索结果页,如下图增加天气推荐标签;在收集用户足够的用户行为后,决定是否给与天气直观展现、排序,及是否根据城市属性区分差异化展示结果;
3.4 其他长query,即使包含天气关键词也不展现天气结果,如歌曲歌词、文章诗词
3.5 拓展、优化其他关键词搜索库,如音乐、古诗词搜索库
四、统计指标
整体更换搜索关键词的比例是否下降,精确到2次更换、多次更换;
系统调整后,整体关键词搜索准确率和召回率是否提升;
地点关键词搜索结果页中,推荐天气标签的点击量;