Bing 《产品经理策略能力提升》学员
2018年08月20日回答了“调研豆瓣图书推荐策略并归纳问题

一、定义理想态

1. 初步定义理想态

对于【喜欢这本书的人也喜欢】这种推荐型的产品,其理想态为“以平台当前能力范围内,能够给出用户感兴趣的推荐书籍”

2. 核心指标及拆解

衡量算法是否满足理想态的关键指标:

指标1:用户是否有点击行为——即点击推荐书籍,进入该书籍的详情页;

指标2:用户在推荐书籍的详情页进行正面操作——即在详情页进行【想读】、【评价】(评价在3星及3星以上)、【加入购书单】、【添加到豆列】、【推荐】操作。

指标2是指标1更进一步的衡量指标,故在此次指标拆解过程中,优先考虑对指标1实现效果的衡量评估。

同时,进一步量化指标1的衡量标准:

假定量化标准为:

  1. 量化推荐书籍的标准数。根据平台已知,【喜欢这本书的人也喜欢】板块中推荐书籍的个数最多为10本;因此,将10本量化为标准值,即推荐书籍总数少于10本则认为不满足理想态;

  2. (在符合推荐标准数的条件下)量化用户选择点击的书籍数与推荐书籍总数的行为占比(以下简称:选择占比率)。当选择占比率不低于50%(即若推荐书籍的总数为10,则用户选择点击的书籍数不低于5本),则认为该行为满足理想态。

备注:由于用户的选择占比率需要在后续用户session监测中进一步验证,故在此只针对推荐算法的匹配程度进行讨论。

3. 重新定义理想态

现在,我们来重新定义理想态:

“以平台当前能力范围内,能够给出让用户愿意点击进入详情页的推荐书籍——即让用户产生点击行为的推荐书籍,且推荐书籍总数不少于10本”

二、 对未达到理想态情况进行抽样分析

1. 拆解未达到理想态的情况

根据理想态求反,我们拆解未达理想态的情况有哪些:

  1. 所推荐书籍总数少于10本;

  2. 所推荐书籍总数满足10本,但用户对所推荐书籍都不满意——无点击行为,选择占比率=0%;

  3. 所推荐书籍总数满足10本,用户对所推荐书籍的满意度低——选择占比率≤50%

汇总情况可得,未达理想态的情况为以下两种:

  1. 所推荐书籍总数少于10本;

  2. 所推荐书籍总数=10本,但0%≤选择占比率≤50%

2. 抽样分析

2.1 目的

选择10本主类型相同的原书籍作为样本数据,通过对样本数据输出结果的分析,得出目前豆瓣读书中【喜欢这本书的人也喜欢】该功能模块的推荐策略:1)推荐策略能否满足理想态;2)若不满足,存在哪些问题;3)对于问题,后续的改进计划。

2.2 样本选择

样本主类型:推理小说

样本:

《本阵杀人案》

《十角馆事件》

《雪人》

《法医秦明:无声的证词》

《白夜行》

《沉默的羔羊》

《无人生还》

《沉睡的人鱼之家》

《姑获鸟之夏》

《别相信任何人》

 

2.3 抽样结果分析

2.3.1 原书籍:《本阵杀人事件》



推荐结果分析

  1. 推荐书籍数满足10个。

  2. 推荐书籍中的评分都在7.4分以上,优先推荐高分书籍;

  3. 推荐书籍与原书籍的标签的匹配度很高,在75%以上,即标签的推荐权重值高;

  4. 推荐书籍与原书籍的主类型保持一致,即类型的推荐权重值高;

  5. 此次推荐算法会依据【作者】属性作为输入参数,但其权重不是非常高;在推荐书籍中《名琅庄》的作者记录为季芹,与原书籍作者完全不同,却也在推荐列表中;

  6. 在10本推荐书籍中,出现推荐重复书名的情况,对相同书籍未做去重处理。(在这两本书详情页发现,故事大纲几乎一致,只是在书名表达上,略有出入。)

2.3.2 原书籍:《十角馆事件》




推荐结果分析

  1. 推荐书籍总数不足10个;

  2. 在推荐书籍中,没有原书籍作者的其他作品;

  3. 在推荐书籍中,大部分来自同地区作者的较高分作品;

  4. 在推荐书籍中的标签匹配度与原书籍的标签匹配度,在20%~62%;

  5. 在搜索另外一本收录为《十角馆事件》时,则发现在该书籍下推荐列表中,满足10本推荐书籍,且多数为原书籍作者的高分书籍,同时也有其他同类型作者的高分书籍推荐——原书籍与推荐书籍属于同一系列的丛书。

2.3.3 原书籍:《雪人》



推荐结果分析

  1. 推荐书籍总数不足10个;

  2. 在推荐书籍中,大部分是原书籍作者的其他高分作品;

  3. 在推荐书籍中,大部分是相同的丛书;

  4. 在推荐书籍中的标签匹配度与原书籍的标签匹配度,在40%~70%;

  5. 在推荐书籍中,选择推荐其他作者的高分作品;

2.3.4 原书籍:《法医秦明:无声的证词》



推荐结果分析

  1. 推荐书籍总数不足10个;

  2. 在推荐书籍中,大部分是原书籍作者的其他高分作品;

  3. 在推荐书籍中,优先推荐了部分与原书籍同系列的作品;

  4. 在推荐书籍中的标签匹配度与原书籍的标签匹配度,在30%~60%;

2.3.5 原书籍:《白夜行》



推荐结果分析

  1. 推荐书籍数满足10个。

  2. 推荐书籍中的评分都在8.5分以上,优先推荐高分书籍;

  3. 对于不同出版年份的同名书籍,出现重复推荐的情况;

  4. 在推荐书籍中,出现与原书籍相同的推荐书籍;

  5. 在推荐书籍中,出现与原书籍的类型不一致的书籍;

2.3.6 原书籍:《沉默的羔羊》



推荐结果分析

  1. 推荐书籍总数满足10个;

  2. 在推荐书籍中,优先推荐了与原书籍同系列的作品,例如续集;

  3. 在推荐书籍中,出现同书名重复推荐的情况;

  4. 在推荐书籍中,出现与原书籍类型不一致的书籍;

2.3.7 原书籍:《无人生还》



推荐结果分析

  1. 推荐书籍总数满足10个;

  2. 在推荐书籍中,大部分推荐原书籍作者的其他高分书籍,且都是原作者的作品中被收藏次数较多的作品;

  3. 推荐书籍的类型,也与原书籍类型一致;

  4. 在推荐书籍中,出现的其他作者高分书籍;

2.3.8 原书籍:《沉睡的人鱼之家》



推荐结果分析

  1. 推荐书籍总数满足10个;

  2. 由于原书籍的作者东野圭吾在作品输出上的产量和产值都很高,故在推荐书籍中,都是原书籍作者的作品;

  3. 原书籍《沉睡的人鱼之家》是东野圭吾最近作品,因此在推荐书籍中选择了也是评分教过的最近的作品;

  4. 相较于东野圭吾经典作品,《沉睡的人鱼之家》较为冷门,故系统默认用户已知晓东野圭吾其他大热的作品,如《白夜行》等作品,推荐的也都是较为冷门的书籍;

  5. 在推荐书籍中,出现评分低的书籍;

2.3.9 原书籍:《姑获鸟之夏》



推荐结果分析

  1. 推荐书籍总数不足10个;

  2. 原书籍属于偏小众的推理小说,且内容带有浓烈的鬼怪玄幻色彩,说明喜欢看此类书籍的用户,会对玄幻鬼怪较为感兴趣,但在推荐书籍中,除了《巷说百物语》以外,其他三本是属于“本格推理”,在主题类型上并不太符合用户喜好。

2.3.10 原书籍:《别相信任何人》



推荐结果分析

  1. 推荐书籍总数满足10个;

  2. 在推荐书籍中,类型与原书籍类型不全一致;

  3. 在推荐书籍中,与原书籍标签的匹配度在25%~50%;

  4. 在推荐书籍中,出现评分低的书籍;

2.4 结果总结

2.4.1 豆瓣读书推荐策略分析

1. 推荐算法中,权重较高的属性:

  1. 【类型】属性:优先推荐与原书籍相同类型的书籍。虽然有些推荐书籍与原书籍并非同一个作者,但基本上能够保持一致的书籍类型;

  2. 【作者】属性:对于较为高产作者的书籍推荐中,基本上能满足10本的推荐数,且基本上是相同作者的作品推荐;

  3. 【丛书】属性:相同书名但版次不同的书籍,优先推荐相同丛书或同系列的推荐书籍;

  4. 【评分】属性:1)优先推荐同作者中分数较高的书籍;2)不同作者下,优先推荐同类型下的高分作品;

  5. 【常见标签】属性:除了主类型外,标签匹配度也在推荐权重考虑范围内,一般有40%以上的标签与原书籍一致。

2.推荐算法中,权重较低的属性:

【地区】、【出版社】、【译者】等属性对算法的干预作用不大,在算法中的权重较低。

2.4.2 可能存在的问题解析


三、解决方案

结合上述抽样结果结果的问题分析,初步制定以下解决方案:


1)关于重复推荐

  • 可以将推荐书籍与原书籍的名称进行比配,过滤相同书名的书籍;

  • 可以将推荐书籍中相同书名不同版次的书籍汇总合并,过滤显示评分较高的书籍;

在复杂程度较为简单的前提下,书名相同但版次不同的情况出现概率略大,优先考虑实现;

2)关于推荐书不足

  • 对于偏小众的书籍,出现推荐书不足10本的情况较多,优先考虑实现;

3)关于匹配精准度

  • 对于相同书名的原书籍,但其对应的推荐书籍却不同,有的甚至完全不同;出现此类情况的原因可能是因为相同书名但版次不同,所属丛书也不同,故优先会推荐同一丛书的书籍;此情况可以接受,故其优先级设为低;

  • 对于推荐书籍与原书籍类型不一致的情况,此情况出现的频率不大,但是由于其影响面较大,建议其优先级为中。

返回首页 查看用户故事 查看问题描述