DD代驾.高级数分已二面

2024-01-08 18:41:48

dd高级数据分析面试感觉更偏数科一点，问了很多AB实验和反事实因果推断的问题，同时也比较关注怎么对模型进行的评价

一面：小组长|组员 40min

自我介绍
项目深究
1、你在实际工作做AB的流程
2、AB实验你们咋算的样本量
3、AB实验你们啥情况会做AA
4、实际业务场景遇到过AA不同的情况么怎么处理
5、实际业务场景遇到过AB效果不通过但明显上线是有提升的情况么怎么处理
6、给了一个实际业务场景：由于法规问题DD代驾广告只能在某个城市进行全量分发，怎么回收效果
7、讲下PSM-DID在实际业务场景中是怎么做的？
8、PSM用的一对一匹配还是一对多匹配，为什么
9、讲下你在营销场景怎么用的营销增益模型
10、你模型的效果怎么样，模型用什么算法做的分类，分类效果用了什么指标，后续怎么在这做的优化
反问：问了部门框架、我进去后的职责，分析师的价值、OKR在公司怎么评价的、对我的反馈

参考答案：
一面问题gpt作答：
1、你在实际工作做AB的流程

我会先明确实验的目标和假设，然后设计实验方案，包括实验组和对照组的分配方法，实验指标的选择和计算方法，实验周期的确定等。
然后我会进行样本量的估算，根据实验的效果量，显著性水平和统计功效来确定需要多少用户参与实验。
接着我会在合适的平台上部署实验，收集数据，并定期监控实验的运行情况，检查是否有异常或者干扰因素。
最后我会对实验结果进行分析，检验假设是否成立，评估实验效果的显著性和稳定性，总结实验的收获和改进点，并给出上线或者迭代的建议。

2、AB实验你们咋算的样本量

请添加图片描述

3、AB实验你们啥情况会做AA

AA实验是指把同一个用户群体随机分成两个组，但是不对他们施加任何干预，只是观察他们的行为差异。我们会在以下情况下做AA实验：
- 在正式做AB实验之前，检查实验平台是否有问题，比如随机分组是否均匀，数据收集是否准确等。
- 在正式做AB实验之后，检查是否有其他因素影响了实验结果，比如季节性变化，竞争对手的行为等。
- 在想要了解用户群体本身的特征或者行为模式时，比如用户的留存率，转化率等。

4、实际业务场景遇到过AA不同的情况么怎么处理

我遇到过一次AA不同的情况，当时我们想要测试一个新功能对用户活跃度的影响，所以我们把用户随机分成两个组，一个组开启新功能，一个组关闭新功能。但是在开启新功能之前，我们先做了一个AA实验来检查平台是否正常。结果发现两个组的活跃度有显著差异，而且差异很大。
我们分析了一下原因，发现是因为我们在分组时没有考虑到用户的地域属性。由于我们的产品是一个本地化的服务，不同地区的用户有不同的使用习惯和偏好。而且当时正好是春节期间，一些地区的用户出行更多，一些地区的用户留在家里更多。所以导致了两个组的用户活跃度不同。
我们处理的方法是重新分组，把用户按照地域进行分层抽样，然后再随机分成两个组。这样就可以保证两个组的用户在地域上是相似的，从而减少干扰因素的影响。

5、实际业务场景遇到过AB效果不通过但明显上线是有提升的情况么怎么处理

我遇到过一次这样的情况，当时我们想要测试一个新的推荐算法对用户点击率的影响，所以我们把用户随机分成两个组，一个组使用新算法，一个组使用旧算法。结果发现两个组的点击率没有显著差异，也就是说新算法没有比旧算法更好。
但是我们发现新算法有一个优点，就是它能够推荐更多的长尾内容，也就是一些不太热门但是有价值的内容。这样可以增加用户的内容多样性和满意度，从而提高用户的留存率和转化率。所以我们决定上线新算法，并且继续优化它。
我们处理的方法是在上线新算法之前，我们先做了一个长期跟踪实验，观察两个组的用户在留存率和转化率上是否有差异。结果发现新算法确实能够提高这两个指标，并且差异是显著的。所以我们就有了信心上线新算法，并且继续优化它。

6、给了一个实际业务场景：由于法规问题DD代驾广告只能在某个城市进行全量分发，怎么回收效果

这个场景比较复杂，因为无法进行随机对照实验来评估广告效果。我会尝试用以下方法来回收效果：
- 首先，我会选择一个或者多个相似城市作为对照组，比如在人口规模，经济水平，交通状况等方面与实验城市类似的城市。然后我会收集这些城市在广告投放前后的相关数据，比如代驾需求量，代驾订单量，代驾收入等。
- 其次，我会用一些因果推断的方法来消除其他干扰因素的影响，比如倾向得分匹配（PSM），差分进差分（DID），合成控制法（SCM）等。这些方法可以帮助我构建一个合理的计数事实（counterfactual），也就是如果没有广告投放，实验城市会发生什么。
- 最后，我会用实验城市和对照城市在广告投放前后的数据差异来估计广告效果，比如代驾需求量增长率，代驾订单量增长率，代驾收入增长率等。这些指标可以反映广告对用户行为和商业目标的影响。

7、讲下PSM-DID在实际业务场景中是怎么做的？

PSM-DID是一种结合了倾向得分匹配（PSM）和差分进差分（DID）的因果推断方法。它可以用来评估一些无

8、PSM用的一对一匹配还是一对多匹配，为什么

PSM可以用一对一匹配或者一对多匹配，具体取决于实际情况和目的。一般来说，一对一匹配可以减少匹配偏差，保证每个实验组的个体都有一个相似的对照组的个体。但是一对一匹配也会导致一些问题，比如匹配失败，匹配质量低，样本量减少等。所以有时候我们会用一对多匹配，比如每个实验组的个体可以匹配多个对照组的个体，或者每个对照组的个体可以匹配多个实验组的个体。这样可以增加匹配成功率，提高匹配质量，保留更多的样本量等。但是一对多匹配也会增加方差，降低效率等。所以我们需要根据具体情况和目的来选择合适的匹配方法。

9、讲下你在营销场景怎么用的营销增益模型

营销增益模型是一种用来评估营销活动效果的模型。它基于以下假设：
- 营销活动可以影响用户从一个状态转移到另一个状态，比如从未知到知晓，从知晓到感兴趣，从感兴趣到购买等。
- 用户在不同状态下对营销活动有不同的反应，比如在未知状态下更容易被吸引，而在购买状态下更容易被留住等。
- 营销活动有不同的类型和强度，比如广告，促销，优惠券等，并且有不同的投放渠道和时间。
我在营销场景中用营销增益模型的步骤如下：
- 首先，我会定义用户的状态和转移概率，并且根据历史数据或者专家知识来估计它们。比如我可以把用户分成四个状态：未知（U），知晓（A），感兴趣（I），购买（B），并且估计每个状态之间的转移概率。
- 其次，我会定义营销活动的类型和强度，并且根据历史数据或者专家知识来估计它们对用户状态转移概率的影响。比如我可以把营销活动分成三种类型：广告（AD），促销（PR），优惠券（CO），并且估计它们对每个状态之间转移概率的增益系数。
- 最后，我会根据营销活动的投放计划和预算来模拟用户状态转移过程，并且计算营销活动的效果指标，比如覆盖率，参与率，转化率等。然后我可以根据这些指标来评估和优化营销活动的策略。

10、你模型的效果怎么样，模型用什么算法做的分类，分类效果用了什么指标，后续怎么在这做的优化

我做过一个模型是用来预测用户是否会点击某个广告的。这个模型的效果还不错，比基准模型有明显的提升。我用的算法是逻辑回归，因为它简单而且易于解释。我用的分类效果指标是AUC，因为它可以反映模型对正负样本的区分能力，而且不受样本不平衡的影响。我后续在这做的优化有以下几点：
- 我尝试了一些特征工程的方法，比如对连续特征进行分箱，对类别特征进行编码，对文本特征进行向量化等，来提高特征的表达能力和区分能力。
- 我尝试了一些模型选择和调参的方法，比如网格搜索，交叉验证，正则化等，来避免过拟合和欠拟合，提高模型的泛化能力。
- 我尝试了一些模型融合的方法，比如随机森林，梯度提升树，神经网络等，来增加模型的复杂度和灵活度，提高模型的拟合能力。

DD二面大佬面 1h

主要深究项目中的归因经历，同时对个人的行业思考、个人协作能力进行了考察
1、自我介绍
2、项目深究

讲下付费营销这个项目，背景、目标、策略、动作、效果
对我讲述进行他自己理解的复述，向我确认细节，问你觉人工智能可以应用在那些环节？
单就引导语场景进行了深究，你怎么知道优化后引导语让那些人愿意点了，那些人没有愿意点（说实话没太get他想问的点，答目前只是进行一轮AB实验通过用户转化率对效果进行评价，更加精细化下转的方法在付费页环节的营销增益上有体现，后续也会上个性化引导）
那你实验时优化的效果提升12%，全量后有没有提升12%，如果没有，为什么没有提升12%
什么情况下会做AA，怎么做AA，怎么通过AA判断分流的可用性，AA的原假设是啥，如果把AA的原假设和备择假设互换会发生什么？
这个场景用的是UV分流还有PV分流，你觉得两者分别在什么场景应用比较合适
在你实验场景中和研发同学遇到几个比较多的问题是什么
你觉得可以怎么解决
假设一个环境，你合作的业务方都有很强的数据能力，你觉得你的价值优势壁垒是什么
你自己的职业规划是啥想往商业化走还有偏数科走（感觉没答好）

3、反问（这里有点被问楞了，前面交流时已经给了很多反馈，有点不知道问啥了）

大概听说过dd的运营都有一定的数据分析能力，就反问了大佬对最后一个问题的想法（感觉大佬有点答非所问）晕~
反思：感觉还要再问下对如果我进去后的期望和建议的蒙了没问

文章来源:https://blog.csdn.net/Zengmeng1998/article/details/135462393
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！

DD代驾.高级数分 已二面

一面：小组长|组员 40min

DD二面 大佬面 1h

DD代驾.高级数分已二面

DD二面大佬面 1h