风控建模面试经历

 2024-02-20 00:02:29  阅读 0

本文转载自知乎楼晓红的文章《信用风控模型岗位的一些面试经历》

另外,我根据自己的积累写了一些问题的解答。 文章中灰色部分是我的答案。 可能存在错误或理解不当。 我希望你能纠正我。

简历的细节我就不多说了,但关键是一些大的互联网公司非常重视面试者的“新想法”,这样他们就能准备出更周到、更有价值的计划。 技术栈可以重点准备几个方面:

算法:

1.一系列记分卡流程,包括LR、WOE、IV简单公式、为什么使用WOE、WOE为什么使用ln、以及记分卡分数换算。

答:主要写下为什么使用WOE以及WOE为什么使用ln。

为什么使用WOE:一种理解是为什么变量需要分箱,另一种理解是为什么使用WOE值而不是原始数据进入模型。 主要原因是为了使变量更加鲁棒、简化模型、引入非线性以及加快运算速度。

WOE为什么使用ln:赋予逻辑回归一定程度的非线性拟合能力。 因为WOE总和一定是单调的,但变量值却不一定。要深入思考WOE,可以阅读这篇文章

2.(主要是损失函数、泰勒公式、正则项)的推导,以及与RF/LGBM/GBDT的区别。 另外,决策树ID3、C4.5、CART还是需要了解的。 这两个基本上是大部分风控团队常用的算法。 数据集划分方法:开发集(训练、验证)和跨时间测试集。

答:XGB的推导以及与GBDT的区别:

筛选变量回归方法中的数据_回归中的变量筛选方法_lasso回归筛选变量为0

筛选变量回归方法中的数据_lasso回归筛选变量为0_回归中的变量筛选方法

关于机器学习算法的编写,可以看一下《机器学习百相》这本书,或者我之前写过一篇关于常用机器学习原理推导的文章。 上面提到的算法都写好了。

3.特征工程:特征推导(最好有熟悉的推导方案)、特征选择(可解释性、稳定性、预测能力、如何从一百到十选择的过程)、特征分箱方法。

答:特征推导可以根据时间片、特征、统计方法推导。 我在这方面没有实际经验。

对于特征选择,常见的有IV值、相关系数、稳定性CSI、一致性逻辑回归系数、逻辑回归变量的显着性、xgb特征重要性等。 使用逻辑回归记分卡过滤变量的步骤示例如下:

1.保留IV值大于0.02的变量,总共500个;

2、对初筛得到的数量进行WOE编码;

3、测试并过滤变量之间的两两相关性,删除相关性大于0.7的400个变量,留下100个变量;

4.变量稳定性测试,删除稳定性大于0.05的变量,留下60个变量;

5、采用逐步回归法筛选最终入模变量,剩余10个变量入模。

4.模型优化:参数调整方法(主要是XGB参数调整,从训练速度、准确率和过拟合三个方面解答+网格搜索或贝叶斯优化)、自定义损失函数和评价函数经验、通过拟合和欠拟合解决方案、梯度下降和牛顿法。

答:关于XGB参数调整,可以看我之前写的xgb参数调整总结文章,或者网上有调整参数的步骤。 主要采用网格搜索算法。 贝叶斯优化参数调整尚未在实践中使用。

回归中的变量筛选方法_筛选变量回归方法中的数据_lasso回归筛选变量为0

回归中的变量筛选方法_筛选变量回归方法中的数据_lasso回归筛选变量为0

自定义损失函数和评估函数:

只需要保证损失函数二阶可微,模型参数可以通过最大化评价函数来求解,并且都可以根据业务指标进行调整。 我也没有这方面的实际经验。

5. 模型评估:根据特征/模型结果、跨时间窗口的趋势稳定性和可解释性评估 KS/AUC/PSI。 如何计算 KS/AUC/PSI。 当然,如果你不是构建二分类模型,还需要准备其他内容。

6.拒绝推断:简历中提及时会被询问。 为什么要使用拒绝推理,它的作用是什么,它的方法是什么。

答:如果只用贷款样本进行建模,由于“部分样本估计总体”的问题,对所有申请人的风险估计会不准确,从而导致模型出现估计偏差。

如果贷款利率很高(比如90%+),那么就没有必要做拒绝推论,样本偏差的问题就不再明显了。

如果贷款利率非常低(例如5%左右),那么由于拒绝推断与实际贷后表现之间存在较大差异,模型表现实际上可能会下降。

关于拒绝推理,可以看王秋实老师的这篇文章《风控建模中的样本偏差与拒绝推理》

7.模型监控:基本回答监控哪些内容,模型更新的频率或情况。

答:模型监控分为前端监控和后端监控。 前端监控报告可在模型上线1个月后执行。 目的是观察申请客户或近期客户类型是否与模型开发样本一致。 后端监控报告是在模型上线后一段时间后开始执行(可以是滞后月数,也可以是不良客户的履约期长度),即需要样本业绩。 目的是观察评分模型对于申请客户或最近的客户群体是否仍然具有歧视性。 即前端监控报告监控稳定性,后端监控报告监控差异化。 其尺寸均为开发样品和现用样品。

8.其他:对CNN、DNN、RNN、LSTM等神经网络有一点了解。 了解什么参数共享、稀疏交互、梯度消失、梯度爆炸、BP等。面试时经常会被问到是否了解神经网络。 这应该被视为一个奖励。 如果你说不会,那还不好意思,你可以花一天时间看看。

如何投递简历

准备好60-70%的简历和技术栈后,就可以提交了。 一般需要3-5天左右才能收到面试,所以有充足的时间准备。 如果有内部推荐,请寻找内部推荐。 不过,内部推荐的流程虽然很快,但是对候选人的要求可能会更严格,因为他们的团队目前可能不缺人,所以他们更注重候选人能给团队带来什么新的价值。 没有内部推荐给招聘人员,所以我时不时地刷新简历,等待HR或猎头联系我。 猎头人挺好的,会给一些面试机会。

工作机会

可以考虑互助金融、银行、风控平台。

常见面试问题(包括HR)

个人介绍,换工作的原因。 项目详情。 你可以围绕它是什么、为什么要做、如何做、结果是什么、创新在哪里以及如何改进进行准备。 您目前的工作内容、对风控的了解、团队架构、您负责的产品类型、贷款规模、客户数量、平均交易金额、额度、定价等。有些问题可能涉及公司隐私,尽量不要深入太多细节。 技术栈:基本上就是1中列出的问题。当然,如果你的简历还有其他的,也会被问到。 下面将描述具体的建模过程。 我觉得这个问题有点可笑,所以我就回答建模过程是类似的,然后描述一下整体的流程和需要注意的细节。 如何以及为何定义不良客户?

团队如何与其他部门(例如运营部门、IT 部门)合作?

客户画像相关。 比如产品的目标客户以及不同渠道客户的直观差异。

你认为你对团队的价值是什么?

人民银行信用报告有哪些内容,一代和二代有什么区别?

回答:

1.提供欠税信息、判决信息、执行信息、处罚信息

2.提供运营商付款、欠费等信息

3.长达5年的还款纪律,提供易于解析的结构化数据

4. 新增个人手机号码至5个

5.提供更丰富的异常提示信息和个人异议信息

使用了哪些第三方数据,效果如何?

答:以下是我所知道的一些情况:

黑名单类别:同盾、融汇

征信类别:鹏元、前海、尚子

操作员:树尊

社交类:游坤

您在日常工作中使用哪些工具和算法? 尽量多讲,当然你还要有实际的相关经验。 您认为哪些功能更有用?

答:上次贷款与当前的时间间隔、本月近12个月未逾期的个人消费贷款当前最高实际还款额、近6个月贷款审批数、信用卡审批查询。

贷款前后哪些指标重要? 该策略关注哪些指标? 比如交割率、违约率、提款率等。我主要做贷前工作,所以我来回答一下贷前问题。

答:贷款前看批准率、首次/逾期率、逾期率; 贷款后看回收率、迁徙率、资产率、逾期率、不良率、坏账率。

如何进行冷启动? 专家规则+反欺诈+第三方数据/评级 如何反欺诈? 可以从仁和借贷的核心意图和模式+策略方法来描述。 我不是反诈骗专业人士,所以只是想聊聊。

答:欺诈类型包括第一方欺诈、第二方欺诈和第三方欺诈。 第一方欺诈是指利用真实信息申请贷款,可以理解为个人欺诈; 第二方诈骗是指内部和外部串通骗取贷款; 第三方诈骗是指中介黑色财产诈骗。

至于模型,我们可以谈谈一些无监督学习算法,比如隔离森林和其他异常检测算法。

从策略上看,各种反欺诈策略主要从集中度、异常度、稳定性以及各个维度(设备、位置、行为等)构建。

集中度:比如在一定时间内,同一设备上出现的手机号码数量超过规定数量,就会发出预警。

异常:异常是指该客户与正常客户之间的差异。 例如,设备是伪造的设备,IP是代理IP,GPS是伪造的地址位置。 客户在一分钟内完成所有流程。

稳定性:稳定性是指定期将客户的行为与自己的行为进行比较。 例如,客户正在广东申请贷款,但客户之前从未在广东购买过任何东西。

线下防止渠道欺诈,线上防止中介欺诈。

树模型可解释性:value、Lime等,稍微了解一下即可,但一般不会详细询问。

答案:如何解决机器学习树集成模型的可解释性问题

如何实施定价和配额策略。 它可以用政策、风险、收入和负债来描述。

回答:

定量风险定价:

配额策略:

除了工作内容之外,我平时还学习哪些知识来提高自己。

未来的职业规划。 自我评估。 可以讲执行能力、解决问题的能力、专业能力、抗压能力、沟通合作、领导能力、组织能力等。

自己的优点和缺点。 与上面相同。

有什么要问的吗? 基本上每次都会被问到这个问题。 我也会抱着学习的态度去了解对方的业务情况、团队架构规模、技术栈、意向候选人的素质等等,了解这些是相当重要的。 毕竟,找工作也是一个双向选择的过程。 如果你非常喜欢对方的回答,可以趁机舔一下,描述一下自己的适合性和意图。 还有其他优惠吗? 如果有的话,您最想去参观哪一个? 换工作时最需要考虑的因素是什么?

关于面试的一些想法

项目描述要恰当:尽量使用“信用初学者能够理解的语言”来描述项目的目的、过程和结果,同时尽量凸显项目的宏伟。 这部分最好多花点时间思考。 描述该项目的词语。 在面试开始时我也收到了一些拒绝。 我觉得各个公司的风控流程内容都是差不多的。 事实上,公募基金、银行、风控方的方向是不同的。 前端和中端的风控算法也不同。 有的专注于业务,有的专注于模型算法。 有时候如果描述不够恰当,对方就无法理解你在做什么。 面试了3家公司后,我调整了描述方式,剩下5家公司处于薪资谈判阶段。 保持良好的心态:被拒绝并不意味着你的能力有问题,也可能只是你做了一些不同的事情。 无论面试结果如何,你都要对下一次面试保持信心。 我们知道记分卡解决方案在银行业非常流行,但对于互联网来说,他们更喜欢树模型、神经网络等,记分卡再好,对互联网来说可能没有吸引力。 另一方面,银行可能对一堆先进的模型经验不感兴趣。 等待简历内容清晰:面试官经常会问很详细的问题,包括用了多少功能、多少样本、多少ks、上线后结果如何。 我觉得这种问题挺无聊的,但如果你犹豫不决地回答,那就说明你对这个项目不熟悉。 珍惜每一次面试机会:每一次面试实际上都是对个人的一次全面的职业素质检验。 每个人都能很快发现自己的缺点。 受访者可以及时迭代自己,为下一次面试做好更好的准备。 所以如果你去面试的话,无论公司大小,都不妨尝试联系一下。 如果你对自己不是特别有信心,你可以把你最感兴趣的公司放在稍后的时间,这样你在面试时会有更多的经验和信心。 我面试的前几个表现确实不太理想,但后面的就很轻松了。 代码问题:我的数据结构能力实在是太差了。 我个人比较注重模型和业务场景的结合,通常对代码要求不高。 不过有些公司比如今日头条、拼多多、美团对编码能力的要求还是很高,有兴趣还是要申请(我立马放弃了)。 阿里巴巴部门一方面可能有编码问题,也可能没有,要求相对不那么严格。 其中大多数实际上并不要求您在现场编写代码。

【作者】:

【原创公众号】:风控猎手

【简介】:一家初创公司的战略分析师。 他积极主动,努力进步。 世事未定,你我皆黑马。

标签: 模型 欺诈 变量

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码