颍上新闻,颍上资讯

您当前的位置:颍上人才网 >> 颍上资讯 >> 面试技巧 >> 在印度找数据科学等领域工作34天的面试经验分享
在印度找数据科学等领域工作34天的面试经验分享
2025-09-21|资讯来源: 网络整理|查看: 159

今年年初至今,作者持续在印度寻找数据科学、机器学习及深度学习方面的工作机会。求职期间的三十四天里,他参加了八至十次面试,涉及初创企业、服务型公司以及产品型公司等不同类型。作者希望通过分享面试心得,为其他求职者提供参考,因此撰写了这篇文章。阅读后若能获得启发,将不胜欣慰。

首先自我介绍一下:

我在人工智能(含语音处理、文本处理及视觉识别方向)行业已经工作超过四年了。基本上,这个行业的多数岗位集中在文本处理(自然语言理解)和视觉识别(计算机视觉)方面。很少企业会招募语音或音频处理方面的人才。我目前期望能获得一个中高级别的职位,能够带领一个深度学习或机器学习小组开展一些有挑战性的项目。

下面是我在应聘过程中被问到的问题,希望能够对你有所帮助。

一家从事全球业务的企业,面试时间大约在二十分钟到二十五分钟之间

你曾说明在个人履历上设计过一套资料解析工具,具体负责了哪些环节?资料分类(资料分类)方法能否运用隐含狄利克雷分配模型(隐含狄利克雷分配模型)达成资料分组目标?

假如你手头有数百兆字节的资料文件,里面涵盖PDF文档、文字资料、图片资料、扫描生成的PDF文档等多种类型,请你提供一个资料归类方法。

你如何阅读扫描版pdf文件或图像格式的书面文件的内容?

朴素贝叶斯为什么被称为“朴素”?

请详细介绍一下朴素贝叶斯分类器。

什么是深度学习?深度学习和机器学习的区别是什么?

感受:面试官另外提了若干问题,却让我十分困惑,完全不清楚他期待何种回答。我本想探讨些技术层面的内容,例如训练Tesseract——由HP实验室开创、Google后续照管的开放源码OCR系统,或是语言模型的运作,但他似乎并不热衷于此。他也许只是想得到一些已经完成的业绩,或者一个令人满意的说明,又或许一个更优的思路。我觉得面试一个初学者和面试一个资深人士之间,其实没什么两样。

某企业,专注于全球业务,面试时间约40至45分钟

在无监督学习中,如何进行文件聚类?

如何找到与某些查询语句/搜索相关的文件?

解释下TF-IDF技术。

依据我的观察,TF-IDF方法在文档归类或集合整合方面的表现相当有限,你打算怎样加以完善?

什么是长短期记忆神经网络(LSTM)?解释下其工作原理。

什么是word2vec模型?

解释下python中的可变对象和不可变对象。

你在python中使用过什么数据结构?

感受:整个面试环节都是针对文本相似度进行询问的,我全部成功应对了。然而这次依然缺少更深层的技术交流。可能是公司涉及文本分析方面有几个小型项目,最终我获得了公司的录用通知。

这家企业依托其世界范围的产品线与业务范围,进行招聘,面谈时间大约为四十分钟。

怎样处理含有不平衡样本的数据集时解决多类别分类任务?

你如何从一个文本语句中进行语言识别?

如何表示中文或日文中的象形字符?

构思一个对话助手该怎么做呢?我虽然没什么主意,不过打算借助TF-IDF相似度来分析意图和提供反馈,以此尝试解答这个问题。

可以借助循环神经网络构建一个聊天机器人,该机器人能够针对接收到的提问,识别其意图并给出相应的回应。

设想你在Reddit数据集上运用循环神经网络或长短时记忆神经网络构建了一个对话助手,该助手能生成10种备选应答,怎样从中挑选最优的回应,又或者怎样剔除其余的选项?

解释一下支持向量机(SVM)如何学习非线性边界。

回想起来,有些疑问如今已模糊不清,毕竟这是我初次在面谈时详尽探讨技术层面的情况,紧接着我就成功获得了该企业的录用通知。

公司四:成立一年的医疗初创公司(面试时长:50min)

精确率指正确预测为正例的样本占所有预测为正例样本的比例,召回率指正确预测为正例的样本占所有实际正例样本的比例,在医疗诊断领域,精确率反映了诊断结果的有效性,召回率则体现了诊断的全面性,考虑到误诊可能对患者造成严重后果,因此召回率往往具有更高的优先级

解释一下精确率和召回率。

怎样制作受试者工作特征曲线,也就是ROC曲线?这条曲线下方的面积代表什么?

如何为多类别分类任务绘制ROC曲线?

列举多类别分类任务其他的度量标准。

如何理解敏感性与特异性?前者指正确识别出真阳性案例的能力,后者则表示准确排除真阴性案例的水平,两者都是评估诊断测试准确性的重要指标。

随机森林中的“随机”指什么?

如何进行文本分类?

怎样判断一个文本已经掌握?若没有TF-IDF方法,是不是就无法达成?(我提出采用n-gram模型,其中n取值为1、2、3、4,并且借助TF-IDF技术构建一个庞大的计数向量)

你还能运用人工智能做些什么呢?可以考虑将长短期记忆网络和word2vec融合,或者将一维循环神经网络同word2vec整合,用于分类任务。不过面试官更希望优化基于机器学习的方法。

当神经网络由线性单元组成时,它怎样掌握非线性形态呢?它为何要学习非线性分界线?

经历:遗漏了若干个有价值的提问。虽然面试整体表现尚可,然而双方在部分议题上观点相左。另外,面试中了解到该初创企业目前仅派驻两三位成员负责机器学习、深度学习和数据科学工作。因此最终未能获得录用机会。

公司五:亚马逊公司(面试时长:50-55min)

训练决策树时,其参数是什么?

在决策树的某个节点处进行分割,其分割标准是什么?

基尼系数的计算公式是什么?

熵的计算公式是什么?

决策树如何决定在哪个特征处必须进行分割?

如何利用数学计算收集来的信息?

简述随机森林的优点。

简述boosting算法。

梯度提升法运作方式如何?

简述AdaBoost算法工作原理。

SVM中用到了哪些内核?SVM的优化技术有哪些?

SVM如何学习超平面?论述下其数学运算细节。

谈一谈无监督学习?都有哪些算法?

如何定义K-Means聚类算法中K的值?

列举至少3中定义K-Means聚类算法中K的方法。

除此之外你还知道哪些聚类算法?

介绍一下DB-SCAM算法。

分层聚合聚类方法运作机制概述如下:这是一种逐步合并数据点的算法,首先将每个数据点视为一个独立的簇,然后不断合并距离最近的簇,直到所有数据点最终归为一个簇,整个过程形成一个树状结构,称为谱系图,通过该图可以依据不同距离阈值进行聚类。

说明一下主成分分析方法的原理,概括一下运用主成分分析方法的数学流程。

20.使用 PCA算法有哪些缺点?

机器学习面试经验_数据科学面试问题_面试hr岗位会问的问题

谈谈卷积神经网络的工作原理?详细说明其实现细节。

解释一下卷积神经网络中的反向传播。

你如何部署机器学习模型?

我们大多数时候需要借助C++来初次构建机器学习系统,这个任务你是否能够胜任?

面试的是亚马逊六级职位,重点考察算法和数学能力,但我没准备数学知识,只是泛泛而谈自己掌握的内容,没有深入探讨细节,所以面试官觉得我不够格担任六级工作。只要你能牢记机器学习算法的通用数学表达方式,就非常容易通过亚马逊的技术考核。

公司六:某全球服务巨头(面试时长:50-55min)

Sigmoid 函数的范围是什么?

说出scikit-learn能够实现逻辑回归的包的名称。

标准正态分布的均值和方差分别是多少?

你在Python中都使用什么数据结构?

文本分类的方法有哪些?你会怎么做分类?

解释TF-IDF技术及其缺点,如何克服TF-IDF的缺点?

双词搭配和三词搭配指的是连续出现的词语组合,前者由两个词构成,后者由三个词组成。双词搭配和三词搭配的TF-IDF技术,可以通过分析文本中这些组合词的频率和重要性来评估它们在文档集合中的独特程度。TF-IDF技术衡量双词搭配和三词搭配的权重,依据单个词语在特定文档中出现的次数,以及该词语在整个文档集合中出现的普遍性。

举例说明word2vec有哪些应用。

怎样构建一个神经网络?怎样实现深度效果?这是关于基础神经网络的核心疑问。

简述LSTM的工作原理。它是如何记住文本的?

什么是朴素贝叶斯分类器?

抛10次硬币,4次是正面的概率是多少?

如何获取Python列表中元素的索引?

如果合并两个pandas数据集?

根据人们的操作习惯,若要模仿一个欺骗行为,你会怎样处理这个情况?这或许是一个发现反常现象的课题,又或者是一个进行类型判定的任务!

决策树和随机森林,你更喜欢哪一个?

逻辑回归和随机森林有什么区别?

你打算采用决策树方法还是随机森林模型来处理分类任务?随机森林模型具备哪些长处?

我同样收到了这家公司的录用通知。确实,我对这次技术探讨很感兴趣。也许你会认为这些问题是机器学习和数据科学方面最根本的,但我推测面试者可能并非这个领域的专家,或者对该领域的发展认知有限。

公司七:全球性商业管理公司(面试时长:25-30min)

面对数据分布不均的情况,你会倾向于选用随机森林方法还是Boosting方法,具体原因是什么?

你所了解的Boosting技术有哪些?

若要借助有监督学习来处理归类任务,你倾向于选用哪种方法?设想一下,类别数量达到四十到五十个那么多!

你怎样使用合奏(Ensemble)技术?

简述支持向量机(SVM)的工作原理。

什么是Kernel?简单介绍一下。

如何实现非线性回归?

什么是Lasso回归和Ridge回归?

感受:坦白讲,这次面谈比较平淡,所以我并未投入十足精力。不过题目设置相当精良。我应聘的岗位是负责带领一个十来号人的工作小组执行任务,随后会经历主管复试和人力资源部门的考核。最后他们给出了职位建议,并且薪酬待遇令人满意。

公司八:成立4年的生产和服务型公司(60分钟)

你简历中提及参与过语音中的发音辨认工作,能否详细说明你的具体操作方式?

什么是梅尔频率倒谱(MFCCs)?

什么是高斯混合模型,它是如何完成聚类的?

如何实现期望最大化?讲讲其实现步骤。

GMM模型中的概率如何计算?

在语音识别过程中,你运用什么方法为GMM-UBM模型实施迁移适配?

谈谈你所用的I-vector技术 。

在分析语境时,主要因素是什么?

JFA和I-vector各自有什么不同之处?为何要选用I-vector而舍弃JFA?

你有没有用过PLDA I-vector技术吗?

有没有读过百度的Deep Speaker论文?

选择模型时考虑哪些因素?如果面临两个选项,依据是什么?

解释下贝叶斯信息度量(BIC)和赤池信息量(AIC)的计算方法,包括它们的数学基础,说明如何通过公式来评估模型的拟合度,并阐述各自在参数估计中的具体应用步骤。

贝叶斯信息度量和赤池信息量的工作原理是什么?

如果MFCC特征向量矩阵中的数据发生丢失,应该怎么办?

如何进行语音辨识?有什么特点?

你的分类器是语音和音乐的分类器,还是语音和非语音的分类器?

深度神经网络是如何应用在语音分析中的?

确实,遇到这些情况你会感到意外。我们恰好从事相同的专业方向,都是语音分析领域,特别是发音识别技术。因此,整个面试环节都聚焦于语音分析展开。面试官显然具备深厚的专业知识,并且向我表达了肯定的评价。最终,该公司向我发来了AI解决方案架构师的职位邀请。

一些建议

在这一系列寻找工作机会的环节里,我大约与二十五个到三十个行业内的专家进行过沟通,接下来是针对读者和求职者的一些想法,供大家参考。

履历具有重要作用,必须明确列出参与的项目、参与过的Kaggle比赛、获得的MOOC课程认证或发表的论文。我本人就是在没有推荐人引荐的情况下接到亚马逊的面试通知的。个人履历是说服人力资源部门和面试者的有力工具。

自信和热忱是成功的基石。面试时务必展现出自信,同时也要让面试官感受到你的热忱,这一点在应聘初创企业和服务型公司时尤其关键。

切忌仓促回应面试官的提问。应当先仔细构思,整理好思路后再作答,倘若对问题存有疑虑,务必向面试官求教。同时,面试过程中务必保持镇定。

说明观点时务必准确表达个人见解,列举一些自己已经完成的工程实例,同时必须精通履历上列出的掌握技术和执行过的项目。

通常情况下,面试者都在寻找具备该行业经验的专业技术人员。假如你在这个行业尚属初学者,在准备个人履历时可以优先介绍你参与过的相关项目。你的GitHub主页同样能起到很好的证明作用。另外,不妨多参与Kaggle比赛以及MOOC课程的学习。

见到面试官时,务必保持谦逊,认真听取对方建议,否则很可能失去机会。有时用R语言和Python语言的人会彼此轻视,你最好不要参与这类争执,否则也容易落选。在我看来,R语言和Python语言都是用来完成逻辑和想法的工具。

最后,祝大家面试成功!

  • 温馨提示:以上在印度找数据科学等领域工作34天的面试经验分享的资讯来自颍上人才网(颍上地区找工作,发布招聘信息的颍上人才网招聘网站),每天更新颍上最新招聘信息。本内容地址:http://www.ysjob.cc/article/articledetail-388392.html转载请注明
最新资讯
微信分享

关注微信公众号

访问手机版本