唯品会2018校招机器学习、算法笔试题(加分题)


一. 问答题

1. (NLP方向)什么是中文分词? 列举出几种你所知的分词方法

2. (NLP方向)现在深度学习在nlp领域有哪些应用? 请具体说明

3. (图像方向)传统图像处理提取的sift特征是什么意思?

4. (图像方向)什么是卷积神经网络?请说明卷积的意义

5. (深度学习方向)深度学习和过往的神经网络训练方法有什么区别?

6. (深度学习方向)深度学习和过往的神经网络训练方法有什么区别?列举几种深度学习的loss function,并说明意义

参考答案

1. 中文分词就是将中文按语义分出词语来,与英文不同,中文词语之间没有空格,需要根据语义经验等知识来将一组汉字序列进行切分出一个个词语。三种:机械分词法,基于隐马尔可夫模型分词,基于n元语法分词。

2. 应用领域有:机器翻译(Machine Translation),事实问答(Factoid Question Answer),社区类型问答(Community-based Question Answering),语法解析(Syntactic Parsing),信息提取、序列标注(Information Extraction / Tagging),分类问题:情感分析,文档分类等。

3. SIFT的全称是Scale Invariant Feature Transform,尺度不变特征变换,由加拿大教授David G.Lowe提出的。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性,是一种非常稳定的局部特征。
特点是:
a. 图像的局部特征,对旋转、尺度缩放、亮度变化保持不变,对视角变化、仿射变换、噪声也保持一定程度的稳定性。
b. 独特性好,信息量丰富,适用于海量特征库进行快速、准确的匹配。
c. 多量性,即使是很少几个物体也可以产生大量的SIFT特征。
d. 高速性,经优化的SIFT匹配算法甚至可以达到实时性。

e. 扩招性,可以很方便的与其他的特征向量进行联合。

4. 卷积神经网络简称CNN,是在传统神经网络结构上的一个变种,主要应用在图像领域中。一般卷积神经网络的结构有卷积层,池化层,全连接层这几个组成。卷积层可以有多个卷积核,作用主要是提取图像的某种特征,卷积核在图像中平移并与覆盖的像素卷积得到输出,具有平移不变性,很适合用来提取图像的特征,所以每个卷积核分别代表一种特征。而且因为有了权值共享和池化这两个特点,卷积神经网络比传统神经网络更节省了很多权重,内存空间大大节约了。

5. "深度学习"是为了让层数较多的多层神经网络可以训练,能够work而演化出来的一系列的 新的结构和新的方法。新的网络结构中最著名的就是CNN,它解决了传统较深的网络参数太多,很难训练的问题,使用了“局部感受野”和“权植共享”的概念,大大减少了网络参数的数量。关键是这种结构确实很符合视觉类任务在人脑上的工作原理。新的结构还包括LSTM,ResNet等。新的方法有新的激活函数:ReLU,新的权重初始化方法(逐层初始化,XAVIER等),新的损失函数,新的防止过拟合方法(Dropout, BN等)。这些方面主要都是为了解决传统的多层神经网络的一些不足:梯度消失,过拟合等。

6. 神经网络是我们经常看到的那种层级网络结构,它是指一种具体的模型。而深度学习是基于当神经网络层数增多,神经网络学习日益困难的问题而提出的一种学习的方式。损失函数,log对数损失函数(逻辑回归):把极大化当做是一种思想,进而推导出它的经验风险函数为最小化负的似然函数。平方损失函数(最小二乘法, Ordinary Least Squares ):最优拟合直线应该是使各点到回归直线的距离和最小的直线,即平方和最小。指数损失函数(Adaboost):它是前向分步加法算法的特例,是一个加和模型。




个人资料
crazybean
等级:8
文章:61篇
访问:15.7w
排名: 5
下一篇:test
猜你感兴趣的圈子:
唯品会笔试面试圈
标签: 卷积、神经网络、sift、图像、分词、面试题
隐藏