唯品会2018校招机器学习、算法笔试题（加分题）-k6k4.com

一. 问答题

1. （NLP方向）什么是中文分词？列举出几种你所知的分词方法

2. （NLP方向）现在深度学习在nlp领域有哪些应用？请具体说明

3. （图像方向）传统图像处理提取的sift特征是什么意思？

4. （图像方向）什么是卷积神经网络？请说明卷积的意义

5. （深度学习方向）深度学习和过往的神经网络训练方法有什么区别？

6. （深度学习方向）深度学习和过往的神经网络训练方法有什么区别？列举几种深度学习的loss function，并说明意义

参考答案

1. 中文分词就是将中文按语义分出词语来，与英文不同，中文词语之间没有空格，需要根据语义经验等知识来将一组汉字序列进行切分出一个个词语。三种：机械分词法，基于隐马尔可夫模型分词，基于n元语法分词。

2. 应用领域有：机器翻译（Machine Translation），事实问答（Factoid Question Answer），社区类型问答（Community-based Question Answering），语法解析（Syntactic Parsing），信息提取、序列标注（Information Extraction / Tagging），分类问题：情感分析，文档分类等。

3. SIFT的全称是Scale Invariant Feature Transform，尺度不变特征变换，由加拿大教授David G.Lowe提出的。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性，是一种非常稳定的局部特征。
特点是：
a. 图像的局部特征，对旋转、尺度缩放、亮度变化保持不变，对视角变化、仿射变换、噪声也保持一定程度的稳定性。
b. 独特性好，信息量丰富，适用于海量特征库进行快速、准确的匹配。
c. 多量性，即使是很少几个物体也可以产生大量的SIFT特征。
d. 高速性，经优化的SIFT匹配算法甚至可以达到实时性。

e. 扩招性，可以很方便的与其他的特征向量进行联合。

4. 卷积神经网络简称CNN，是在传统神经网络结构上的一个变种，主要应用在图像领域中。一般卷积神经网络的结构有卷积层，池化层，全连接层这几个组成。卷积层可以有多个卷积核，作用主要是提取图像的某种特征，卷积核在图像中平移并与覆盖的像素卷积得到输出，具有平移不变性，很适合用来提取图像的特征，所以每个卷积核分别代表一种特征。而且因为有了权值共享和池化这两个特点，卷积神经网络比传统神经网络更节省了很多权重，内存空间大大节约了。

5. "深度学习"是为了让层数较多的多层神经网络可以训练，能够work而演化出来的一系列的新的结构和新的方法。新的网络结构中最著名的就是CNN，它解决了传统较深的网络参数太多，很难训练的问题，使用了“局部感受野”和“权植共享”的概念，大大减少了网络参数的数量。关键是这种结构确实很符合视觉类任务在人脑上的工作原理。新的结构还包括LSTM，ResNet等。新的方法有新的激活函数：ReLU，新的权重初始化方法（逐层初始化，XAVIER等），新的损失函数，新的防止过拟合方法（Dropout, BN等）。这些方面主要都是为了解决传统的多层神经网络的一些不足：梯度消失，过拟合等。

6. 神经网络是我们经常看到的那种层级网络结构，它是指一种具体的模型。而深度学习是基于当神经网络层数增多，神经网络学习日益困难的问题而提出的一种学习的方式。损失函数，log对数损失函数（逻辑回归）：把极大化当做是一种思想，进而推导出它的经验风险函数为最小化负的似然函数。平方损失函数（最小二乘法, Ordinary Least Squares ）：最优拟合直线应该是使各点到回归直线的距离和最小的直线，即平方和最小。指数损失函数（Adaboost）：它是前向分步加法算法的特例，是一个加和模型。

个人资料

crazybean
等级：8
文章：61篇
访问：15.7w
排名： 5

推荐圈子

唯品会笔试面试圈