1. (NLP方向)什么是中文分词? 列举出几种你所知的分词方法
2. (NLP方向)现在深度学习在nlp领域有哪些应用? 请具体说明
3. (图像方向)传统图像处理提取的sift特征是什么意思?
4. (图像方向)什么是卷积神经网络?请说明卷积的意义
5. (深度学习方向)深度学习和过往的神经网络训练方法有什么区别?
6. (深度学习方向)深度学习和过往的神经网络训练方法有什么区别?列举几种深度学习的loss function,并说明意义
1. 中文分词就是将中文按语义分出词语来,与英文不同,中文词语之间没有空格,需要根据语义经验等知识来将一组汉字序列进行切分出一个个词语。三种:机械分词法,基于隐马尔可夫模型分词,基于n元语法分词。
2. 应用领域有:机器翻译(Machine Translation),事实问答(Factoid Question Answer),社区类型问答(Community-based Question Answering),语法解析(Syntactic Parsing),信息提取、序列标注(Information Extraction / Tagging),分类问题:情感分析,文档分类等。
3. SIFT的全称是Scale Invariant Feature Transform,尺度不变特征变换,由加拿大教授David G.Lowe提出的。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性,是一种非常稳定的局部特征。e. 扩招性,可以很方便的与其他的特征向量进行联合。
4. 卷积神经网络简称CNN,是在传统神经网络结构上的一个变种,主要应用在图像领域中。一般卷积神经网络的结构有卷积层,池化层,全连接层这几个组成。卷积层可以有多个卷积核,作用主要是提取图像的某种特征,卷积核在图像中平移并与覆盖的像素卷积得到输出,具有平移不变性,很适合用来提取图像的特征,所以每个卷积核分别代表一种特征。而且因为有了权值共享和池化这两个特点,卷积神经网络比传统神经网络更节省了很多权重,内存空间大大节约了。
5. "深度学习"是为了让层数较多的多层神经网络可以训练,能够work而演化出来的一系列的 新的结构和新的方法。新的网络结构中最著名的就是CNN,它解决了传统较深的网络参数太多,很难训练的问题,使用了“局部感受野”和“权植共享”的概念,大大减少了网络参数的数量。关键是这种结构确实很符合视觉类任务在人脑上的工作原理。新的结构还包括LSTM,ResNet等。新的方法有新的激活函数:ReLU,新的权重初始化方法(逐层初始化,XAVIER等),新的损失函数,新的防止过拟合方法(Dropout, BN等)。这些方面主要都是为了解决传统的多层神经网络的一些不足:梯度消失,过拟合等。
6. 神经网络是我们经常看到的那种层级网络结构,它是指一种具体的模型。而深度学习是基于当神经网络层数增多,神经网络学习日益困难的问题而提出的一种学习的方式。损失函数,log对数损失函数(逻辑回归):把极大化当做是一种思想,进而推导出它的经验风险函数为最小化负的似然函数。平方损失函数(最小二乘法, Ordinary Least Squares ):最优拟合直线应该是使各点到回归直线的距离和最小的直线,即平方和最小。指数损失函数(Adaboost):它是前向分步加法算法的特例,是一个加和模型。