以下为《开题报告-恩和11-5》的无排版文字预览,完整内容请下载
/
硕士研究生学位论文开题报告
(全日制与非全日制专业学位研究生)
(说明:类别指工程硕士\建筑学硕士\工程管理硕士\工商管理硕士\社会工作硕士\翻译硕士;其中工程硕士研究生按录取领域填写领域代码与名称,其他类别可删除这两项,读后删除此说明内容)
内蒙古工业大学研究生院制
最后提交日期: 年月日
开题报告说明
一、选题及要求
应在系统查阅文献、广泛调查研究和深入专业实践的基础上制定论文工作计划,经导师审阅同意后确定选题内容,并最晚于第三学期末完成开题报告。
1.选题应体现硕士研究生的层次性,在课题理论意义、学术水平和应用价值等方面符合国家对专业学位研究生不同形式学位论文基本要求和学校的相关规定。
2.选题要考虑学科点、实践基地或研究生联合培养基地的研究项目、科研基础和实验条件,利用和发挥研究生的基础和特长。
3.选题应与培养方向保持一致。
二、开题报告工作程序
1.开题报告要在校内外导师指导下完成。开题报***统一组织和协调,由研究生双导师(指导小组)所在的学科负责组建评审答辩组具体实施,以统一时间段内集中开题答辩的形式进行。
2.开题报告评审答辩小组由3-5位具有硕士生导师资格或者副教授及以上职称的校内外专家组成(至少要有1位行业专家)。组长由本学科学术带头人或校外(行业)专家担任,导师可任小组成员。
3.开题报告答辩会由评审答辩小组组长主持,全面审核研究生综合运用所学专业知识开展科学研究和理论(工程)应用的能力,重点审查论文选题是否来源于工程(企业)实际,是否系所属工程领域(企业)的研究范畴,研究目标的明确性,研究内容和研究方案的科学性、合理性和可行性,论文工作的难度、工作量和进度安排,预期成果的可靠性、实用性和新颖性,以及文字表达能力。
4.开题报告评审答辩小组进行评议,提出具体的评价和建议,给出“通过”、“修改后通过”或“不通过”的建议。结论为“修改后通过”的研究生,需提交修改报告,报告由导师征求评审组专家意见并审核通过后进入论文阶段;结论为“不通过”和修改后未通过的研究生需重新开题。
5、如因特殊原因造成课题不能继续进行,可变更选题。变更选题应由研究生提出申请,经导师、学位点负责人和主管领导签字同意(加盖公章)报研究生院培养办备案后重新开题。凡未经批准擅自改变论文选题者,按开题未通过处理。
6、开题报告审议完成后,将修改完善并由导师签字确认的最终稿电子版上传研究生教育管理信息系统,并以系统提交时间为开题最终确认时间,同时将盖章签字的纸质开题报***为单位按学号顺序排列后报送研究生院培养办公室备案。
论文题目:基于跨语言词向量的神经机器翻译
论文开题报告答辩会地点与时间:
选题来源:
论文形式:□产品研发□工程设计□应用研究□工程/项目管理
□调研报告□其它
一、开题报告摘要(不少于500字)
随着深度神经网络技术的发展,机器翻译取得了很大成就,但仍有很挑战和不足。其中针对翻译中的漏译问题,个别词语由于词的信息熵较高,导致词语被机器漏译,在课题中提出改进方法。在翻译时提前处理有潜在遗漏问题的词,然后回到翻译框架中进行翻译,对比处理后的翻译结果。翻译的语言配对为英汉翻译。
具体设计为,翻译框架主体采用比较常见的带注意力机制的编码器解码器结构,在编码器的输入数据层加入处理环节,对源翻译句子的每个词进行信息熵的计算,筛选出熵值过高的源待处理词,用数组记录下源待处理的内容和其在源句中的位置;然后对所有待处理词依次进行词向量对比,使用跨语言的词向量对齐方法。词级别的方法,最大边界方法(max-margin,应用的一种损失函数,来计算翻译单词向量和源单词向量的相似度),句子级的方法为,BilBOWA(Bilingual Bag-of-Words without Word Alignments),找出和源待处理词近似的单词,并且限定这些近义词的熵值要低于源待处理词,近义词的熵值更低同时翻译近似度更高;最后将找到的近义词按记录数组记录的源处理词位置在源翻译句子中做词替换,对比替换前和替换后的翻译效果。
考虑到实际的试验条件可能不满足大规模数据量的试验环境,选择中间级量的翻译框架,进行英汉翻译。同时,论文中的输入词处理过程可以在更换更高级的主翻译框架下进行试验,可能效果会更好些。
二、研究目的、意义和国内外研究现状及发展趋势
简述拟选课题的研究目的、意义
在查找资料中了解到,目前神经网络机器翻译迅速崛起,已经得到了繁荣的发展,在语言翻译的质量上有了很大的提升,然而机器翻译仍然面临很多的挑战。例如,翻译中存在漏译问题;语料数据量不足问题;知识引入整合问题;翻译语言的可解释或可视化问题;翻译质量的鲁棒性问题等方面的挑战。
其中,翻译漏译的问题,在文献[1]中有提到,由于翻译中一些单词存在对应目标词多的情况,表现为词的信息熵值较高。词语的熵值越高,翻译中词语被丢弃漏译的概率越大。文献中作者提出了预训练方法,多任务学习方法,两次翻译修复的方法等三种方法去解决词语漏译的问题。
论文选题的目的在于,尝试找到另外一种方法针对解决翻译漏译的问题,即以词向量的结构为基础,通过跨语言的方式,分别以单词级和句子级对齐的方式,再经过熵比较,找到可以替换的词语,通过近义词的替换,在经机器翻译后填补上缺失位置上的词汇信息,来完善机器翻译结果,提高翻译质量。
从研究意义上,论文主要集中在词向量上,特别是跨语言的词向量,通过学习和探索,发现不同语言近似度,解决翻译中的遗漏问题,希望不论是英汉,蒙某某,英法,任何语言之间,能从向量的数值上找到比较统一的翻译替换标准,使得机器翻译中语言之间的通用性得到提升,提高翻译的质量。当然,实际当中更多的还是在于机器翻译的学习,探索深层次的内容,挖掘有价值的信息,还需进一步深入学习,才能有更好的机器翻译技术方法提出和翻译质量的提高。
2、阐述拟选题的国内外研究现状及发展趋势,附参考文献。(不少于20篇,以近5年论文为主,应包含近2年内相关文献,要有不少于20%的外文文献。)
神经机器翻译的网络框架模型
研究现状
神经网络翻译近年来迅速崛起。相比统计机器翻译而言,神经网络翻译从模型上来说相对简单,它主要包含两个部分,一个是编码器,一个是解码器。编码器是把源语言经过一系列的神经网络的变换之后,表示成一个高维的向量。解码器负责把这个高维向量再重新解码(翻译)成目标语言。下面简要介绍一些主流的神经网络翻译模型。
前馈神经网络模型,它是由 Bengio[2]等人在 2003 年提出的,该语言模型使用了一个三层前馈神经网络来进行建模,第一层叫输入层,最后一层叫输出层,其他中间层叫做隐含层(或隐藏层、隐层),其中每一层包含若干个神经元。它基于三层的前馈神经网络利用自然语言语句中的前 N-1 个词来预测后第 N 个词。
循环神经网络模型 (Recurrent Neural Network,RNN) ,2010年,Mikolov[3]等人首次提出使用循环神经网络模型,它是神经机器翻译所采用的主流网络结构之一,在普通多层BP神经网络基础上,增加了隐藏层各单元间的横向联系,通过一个权重矩阵,可以将上一个时间序列的神经单元的值传递至当前的神经单元,从而使神经网络具备了记忆功能,对于处理有上下文联系的NLP、或者时间序列的机器学习问题,有很好的应用性。
长短期记忆网络模型(Long Short-Term Memory,LSTM),它是由Hochreiter[4]等提出的循环神经网络门控算法,为了降低梯度消失问题带来的影响,其对应的循环单元,LSTM网络包含3个门控:输入门、遗忘门和输出门。相对于循环神经网络对系统状态建立的递归计算,3个门控对LSTM网络的内部状态建立了自循环。具体地,输入门决定当前时间步的输入和前一个时间步的系统状态对内部状态的更新;遗忘门决定前一个时间步内部状态对当前时间步内部状态的更新;输出门决定内部状态对系统状态的更新,相比循环神经网络,结构更优,性能更好。
门限循环单元网络模型(Gated Recurrent Unit networks, GRU),Kyunghyun[5]等人在长短期记忆网络的基础上做了改进,循环单元仅包含2个门控:更新门和重置门,其中重置门的功能与LSTM网络的输入门相近,决定过去有多少信息来自历史信息,有助于捕捉时序数据中短期的依赖关系,更新门则同时实现了遗忘门和输出门的功能,更新门控制当前状态需要遗忘的历史信息和接受信息。相比LSTM网络,性能相当,计算量降低。
递归神经网络模型(Recursive Neural Network,NN),它是循环神经网络的变形结构,以树形结构进行组织,用于结构化预测和表示,适合表示自然语言句法结构[6]。
卷积神经网络模型(Convolutional Neural Network,CNN或ConvNet),是一种具有局部连接、权重共享等特性的深层前馈神经网络。它在图像分类中取得了巨大成功,同时也可以用来处理自然语言任务(Kalchbrenner[7]等人使用过该模型),如语义分析、垃圾邮件检测和话题分类。卷积神经网络的主要特点在于速度快。卷积运算是计算机图像的核心部分,在GPU级别的硬件层实现。相比于n-grams,卷积神经网络表征方式的效率也更胜一筹。
Sequence-to-sequence模型(seq2seq),Seq2Seq[8]模型一般是通过Encoder-Decoder(编码-解码)框架实现,算法包含两部分,一个负责对输入的信息进行Encoding,将输入转换为一个固定长度的语义向量c。然后由Decoder对这个语义向量c进行解码,还原为输出序列。Encoder和Decoder部分可以是任意的文字,语音,图像,视频数据,模型可以与CNN、RNN、LSTM、GRU、BLSTM网络模型结合。
注意力机制模型(Attention Mechanism),注意力机制是在编码-解码框架模型的基础上做的改进,通过计算注意力的概率分布,对输入端的信息序列加入不同位置上的不同比例权重,进而改变翻译结果的语义偏重效果,突出翻译信息的重点内容。按注意力的可微性,可分为,硬性注意力(某个区域要么被关注,要么不关注),软性注意力(用0到1的不同分值表示每个区域被关注的程度高低),按注意力的位置范围重点不同,分为局部注意力(考虑部分隐藏状态),全局注意力(考虑全部隐藏状态),还有其他变体模型,如多头注意力机制(自注意力机制),利用多个查询,来平行地计算从输入信息中选取多个信息重点翻译,具有代表性的框架是一个叫Transformer[9]的框架。
发展趋势
伴随着深度网络技术的发展和实际应用需求的变化,参考有关神经机器翻译综述论文[10]中的分析,未来机器翻译朝着下面一些方向发展:
(1)提高语言学解释性.目前的神经机器翻译实现了源语言到目标语言的直接翻译,能够比较准确的翻译出不同语言的表达内容,但机器仍缺乏对人类语言理解,从神经机器翻译模型中抽取出相应的语言学知识来解释翻译过程,以此改进翻译模型,是神经机器翻译未来重要的研究方向.
(2)融合外部先验知识.以离散符号表示的外部资源,如句法标注、词性标注、双语词典等是非常重要的先验知识,在神经机器翻译中难以得到充分利用.融合更加丰富的先验知识是神经机器翻译重要研究内容,也是提高翻译效果的重要方法,有待深入研究.
(3)基于句法的神经机器翻译. 神经机器翻译大都是词语级的序列到序列模型,所包含的句法信息较少.句法是重要的关于句子结构的理论,将序列到序列翻译模型扩展至基于句法的翻译模型,如树到序列、序列到树、树到树等,是神经机器翻译模型架构创新的重要体现
(4)多语言机器翻译,翻译系统学习一种通用的表征,其中不同语言中具有相同意义的句子都以类似的方式表示,这些为多语言之间的迁移学习研究提供了良好的基础.在多语平行语料,或者一多语可比语料基础上研究基于神经网络的多语言机器翻译,对低资源语言甚至资源丰富型语言的翻译都具有学术价值和实用价值,是自然语言处理研究的一个重要方向。
(5)多模态翻译,传统神经机器翻译过程中,文本翻译过程与翻译场景等信息是相互独立的,因此,导致神经机器翻译的结果往往不够智能,不能自适应的产生适合翻译场景的文本翻译结果.然而相同场景中的图像、文本信息属十异类信息,彼此之间存在巨大的语义鸿沟,因此将对齐后的多模态特征融入神经机器翻译网络,实现多模态神经机器翻译,是提升翻译效果乃至实现智能翻译的一个值得探索的方向。
跨语言词向量方法
研究现状
词级别对齐方法
参考有关跨语言词向量文章[11],使用平行数据的单词级别对齐方法可以分为三类,基于映射/投影的方法,人工混合法,联合方法,简要介绍一些其中的方法。
基于映射/投影,其输入是两个在大规模单语语料上分别训练的单词表示,然后试图从单词对齐信息或双语词典中学出一个矩阵之间映射关系。这样的方法最常见,且支持无监督/半监督学习。目前比较主流的方法。不同方法的区别可分为四类方法:映射方法、种子词典、微调方法(refinement)和提取方法。
映射方法,又可分为回归方法、正交方法、典型方法、 边界方法
回归方法的核心思想是将源语言向量映射到目标语言向量空间,并最大化源语言向量和目标语言向量的相似度。这里最有影响力的实例是Mikolov[12]等人的方法。
正交方法在回归方法的基础上限定转换矩阵必须是正交的,在该限制条件下,做奇异值分解以后,可在时间内有效求出结果。正交法是映射方法中最常用的方法。
典型方法(canonical),该方法使用典型相关分析(Canonical Correlation Analysis, CCA)将两个语言词向量映射到一个新的共享空间,在新的空间最大化相关性。本方法的代表性实例为Faruqui[13]等人的方法
边界方法(margin),代表性实例为Lazaridou[14]等人的方法,在对源语言向量做映射后,该方法的目标是最大化正确翻译与其它候选词之间的边界,以减少拥抱度。具体做法是提高正确翻译单词与源单词词向量的相似度,同时减少随机单词对之间的相似度。
种子词典,是基于映射的方法的另一个核心部分,即使用已经定义好的词典做映射。这种词典常见于早期方法,而后期方法的改进方向主要在减少所需的种子词对。Artetxe[15]等人的方法将这个数字减少到了25。
微调方法,微调的作用是改善初始种子词典的质量。代表性实例有Vuli?[16]等人的方法,方法是首先根据已有的跨语言嵌入模型学出一个共享的双语嵌入空间,从中取出最常见的若干源语言单词的翻译,然后作为第二轮映射学习的种子词。为了保证提取出来的翻译是可靠的。
提取方法,都是在跨语言嵌入空间中根据余弦距离,来取源单词向量最接近的目标语言向量,将其对应的单词作为源单词的翻译。但是也有一些工作使用了其它的方法。有代表性的一个是Conneau[17]等人其提出的方法简写为CSLS,全称为“跨领域相似度局部放缩”(Cross-domain Similarity Local Scaling)
人工混合法,一些方法使用种子双语词典中包含的词对齐信息,将单语语料中的某些词随机替换为它们的翻译,就构成了一个人工混合的双语混合语料。这个方法由Xiao[18]等人提出。Gouws[19]等人是把源语言和目标语言的语料拼起来,对每个单词以概率1/2k,其中k是该单词可以对应的翻译个数。Duong[20]等人则是在CBOW训练时在线将每个中心词替换成其翻译。
联合方法,上面方法总体来是两种方式:一种方式是,先优化一个单语损失,然后优化一个跨语言正则项;另一种方式是,优化一个单语损失,然后隐式地优化一个跨语言正则项(通常是通过操作数据)。所谓“联合方法”,顾名思义是同时联合优化单语和跨语言目标函数, Klementiev[21]等人将学习跨语言词向量转化成一个多任务学习问题。
句级别对齐方法
参考有关跨语言词向量文章[11],使用平行语料的句子级别方法,都是成功的单语模型的扩展,可以大致分为三类,组成法、双语自编码器 、双语skip-gram
组成法由Hermann[22]等人引入,思想是将词向量组合成句向量,然后训练模型让平行句各自的向量互相靠近。
双语自编码器,Lauly[23]等人的做法是尝试根据原始句子重构目标句。他们也是把句子编码成词向量之和,然后使用语言相关的编码器-解码器和分层softmax来训练自编码器,重构句子本身和对应的翻译。
双语skip-gram,其中的方法BilBOWA(Bilingual Bag-of-Words without Word Alignments)Gouws[24]等人假设源句中的每个单词都与目标句的每个单词对齐。很显然,知道对齐信息的情况下,一个自然的想法是让对齐的单词词向量尽量接近。那么如果任意源句单词都与所有目标句单词对齐,实际上也就是让它们词向量的均值尽量接近。Trans-gram方法,Coulmance[25]等人对对齐关系做了和BilBOWA相同的假设,不过在跨语言正则项用的也是SGNS目标函数,此时中心词是被对齐的目标语言单词,上下文单词来自于源语言。由于前面的对齐假设,实际上是要使用源句每个单词预测目标句子所有语言。BiSkip方法,Luong[26]等人使用了和Trans-gram一样的目标函数,不过对源句中的第i个词,其只用来预测目标句的第k个词,即文章认为平行句的单词是顺序对应的。
发展趋势
参考有关跨语言词向量文章[11],找出了一些词向量研究的发展方向。
(1)多义词。如何区分同一单词的不同词义?这个问题对单语词向量的学习来说还没很好解决,而在多语词向量学习中这个问题会被进一步放大。假设多义词会为源语言带来m个不好的词向量,为目标语言带来n个不好的词向量,那么最坏情况会在跨语言空间中得出O(m×n)个错误的最近邻关系。
词组习语的表示,(原文仅仅用的是“multi-word”这个词)。对词形态丰富的语言,仅仅用单词作为最细粒度的表示单元,看上去有点粗糙。但是即便是对词形态简单的语言,有时词组的意思也不能简单地按照组成词组的单词字面意思理解,例如ad hoc或者kick the bucket(后者是“死”在俚语里的委婉说法)。这种词组的表示在单语词向量里都还没有收到重视。
特殊领域的词嵌入。在某些领域,跨语言应用可能尤其有用,例如生物信息学或社交媒体等。但是,在很多这样的领域以及很多少资源语言,平行语料并不容易获得,因此使用尽可能少的平行语料训练出鲁棒的跨语言词向量是一个很重要的研究方向。另一个相关方向是研究怎么把可比较的语料用起来,因为这样的语料更多,更容易获得,而且会包含一些其他的信号,例如多模态上下文。
可行性。现有工作期望学到的共享空间机能捕捉到语言内部词之间的信息,同时还能捕捉到语言之间的信息——这有点太乐观了。不同的语言是有很大区别的。另外一个瓶颈是找出一个既满足语言内限制和语言间限制词嵌入的时间复杂性。尽管现有方法都是通过损失函数来对打破这样限制的模型加以惩罚,但是无法确保最终模型可以满足全部限制——检查是否满足限制的算法,时间复杂度不高,与限制数量成线性关系;但是要找出这样的模型是否存在就比较难,实际上是NP-hard的 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 形式是否适当,预期成果能否达到,理论和实际应用的价值如何、研究方法和步骤是否可行等)
校外导师签字:校内导师签字:年月日
七、开题报告答辩会组成人员名单:
姓名
专业技术职务
从事学科研究方向(或者工作单位)
签字
八、开题报告评议结论:(具体要求见开题报告撰写说明,并给出结论)
结论:□通过□修改后通过□不通过
开题报告答辩组组长签字:年月日
九、学院与学位点意见:
院(公章)学位点负责人签字:年月日
注:此表一式4份,学生、导师、***(学位点)和研究生院各一份,***收齐后统一报研究生院培养办备案,申请答辩时,研究生应向答辩委员会和校学位办提交此表复印件。硕士研究生个人培养计划完成情况
(附:课程成绩单)
修改报告
修改内容(根据评审答辩专家意见逐条列出修改要点)
1.
2.
……
评审组审议结论:
结论:□通过□需要再次修改□不通过
导师签字:年月日
注:此表仅供结论为“修改后通过”的研究生使用
[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《开题报告-恩和11-5》的无排版文字预览,完整内容请下载
开题报告-恩和11-5由用户“l2w2k2”分享发布,转载请注明出处