学习机器翻译

价格 98.00对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 0 人关注
数量
+-
库存100
 
联系方式
加关注0

新图书资料发布

VIP   VIP会员第1年
资料未认证
保证金未缴纳

内容简介


  本书内容是由在2006学术会议NIPS(NeuralInformationProcessingSystemsConference)上发表的文章扩充而成,分为2个部分。第一部分是机器翻译研究进展介绍,包括翻译模型、平行语料库和名实体挖掘、核方法应用等;第二部分是统计机器翻译研究的题目,包括树结构翻译模型、全局词汇选择模型、判别式短语翻译选择模型等。

目录

译者序
原书前言
第1章 统计机器翻译初步
1.1 背景
1.2 机器翻译的评价
1.2.1 基于编辑距离的方法
1.2.2 基于n元文法的方法
1.2.3 召回率的重要性
1.2.4 使用句法的方法
1.2.5 评价方法的评价与融合
1.2.6 统计显著性检验
1.3 基于词的机器翻译
1.3.1 模型1、模型2和隐马尔可夫模型
1.3.2 模型3、模型4和模型5
1.3.3 搜索


译者序
原书前言
第1章 统计机器翻译初步
1.1 背景
1.2 机器翻译的评价
1.2.1 基于编辑距离的方法
1.2.2 基于n元文法的方法
1.2.3 召回率的重要性
1.2.4 使用句法的方法
1.2.5 评价方法的评价与融合
1.2.6 统计显著性检验
1.3 基于词的机器翻译
1.3.1 模型1、模型2和隐马尔可夫模型
1.3.2 模型3、模型4和模型5
1.3.3 搜索
1.3.4 现状
1.4 语言模型
1.4.1 n元文法模型和平滑技术
1.4.2 熵模型
1.4.3 若干研究趋势
1.5 基于短语的机器翻译
1.5.1 对数线性模型
1.5.2 基于短语的翻译模型
1.5.3 错误率训练
1.5.4 搜索
1.5.5 重打分
1.5.6 现状
1.6 基于句法的统计机器翻译
1.6.1 无需句法分析的方法
1.6.2 目标语言端进行句法分析
1.6.3 源语言端进行句法分析
1.6.4 源语言端和目标语言端都进行句法分析
1.7 其他一些重要方向
1.7.1 因子化模型
1.7.2 模型自适应
1.7.3 系统融合
1.7.4 用于机器翻译的核方法
1.8 用于统计机器翻译的机器学习
1.8.1 翻译作为一个学习问题
1.8.2 使用不损失函数的学习
1.8.3 用于统计机器翻译的端到端学习
1.9 结论
1.10 附录
第一部分:使能技术
第2章 挖掘专利构建平行语料库
2.1 引言
2.2 相关工作
2.3 资源
2.4 对齐过程
2.4.1 句子对齐打分
2.4.2 降低句对齐中的噪声
2.5 专利平行语料库的数据统计
2.5.1 全集和源数据集的比较
2.5.2 基本的统计数据
2.5.3 关于机器翻译的统计数据
2.6 机器翻译实验
2.6.1 机器翻译系统
2.6.2 比较重排序限制
2.6.3 跨板块的机器翻译实验
2.6.4 对原始对齐数据的基于任务的评估
2.7 结论
第3章 多语言名称词典的自动创建
3.1 引言和动机
3.1.1 内容
3.1.2 专有名称和机器翻译
3.1.3 多语种名称实体词典与其他文本分析应用的相关性
3.1.4 存在名称变体的原因
3.2 相关工作
3.2.1 现有的名称词典或建立词典的相关探索
3.2.2 命名实体识别
3.2.3 名称变体的匹配
3.3 新名称的多语言识别
3.3.1 背景:多语言的新闻数据
3.3.2 一个允许多语言的轻量级识别过程
3.3.3 用维基百科扩充名称数据库
3.4 查找已知名称和其形态变体
3.4.1 处理词形变化
3.4.2 查找过程
3.5 人名识别的评价
3.6 名称变体的识别和合并
3.6.1 非罗马字符构成名称的音译
3.6.2 名称变体的“标准化”
3.6.3 (标准化)名称变体的近似匹配
3.7 总结与展望
第4章 多语语料库中命名实体的音译和发现
4.1 引言
4.2 前人工作
4.3 协同排序:命名实体发现的一个算法
4.3.1 时间序列生成和匹配
4.3.2 音译模型
4.4 实验性研究
4.4.1 命名实体发现
4.4.2 初始例子集合规模
4.4.3 时间序列打分函数的比

摘要与插图

8.5.1重排序器的训练
  为了建立重排序器的训练集,我们先使用基准系统为训练集和开发集中的每一个汉语句子生成前200个最优翻译候选;然后,我们使用BLEU+1方法从每200最优翻译候选列表中得到理想译文(即200译文中最准确的译文)。
  正如前文所指出的,描述每个包含n个最优翻译候选的特征包括解码器评分,以及产生这一译文所使用的1900万短语对中的最有代表性的翻译短语。我们所进行的具体工作是删除了训练语料中出现频率最高和最低的短语对(即那些出现超过10万次和仅出现1次的短语对)。删除之后可用来作为特征的短语对为400万个(其特征值即该短语对在全部最优翻译候选中的出现次数)。
  为了尽快学习每一个感知器,我们决定用5000个句子的翻译来训练,这样建立了一个包含953个独立感知器的集成感知器。对于这5000个句子中的每一个,我们都有一个按照翻译分数排序的前200个最优翻译的列表,感知器就要将这5000个理想译文同对应的其他199个相比较;结果是在感知器的一个训练周期内要进行近100万次的比较(199×5000)。
  在最后一次训练结束之后,通过平均935个感知器的权重我们获得了最终
举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号