资源简介

SRILM源代码阅读笔记。 主要针对SRILM的ngram的训练,即ngram-count。 7个文件: 1.类图.jpg:与ngram-count相关的主要类的静态图(使用了starUML的逆向工程工具); 2.ngram-count.jpg:从语料训练出模型的主要流程; 3.lmstats.countfile.jpg:ngram-count的子流程,用于构建词汇表和统计ngram的频度; 4.ngram.estimate.jpg:ngram-count的子流程,在词汇表和ngram频度的基础上计算ngram条件概率 以及backoff权值的过程; 5.ngram.read.jpg:与训练无关,读取ARPA格式的语言模型的过程; 6.SRILM.uml:以上5个文件的原始图,以StarUML绘制(利用StarUML可直接编辑) 7.SRILM.vsd:ngram-count相关的主要数据结构的内存布局 + ngram条件概率计算公式的参数说明, 以visio绘制(利用visio可直接编辑)

资源截图

代码片段和文件信息

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件     951218  2012-09-04 11:19  SRILM_note\lmstats.countfile.jpg

     文件    1097149  2012-09-04 11:19  SRILM_note\ngram-count.jpg

     文件    1623615  2012-09-04 11:20  SRILM_note\ngram.estimate.jpg

     文件     824177  2012-09-04 11:20  SRILM_note\ngram.read.jpg

     文件       3671  2012-09-04 11:17  SRILM_note\readme.txt

     文件    3760821  2012-09-04 10:22  SRILM_note\SRILM.uml

     文件     128512  2012-08-31 09:41  SRILM_note\SRILM.vsd

     文件    1752955  2012-09-04 11:18  SRILM_note\类图.jpg

     目录          0  2012-09-04 11:22  SRILM_note

----------- ---------  ---------- -----  ----

             10142118                    9


评论

共有 条评论