登录 注册
浙大论坛 > 招聘栏目 > 浏览当前帖子 最新帖子进站窗口排行在线会员隐藏左侧栏
招聘兼职编程:文章词频统计并排序程序
返回本版】  【发表帖子】  【回复帖子 浏览量  2720      回帖数 0
aixueyikao    等级  

楼主 发表于  2015/11/22 14:11:49    编 辑   

文章词频统计并排序程序
有几十万篇文章(见附件1,附件1里第1层文件里有3个等级文件,第2层文件是分类文件,打开分类文件里有若干个txt文件,每个txt文件里,有若干篇文章,文章与文章之间用空行隔开),做这些文章的净词频表。
做法:(1)先做出每篇文章的小词表,其中关联词算作一个词,所谓关联词是指在关联词表(见附件2)中,处于同一行的词。
(2)对所有文章的小词表中的每个词做词频统计,词频的含义是在多少篇文章了有这个词,注意关联词。

给定一个生词表(见附件3),做每篇文章的生词表。接着把每篇文章的净生词词频之和除以生词的个数得到平均生词词频率。净生词是指在关联词表中处于同一行的生词,当做一个生词。净生词词频根据文章净词频表确定。
文章按照平均生词词频率从大到小排队。如果某两篇文章的平均生词词频相同,则含较多生词的文章排在后面。
文章排完了顺序后,做出每篇文章的新增生词表。新增生词是指第2篇的文章的生词,不含有第1篇文章中的生词,第3篇文章的生词,不含有第1、2篇文章的生词……,也就是后面文章的生词中,不含有前面所有文章的生词,即为这篇文章的新增生词。
截分单元。给我们设置框,用来输入单元数,根据给定的生词表,得到每单元应该的新增生词数,新增生词数可填入浮动比例(给我们设置框),将已排好序的文章按照从前到后的顺序和新增生词比例的范围,将文章截分到每个单元去,且被截分到每个单元的文章的新增生词总数不超过上述新增生词的词数范围,例如:设定的单元数是10,生词表个数是100词,那么新增生词数应该是10词,新增生词的浮动比例设为0.1,那么新增生词的下限时9词,上限是11词,那么截分到每个单元文章的新增生词不超过11。如果第一篇文章,就一篇文章的新增生词数已超范围,就提示操作者,扩大可浮动比例,截分文章的原则还有截分到每单元的新增生词尽量接近。如某篇文章没有新增生词,也要截取到单元里。
每篇文章形成四个词表:
(1) 过去单元的生词;
(2) 新增生词;
(3) 专有名词;
(4) 未知词。
上述词表中过去单元的生词、新增生词和未知词要列出其音标、释义和词性等。未知词是指在给定的词表,专有名词词表(见附件4),已知词(见附件5)中均不含有的词,称为未知词。

输出:
(1)输出每单元文章总词数,文章数和分等级分类别文章数,如下表。
一等 动画片   2
 科技    5
 人文    3
二等 剧情    6
 悬疑    4
三等 综艺 2
 动作 1
 游记 2
文章数合计 25
单元文章总词数 1500

(2)输出每单元的文章。
输出格式:按照等级和分类输出。(也就是按照给的输入文章的格式输出(附件1的格式))
由于附件较大,不便上传,编写时会告知,请谅解。
联系方式:
QQ: 2964009463
邮箱:bdzgy42303@126.com

1
表情
所有内容均为会员自愿发表,并不代表本站立场.
论坛帮助 友情链接 会员认证删帖申请 联系我们
©www.zju1.com  Processed in 0.13