讨论区 分享作业区 主题详情
斑纹长颈鹿
老师参与 统计单词词频,很简单的方法

with open('article_001.txt','r') as f: text = f.read() text = text.replace('\n',' ').split(' ') occ = {} for s in text: occ[s] = occ.get(s,0) + 1 occ = sorted(occ.items(),key = lambda x:x[1],reverse = True) print (occ)

所有回复(1)

感谢分享。get(s, 0)的使用确实简洁不少。


提几个建议。


  1. 第三行,replace不如调用strip,因为结尾符号还有/r/n等。

  2. split确实可以将单词拆开,不过还是要加上标点符号的处理。导致me.和me,不是同一个单词。

  3. 英文单词有个首字母大写的问题,没有转换的话,The和the会认为不是同一个单词。


回复

最近活动:
创建时间:
浏览次数:493
关注人数:0