with open('article_001.txt','r') as f:
text = f.read()
text = text.replace('\n',' ').split(' ')
occ = {}
for s in text:
occ[s] = occ.get(s,0) + 1
occ = sorted(occ.items(),key = lambda x:x[1],reverse = True)
print (occ)
感谢分享。get(s, 0)的使用确实简洁不少。
提几个建议。
第三行,replace不如调用strip,因为结尾符号还有/r/n等。
split确实可以将单词拆开,不过还是要加上标点符号的处理。导致me.和me,不是同一个单词。
英文单词有个首字母大写的问题,没有转换的话,The和the会认为不是同一个单词。