在进行关键字提取的时候,我们可以使用逆向文件频率(IDF)文本语料库,这里用的是github上有的语料库。
语料库:语料库
在提取关键字之前我们要先明白一些关于Python optparse模块的知识,因为下面关键字提取时用到了这个模块。
一、optparse
OptionParser是python中用来处理命令行的模块,在我们使用python进行流程化开发中必要的工具。它功能强大,而且易于使用,可以方便地生成标准的、符合Unix/Posix 规范的命令行说明。
也就是说,开发人员可以自定义命令去使用,使对程序的设计更加灵活。我们可以在命令行中输入自定义的命令来跑程序。
具体操作步骤:
- 1、首先我们要导入模块 from optparse import OptionParser
- 2、创建一个 用户帮助说明的文档参数 (这个是可选的)
USAGE = “usage: python NPL01.py [file name] -k [top k]”
也就是用户输入命令的格式。[file name] -k [top k] - 3、创建 OptionParser模块对象parser
parser=OptionParser(USAGE) 4、在对象中增加参数选项
parser.add_option(“-k”,dest=”topK”)
parser.add_option(“-v”, action=””, type=””,dest=””,default=””,help=””)1
2
3
4
5
6add_option()参数说明:
action:存储方式,分为三种store、store_false、store_true
type:类型
dest:存储的变量
default:默认值
help:帮助信息5、调用optionparser的解析函数
fakeArgs=[‘NBA.txt’,’-k’,’10’]
opt,args=parser.parse_args(fakeArgs)opt包含add_option中的dest值,而对应的value值,是add_option()函数中的default的参数或者是由用户传入optParser.parse_args()的参数(即命令后面紧挨的值,该例子中就是-k后的第一个值,这是由于默认action=”store”,其形成的字典是dest+命令-k后的第一个参数)
剩下的值就是args数组中的值
此时opt、args里的值为1
2opt= {'topK': '10'}
args= ['NBA.txt']
注意:下面是action的源码1
2
3
4
5
6
7STORE_ACTIONS = ("store", "store_const","store_true","store_false","append","append_const","count")
action默认取值store。
store 表示将命令行参数的值保存在options对象中。如果我们对optParser.parse_args()函数传入的参数列表中带有‘-k’,那么就会将列表中‘-k’的下一个元素作为其dest的实参topK值,它们两个参数形成一个字典中的一个元素{topK:NBA.txt}。相反当我们的参数列表中没有‘-k’这个元素时,那么topK的值就会为空。
store_false 命令中中存在'-k'dest的值将会返回False,而不是NBA.txt,也就是说dest的值与'-k'的后一位无关,只与‘-k’存在不存在有关。
store_ture 这与action="store_false"类似,只有其中有参数'-k'存在,则dest的值为True,如果'-k'不存在,那么verbose的值为None。
二、关键词提取
1 | import sys |
三、结果显示
注:
- 如有不正确还请见谅。
- 另外,如需素材和代码请访问我的Github:https://github.com/Zxnaruto