当前位置:首页 > 芯闻号 > 充电吧
[导读]1.环境搭建     import nltk    nltk.download("averaged_perceptron_tagger")2、下载以下几个文件stanford-parser-full-

1.环境搭建     import nltk    nltk.download("averaged_perceptron_tagger")

2、下载以下几个文件

stanford-parser-full-2015-12-09  stanford-ner-2015-12-09

stanford-segmenter-2015-12-09 stanford-postagger-full-2015-12-09 

  修改过的nltk nltk-develop     stanford-chinese-corenlp-2018-02-27-models  

前四个包是斯坦福提供的分析资源包,该工具的使用依赖于JAVA环境需要装JDK 1.8 在此不赘述,nltk_develop,需要运行其中的setup.py文件,忘了说了,我的环境是python 36,运行完成后在PYTHON36安装目录下的Lib文件夹里面的site-packages里面生成和nltk相关的3个文件夹,将  修改过的nltk下载下来之后覆盖即可,最后一个chinese-corenlp则是资源文件

3、 斯坦福词性标注器安装部署

    3.2、 斯坦福分词操作

# -*- coding: utf-8 -*-
from nltk.tokenize.stanford_segmenter import StanfordSegmenter
data_dir = "D:\NLTK\stanford-segmenter-2015-12-09"
segmenter = StanfordSegmenter(
    java_class='edu.stanford.nlp.ie.crf.CRFClassifier',
    path_to_jar=data_dir + "\stanford-segmenter-3.6.0.jar",
    path_to_slf4j=data_dir+"\slf4j-api.jar",
    path_to_sihan_corpora_dict=data_dir+"\data",
    path_to_model=data_dir+"\data\pku.gz",
    path_to_dict=data_dir+"\data\dict-chris6.ser.gz"
    )
sentence = u"这是斯坦福中文分词器测试"
result = segmenter.segment(sentence)
print(result)

总结一定要注意path_to_slf4j路径,否则会出现java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory,错误

3.3 StanfordNERTagger  英文命名实体识别

# -*- coding: utf-8 -*-
from nltk.tag import StanfordNERTagger
eng_tagger = StanfordNERTagger(
    model_filename=r'D:NLTKstanford-ner-2015-12-09classifiersenglish.all.3class.distsim.crf.ser.gz',
    path_to_jar=r'D:NLTKstanford-ner-2015-12-09stanford-ner.jar',
)
print(eng_tagger.tag('Rami Eid is studying at Stony Brook University in NY'.split()))
总结:StanfordNERTagger没有参数接收path_to_slf4j参数,还是出现了java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory错误
修正方式:修改文件 C:Python36Libsite-packagesnltktagstanford.py文件的函数tag_sents在      stanpos_output, stderr 赋值处之前添加
_CLASS_PATH = "."
        if os.environ.get('CLASSPATH') is not None:
            _CLASS_PATH = os.environ.get('CLASSPATH')
        stanpos_output, stderr = java(cmd, classpath=(self._stanford_jar, _CLASS_PATH), stdout=PIPE, stderr=PIPE)
如果之前已经覆盖过Lib里面的site-packages即可跳过

当前,这个方式的前提是在你电脑的环境变量上CLASSPATH添加slf4j-api.jar的绝对路径即可

3.4中文命名实体

#对于chinese.misc.distsim.crf.ser.gz与chinese.misc.distsim.prop文件,将stanford-chinese-corenlp-2016-10-31-models.jar解压可以找到。

# -*- coding: utf-8 -*-
from nltk.tag import StanfordNERTagger
result='四川省 成都 信息 工程 大学 我 在 博客 园 开 了 一个 博客 , 我 的 博客 名叫 伏 草 惟 存 , 写 了 一些 自然语言 处理 的 文章 。rn'
chi_tagger = StanfordNERTagger(model_filename=r'D:NLTKstanford-chinese-corenlp-2018-02-27-modelsedustanfordnlpmodelsnerchinese.misc.distsim.crf.ser.gz',
                               path_to_jar=r'D:NLTKstanford-ner-2015-12-09stanford-ner.jar')
for word, tag in chi_tagger.tag(result.split()):
    print(word,tag)
3.5词性标注

StanfordPOSTagger 中文词性标注

# -*- coding: utf-8 -*-
from nltk.tag import StanfordPOSTagger
chi_tagger = StanfordPOSTagger(model_filename=r'D:NLTKstanford-postagger-full-2015-12-09modelschinese-distsim.tagger',
                             path_to_jar=r'D:NLTKstanford-postagger-full-2015-12-09stanford-postagger.jar')
result= '四川省 成都 信息 工程 大学 我 在 博客 园 开 了 一个 博客 , 我 的 博客 名叫 伏 草 惟 存 , 写 了 一些 自然语言 处理 的 文章 。rn'
print(chi_tagger.tag(result.split()))

3.6中文语法分析

# -*- coding: utf-8 -*-
from nltk.parse.stanford import StanfordParser
chi_parser = StanfordParser(r"D:NLTKstanford-parser-full-2015-12-09stanford-parser.jar",
                            r"D:NLTKstanford-parser-full-2015-12-09stanford-parser-3.6.0-models.jar",
                            r"D:NLTKstanford-chinese-corenlp-2018-02-27-modelsedustanfordnlpmodelslexparserchinesePCFG.ser.gz")
sent = u'北海 已 成为 中国 对外开放 中 升起 的 一 颗 明星'
print(list(chi_parser.parse(sent.split())))

3.7 中文依存句法分析

# -*- coding: utf-8 -*-
from nltk.parse.stanford import StanfordDependencyParser
chi_parser = StanfordDependencyParser(r"D:NLTKstanford-parser-full-2015-12-09stanford-parser.jar",
                                      r"D:NLTKstanford-parser-full-2015-12-09stanford-parser-3.6.0-models.jar",
                                      r"D:NLTKstanford-chinese-corenlp-2018-02-27-modelsedustanfordnlpmodelslexparserchinesePCFG.ser.gz")
res = list(chi_parser.parse(u'四川 已 成为 中国 西部 对外开放 中 升起 的 一 颗 明星'.split()))
for row in res[0].triples():
    print(row)

说明所有资料整理自 

【NLP】干货!Python NLTK结合stanford NLP工具包进行文本处理根据自己的环境进行的修改,上述代码可以正常运行
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

Pipenv是一款旨在将所有包管理工具的优点集中利用于python领域中的工具,兼容性高,使用Pipenv可以自动创建项目和管理虚拟环境,且安装或删除包时会自动在Pipfile中添加和移除相应的包。

关键字: python 管理工具 虚拟环境

随着大数据的兴起,Python 和机器学习迅速成为时代的宠儿。本书在内容编排上避免了枯燥的理论知识讲解,依循“理论简述——实际数据集——Python 程序实现算法”分析数据的思路。

关键字: python 机器学习 数据集

Python拥有很多免费数据函数库、免费web网页模板系统、以及与web服务器进行交互的库,可以实现web开发,搭建web框架,目前比较有名气的Python web框架为Django。

关键字: python 函数库 免费web网页

那么用户下载到的就是该系统的所有源代码,并且可以随意修改。这也是解释型语言本身的特性,想要运行程序就必须有源代码。

关键字: python 源代码 C/C++程序

Python有丰富的第三方库和包,可以扩展Python的功能。为了方便地管理这些包,您需要安装一个Python包管理工具,例如pip、conda等。这些工具可以帮助您安装、升级和删除Python包,使您能够轻松地管理Py...

关键字: python 编程实例 Python解释器

Python是一种非常流行的编程语言,它简单易学,功能强大,可以应用于许多领域,如Web开发、数据分析、人工智能等。本篇文章将为您介绍如何从零开始学习Python!

关键字: python 入门基础 数据分析

Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代初设计,作为一门叫做ABC语言的替代品。 Python提供了高效的高级数据结构,还能简单有效地面向对象编程。

关键字: python 函数 对象编程

Python和Java是两种广泛应用于编程领域的高级编程语言,它们各有优劣。本文从程序设计应用、系统资源占用、高性能处理和语言特点等四方面详细介绍两种编程语言的区别。

关键字: python java 高性能处理

今天在Github上瞎逛的时候,发现了一个有趣的小项目,但是由于一些特殊的原因,犹豫了一下要不要推荐给大家。

关键字: python 开源
关闭
关闭