当前位置:首页 > > 充电吧
[导读]欲先攻其事必先利其器1、 安装nltk,使用[python] view plain copypip install nltk  2、 在命令行下执行  [python] view plain copy

欲先攻其事必先利其器
1、 安装nltk,使用[python] view plain copypip install nltk  

2、 在命令行下执行  

[python] view plain copyimport nltk  nltk.download('punkt')  一段原始文本要可以处理必须经过几个阶段,一般而言主要有
1、文本清理,清理掉一些不必要的字符,比如使用BeautifulSoup的get_text,一处非ascii字符等等
2、语句分离,一大段原生文本,处理成一系列的语句,用计算机术语而言就是将一个字符串分割成若干字符串,可以使用"."或者"。"或者nltk_tokenize预置的预处理函数,(使用方式 from nltk.tokenize import sent_tokenize)
3、标识化处理,机器所能理解的最小单位是单词,所以我们在语句分离的基础上还要进行分词操作,也就是将一个原生字符串分割成一系列有意义的单词NLP标识化处理的复杂性根据应用的不同而不同,标识器有很多,比如split,word_tokenize和regex_tokenize
4、词干提取,较为粗糙的规则处理过程,修枝剪叶,比如eating,eaten 共同的词根是eat,我在处理时,认为eating和eaten就是一个eat就ok
5、词性还原,包含了词根所有的变化,词性还原操作会根据当前上下文环境,将词根还原成当前应该表现的形式使用方式(from nltk.stem import WordNetLemmatizer)

6、停用词移除,比如无意义的the a  an 等词汇会被移除,一般停用词表示人工定制的,也有一些是根据给定语料库自动生成的nltk包含22种语言的停用词表

根据以上观点,涉及到的python代码是:

[python] view plain copy# -*- coding: utf-8 -*-  import re  import requests  import operator  from bs4 import BeautifulSoup  from nltk.tokenize import sent_tokenize,wordpunct_tokenize,blankline_tokenize,word_tokenize  import nltk  import pymysql  import os    def mysql_select():      # 打开数据库连接      db = pymysql.connect(host="localhost",user="root",passwd="root",db="csdn",charset="utf8")      # 使用cursor()方法获取操作游标      cursor = db.cursor()      cursor.execute("SELECT * FROM `article_info` ORDER BY RAND() LIMIT 1")      # 提交到数据库执行      result = cursor.fetchall()      db.close()      return result    str_text = mysql_select()  #文本清理,我只需要content的内容  str_text = str_text[0]  #获得content  str_text = str_text[3]  #进行文本清理,去掉html  soup = BeautifulSoup(str_text, 'lxml')  str_text = soup.get_text()  #print("文本清理的结果: "+ str_text)  #语句分离器  text_list = sent_tokenize(str_text)  #标识化处理,针对所有的语句进行标识化处理  word_list = []  #使用nltk的内置函数进行语句分离  for sentence in text_list:      item_list = word_tokenize(sentence)      word_list.extend(item_list)  result_1_word_list = []  for word in word_list:      blank_list = blankline_tokenize(word)      result_1_word_list.extend(blank_list)      ''''' print("查看分词结果") for item in result_1_word_list:     print(item)     '''  #去掉停用詞  stop_words = [word.strip().lower() for word in ['{','}','(',')',']','[']]  clean_tokens = [tok for tok in result_1_word_list if len(tok.lower())>1 and (tok.lower not in stop_words)]  token_nltk_result = nltk.FreqDist(clean_tokens)  for k,v in token_nltk_result.items():      print(str(k)+" : "+str(v))  token_nltk_result.plot(10,cumulative=True)  

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

纳祥科技推出太阳能+Type-C双充电自行车前灯方案,方案核心模块包含太阳能板、单片机、三极管、3颗LED灯珠与1200mAh电池,通过低功耗单片机与三极管驱动,支持强光/弱光/爆闪3种模式,高流明远射程,适配多种车型

关键字: 方案开发 电子方案 自行车前灯方案 纳祥科技

慕尼黑2025年9月11日 /美通社/ -- 当地时间9月9日,赛力斯动力在德国慕尼黑国际车展期间举办技术发布与交流会,正式在海外市场推出全新一代赛力斯超级增程、高效发动机和新一代分布式电驱动系统,同时与来自全球的汽车产...

关键字: 慕尼黑 分布式 发动机 新能源汽车

慕尼黑2025年9月11日 /美通社/ -- 高端智能电动汽车品牌问界(AITO)在2025年德国国际汽车及智慧出行博览会(IAA MOBILITY)上,正式发布了其最新全球产品阵容——专为中东市场深度本地化打造的AIT...

关键字: AI 智能驾驶 测试 生态系统

舍弗勒首次为中国头部车企大规模生产高压逆变砖 天津工厂一年内完成量产准备,逆变器模块性能参数显著提升 与合作伙伴罗姆半导体共研尖端碳化硅技术,效率更高、性能更优 模块化可扩展设计使逆变砖易于集成,可广泛...

关键字: 逆变 高压 逆变器 集成

舍弗勒以"专注驱动技术的科技公司"为主题亮相IAA MOBILITY 2025(B3馆B40展台) 合并纬湃科技后首次亮相IAA MOBILITY,展示拓展后的汽车产品组合 凭借在软件、...

关键字: 电气 软件 驱动技术 BSP

拉斯维加斯2025年9月11日 /美通社/ -- 在9月8日至11日举办的RE+ 2025展会上,全球综合储能解决方案供应商德赛电池(Desay Battery)全面展示了其创新成果,并宣布与深圳市华宝新能源股份有限公司...

关键字: 电池 电芯 人工智能 锂电

香港2025年 9月12日 /美通社/ -- 全球领先的互联网社区创建者 - 网龙网络控股有限公司 ("网龙"或"本公司",香港交易所股票代码:777)欣然宣布,其子公司My...

关键字: AI 远程控制 控制技术 BSP

慕尼黑2025年9月12日 /美通社/ -- 慕尼黑当地时间9月10日,在2025德国国际汽车及智慧出行博览会(IAA MOBILITY)上,国际独立第三方检测、检验和认证机...

关键字: 测试 慕尼黑 模型 HUBER

上海2025年9月12日 /美通社/ -- 近日,国际独立第三方检测、检验和认证机构德国莱茵TÜV大中华区(简称"TÜV莱茵")为上海...

关键字: 测试 信息安全 安全管理 开关

广州2025年9月12日 /美通社/ -- 9月11日,由国际独立第三方检测、检验和认证机构德国莱茵TÜV大中华区(简称"TÜV莱茵"...

关键字: 数字化 供应链 控制 电子
关闭