[导读]文字是传递信息的高效途径,利用OCR技术提取文本信息是各行业向数字智能化转型的第一步。与此同时,针对OCR提取的海量文本信息,利用NLP技术进一步加工提取、分析理解后才能最大化发挥文本信息的价值。NLP技术可以提升OCR准确率,并从文本中抽取关键信息、构建知识图谱,搭建检索、推荐...
文字是传递信息的高效途径,利用OCR技术提取文本信息是各行业向数字智能化转型的第一步。与此同时,针对OCR提取的海量文本信息,利用NLP技术进一步加工提取、分析理解后才能最大化发挥文本信息的价值。NLP技术可以提升OCR准确率,并从文本中抽取关键信息、构建知识图谱,搭建检索、推荐、问答系统等。
虽然各行业智能化产业升级已经在如火如荼的开展中,但是在实际应用落地中却遇到诸多困难,比如:数据样本不够、模型精度不高、预测时延大等。为此,百度飞桨针对真实、高频的产业场景,提供了从数据准备、模型训练优化,到模型部署全流程的案例教程。
听说文档和代码已经开源了,来吧
-
https://github.com/PaddlePaddle/awesome-DeepLearning
OCR NLP 串联技术难点
市面上有不少开源的OCR、NLP产品,但是如果想直接利用这些工具,会面临底层框架不统一、串联难度高、效果无法保证等问题。PaddleOCR和PaddleNLP是面向产业界的开发库,均基于飞桨开源框架最新版本,能够将OCR和NLP技术无缝结合。
今天我们针对金融行业研报、物流快递单,来看看OCR NLP信息抽取技术的应用。
OCR NLP金融研报分析
当前,诸多投资机构都通过研报的形式给出对于股票、基金以及行业的判断,让大众了解热点方向、龙头公司等各类信息。然而,分析和学习研报往往花费大量时间,研报数量的与日俱增也使得研报智能分析诉求不断提高。这里我们采用命名实体识别技术,自动抽取研报中的关键信息,例如,“中国银行成立于1912年。”中包含了组织机构、场景事件、时间等实体信息。
OCR NLP Pipeline
针对研报数据的命名实体识别与词频统计整体流程如上图所示。首先将研报pdf数据使用fitz包拆分为图像格式,然后利用PaddleOCR套件在研报数据集上微调PP-OCR[1]的检测模型,使用现有的识别模型获得文本信息。PP-OCR是PaddleOCR中由百度自研的明星模型系列,由文本检测、文本方向分类器与文本识别模块串联而成。
PP-OCR Pipeline
对OCR识别出的文本进行整理后,调用PaddleNLP中的Taskflow API抽取文本信息中的组织机构实体。最后对这些实体进行词频统计,就可初步判定当前研报分析的热点机构。
Taskflow使用示意图
目前,Taskflow API 支持自然语言理解(NLU)和生成(NLG)两大场景共八大任务,包括中文分词、词性标注、命名实体识别、句法分析、文本纠错、情感分析、生成式问答和智能写诗,均可一键调用。
物流快递单信息抽取
双十一要到了,想必很多人都预备了一个满满的购物车。去年双十一成交量4982亿元,全国快递企业共处理快件39亿件,这背后则是物流行业工作量的骤增。除了满负荷的长深高速公路,还有繁忙的快递小哥。无论是企业业务汇总,还是寄件信息填写,都少不了关键信息智能提取这一环节,这其中均采用了命名实体识别技术。
命名实体识别大体上有三种方案:字符串匹配、统计语言模型、序列标注。前两种方法需要预先构建词典、穷举所有实体,无法发现新词、变体等。本案例中采用了目前的主流方法——序列标注。
数据集包括1600条训练集,200条训练集和200条测试集,采用BIO体系进行标注。
实体定义和数据集标注示例
针对轻量化、高精度的需求,可以选用RNN CRF 方案。也可以采用预训练模型,通过模型压缩、动转静加速等方式满足精度和性能的要求。我们采用Ernie-Gram[2] CRF 获得了最佳效果。
此外,命名实体识别技术可以应用于各类关键信息的提取,例如电商评论中的商品名称、电子发票中的抬头信息、收入证明中的金额、法律文书中的犯罪地点等信息。结合关系抽取、事件抽取技术,还可以构建知识图谱、搭建问答系统等。 ☆直播预告☆
为了便于大家更熟练地使用这些案例教程,百度高工将于10月26-28日围绕四大行业、八大真实场景亲授产业实践案例课,欢迎小伙伴们锁定我们的直播间,来和我们交流吧!扫码报名直播课,立即加入技术交流群
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
企业级AI操作系统将上下文、编排与执行相统一,赋能受管控的AI员工自主化、规模化地完成真实业务任务。 集成语音AI的AI OS支持超低延迟下的自然语音交互...
关键字:
COM
MOTION
NVIDIA
开源
上海2026年1月8日 /美通社/ -- 北京时间2026年1月8日,启明创投投资企业、中国通用人工智能(AGI)的开拓者与引领者智谱成功登陆港交所,成为“全球大模型第一股”。智谱(02513.HK)发行价为116.20...
关键字:
模型
LM
开源
多模
北京2025年12月22日 /美通社/ -- 近日,软通动力旗下自主品牌软通华方正式发布开源鸿蒙智慧屏新品,这款搭载软通天鸿操作系统6的商显大屏,以"硬件+系统+应用"全栈国产化架构添补了行业空白,成...
关键字:
开源
智慧屏
全栈
鸿蒙
北京2025年12月22日 /美通社/ -- 近日,软通动力在自主创新产品发布会上正式发布"软通天鸿操作系统6"。该操作系统由软通动力子公司鸿湖万联基于OpenHarmony社区版深度定制而成,是一款...
关键字:
开源
操作系统
全栈
鸿蒙
北京2025年12月22日 /美通社/ -- 12月20日晚,中央广播电视总台与广东省人民政府联合主办,深圳市人民政府、央视频、总台广东总站共同承办的《鸿蒙星光盛典》,正式在CCTV-2、CCTV-3、央视频、央视新闻、...
关键字:
鸿蒙
开源
操作系统
HARMONY
北京2025年12月18日 /美通社/ -- 12月17日,软通动力在北京隆重举办"开源鸿蒙•智绘未来"主题发布会,正式推出软通天鸿操作系统6与软通华方开源鸿蒙智慧屏两款核心产品。本次活动通过产品发布...
关键字:
开源
鸿蒙
智慧屏
OS
上海2025年12月16日 /美通社/ -- 12月15日-16日,2025中国汽车软件大会于上海嘉定开幕。会上,行业首个覆盖自动驾驶全栈的开源中间件——天元OS跨域中间件正式全栈开源发布,黑芝麻智能作为共建单位,黑芝麻...
关键字:
开源
中间件
全栈
OS
北京2025年11月10日 /美通社/ -- 11月6日至9日,2025年世界互联网大会乌镇峰会在中国浙江乌镇成功举办。历经十一年发展,乌镇峰会已成为在中国举办的规模最大、层...
关键字:
AI
IBM
开源
智能体
北京2025年11月10日 /美通社/ -- 11月6日至9日,2025年世界互联网大会乌镇峰会在中国浙江乌镇成功举办。历经十一年发展,乌镇峰会已成为在中国举办的规模最大、层...
关键字:
IBM
开源
AI
智能体
江苏昆山2025年10月23日 /美通社/ -- 第十八届中国纸业发展大会在青岛盛大开幕,400余位行业领袖与专家共襄盛会,共话纸业的可持续未来。作为大会首日晚宴环节,"福伊特之夜"以主题 "...
关键字:
XCELL
可持续发展
人工智能
开源
杭州2025年9月16日 /美通社/ -- 开源让 AI 有了无限的可能,这些可能正从设想逐步落地:具身智能走出实验室,新的操作系统正在被重写,AI 应用不断渗透各行各业,互联网也因开源再次焕发活力。在这样的节...
关键字:
SIM
开源
OS
GO
北京2025年9月5日 /美通社/ -- 9月4日,在北京市人民政府新闻办公室举行的"一把手发布•京华巡礼"系列主题新闻发布会上,北京经开区对外发布,北京经济技术开发区(简称"北京经开区&q...
关键字:
人工智能
模型
开源
AI
杭州2025年9月2日 /美通社/ -- 9 月 13–14 日,GOSIM HANGZHOU 2025 大会将在杭州隆重启幕。本次大会由 GOSIM 全球开源创新汇主办、CSDN 承办,以国际化、社区化、强互动为特色,...
关键字:
SIM
开源
OS
GO
首个采用高分辨率太阳观测数据训练的太阳物理学人工智能 (AI) 基础模型,旨在深入探索太阳动态表面,对可能干扰地球和太空技术的太阳天气做出有效规划。 该模型已发布在 Hugging Face 开源平台,旨在加快...
关键字:
IBM
NASA
开源
模型
上海2025年8月22日 /美通社/ -- 8月21日,移远通信正式推出开源生态新品——PI-SC200U智能生态开发板。凭借高性能、开源化、全接口三大优势,其精准覆盖边缘网...
关键字:
开源硬件
PI
4G
开源
深圳2025年8月4日 /美通社/ -- 近日,电子元件和工业品数字化全球供应商欧时RS联合四方维(Supplyframe)创新中心成功举办 "欧时RS创客沙龙——Arduino主题开放日"。活动聚焦开源硬件与编程领军平...
关键字:
Arduino
开源
创客
智能未来
上海2025年8月1日 /美通社/ -- 7月28日,2025世界人工智能大会"大模型智塑全球产业新秩序"论坛在上海徐汇西岸成功召开。开源大模型为全球产业带来新的变革和潜力,技术加速迭代创新,应用与产...
关键字:
人工智能
AI
SI
开源
上海2025年7月28日 /美通社/ -- 在世界人工智能大会(WAIC)期间,荣耀正式发布自研多模态感知大模型——MagicGUI大模型。作为荣耀推出的首个GUI开源大模型...
关键字:
GUI
MAGIC
开源
模型
深圳2025年7月25日 /美通社/ -- 在人工智能持续演进、大模型加速应用、边缘计算架构日益成熟的推动下,智能终端正迈向更高性能、更强感知与更高开放性的全新阶段...
关键字:
开源
高通
模型
智能终端
北京 2025年7月17日 /美通社/ -- 随着AI迅速向边缘领域挺进,对智能边缘器件的需求随之激增。然而,要在小尺寸的微控制器上部署强大的模型,仍是困扰众多开发者的难题。开发者需要兼顾数据预处理、模型选择、超参数调...
关键字:
开源
嵌入式设备
AI
ADI