文件结构化信息的提取方法、装置、设备、介质和产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
文件结构化信息的提取方法、装置、设备、介质和产品
申请号:CN202511358445
申请日期:2025-09-23
公开号:CN120849649A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种文件结构化信息的提取方法、装置、设备、介质和产品,涉及数据处理技术领域,包括:确定待处理文件的文件内容类型;在确定文件内容类型为图像内容文件的情况下,对待处理文件进行文本识别,确定待处理文件包含的待处理文本以及待处理文本在待处理文件中对应的文本区域坐标;对待处理文本进行结构化内容实体识别,确定待处理文本包含的结构化内容实体以及各结构化内容实体在文本区域坐标中分别对应的内容实体坐标;根据各内容实体坐标构建各结构化内容实体之间的内容实体关系数据,并根据内容实体关系数据对待处理文本进行结构化信息提取,得到待处理文件包含的目标结构化信息。本发明能够提升结构化信息提取的准确性及完整性。
技术关键词
实体关系数据 文本识别 坐标 大语言模型 指令 语义 表格 可读存储介质 列表 数据处理技术 计算机程序产品 图像 电子设备 处理器通信 层级