当大模型学会「读表格」:智能问答如何破解数据结构化难题?
Gartner最新研究指出,2025年企业业务数据中超60%将依赖表格存储。这意味着表格已经成为企业管理知识的重要方式,远远超过了传统的文本形式。其结构化特性带来的信息密度与交互效率,使得表格问答在智能问答领域的地位愈发关键。
表格问答难在哪?
可别小看表格问答,它的难度可不低。和普通文本相比,表格就像个复杂的谜题。
结构复杂:普通文本是“一行到底”的简单结构,模型顺着读就能明白意思。但表格是二维的,单元格合并、跨行跨列这些情况太常见了,信息就像被打散的拼图,找起来特别费劲。
语义难解:在理解语义方面,普通文本的关键信息一目了然,像“2025年一季度A产品销售额100万”,谁都能看懂。但表格得靠表头才能知道数据是什么意思,有些表格还有多级表头、跨列跨行表头,信息又多又复杂,逻辑都藏在表格结构里。
解析逻辑:以前解析表格主要靠单元格的颜色、填充这些视觉标记来识别表头,可要是遇到黑白文档、扫描件,或者没有这些标记的表格,就没办法了。
表格存储示意
自研表格理解增强技术
不过别担心,金现代团队凭借强大的技术实力,研发出了基于类 HTML 解析语法的表格理解增强技术,能让大模型更准确地理解表格数据。实现过程主要有下面6步:
获取信息:获取不同格式知识文档中的文本信息和表格信息。
统一格式:将表格信息转换为统一的存储格式,并定义基于行和列的存储格式。
确定表头区域:根据表格中形成表头的位置规律,确定表头大致区域。
详细表头区域:将确定的表头大致区域的文字内容拼接,采用预训练语言模型,对拼接后的内容进行分类,确定表格所属类别,进而确定表头详细区域。
处理表格内容:根据确定的表头详细区域,以表头为基准,对表格其余部分进行单元格合并或拆分,得到单元格无合并的情况且每行列数相同、每列行数相同的表格内容。
存储表格知识:以表头单元格的文字内容为字段名,对应的列或行中的单元格文字内容为值,将表格内容转换为键值对的形式,将原本表格中的一行或一列编为一组键值对字符串,向量化后存入向量库中。
经过这6步的处理,就像给表格来了一场 "结构化改造",最终把复杂表格变成机器能看懂的 "键值对",再乱的表格数据都能乖乖 "对号入座",让大模型理解表格就像读普通文字一样简单。
表格问答优势,赋能行业应用
凭借在表格问答领域的技术突破,金现代智能问答系统构建了兼具创新性与实用性的知识服务体系。系统可针对检测标准、设备说明书等非结构化文档提供精准问答服务,更能在批量复杂表格处理场景中展现强大性能,为企业决策提供支撑,推动知识管理向自动化、智能化层级跃迁。
表格问答示意
金现代将持续聚焦技术迭代与场景创新,不断提升系统的智能解析精度与服务响应效率,致力于在智能问答领域构建更具深度与广度的解决方案,助力企业释放数据价值,开创智能知识管理新范式。