我们提出了一项研究议程,旨在有效提取,确保质量和巩固文本公司的可持续性信息,以满足紧急的气候变化决策需求。从目标开始,是创建与气候相关数据的集成公平(可访问,可访问,可互操作,可再利用的数据,我们确定与信息提取的技术方面以及与我们寻求编译的综合可持续性数据集有关的研究需求。关于提取,我们利用技术进步,尤其是在大语言模型(LLMS)和检索功能(RAG)管道中,以解锁公司可持续性报告中包含的非结构化文本信息的未充分利用的潜力。在应用这些技术时,我们回顾了关键挑战,其中包括从PDF文档中检索和提取CO2排放值的检索和提取,尤其是在其中的非结构表和图中,以及通过与人类宣传的值进行比较来自动提取数据的验证。我们还回顾了气候风险中现有的用例和实践与选择应提取哪些文本信息以及如何将其链接到现有结构化数据的选择有关。