新AI可以挖掘科学论文中埋藏的数据, 并快速将其转化为可用的数据

爱游戏怎么进入游戏界面

热点资讯

发布日期：2026-04-30 12:18 点击次数：159

科学数据正在以惊人的速度堆积，但大量有价值的数字依然被埋在论文文本里，等待人工去发现。

德国于利希研究中心的研究团队开发了一套名为Quinex的AI框架，专门用于自动识别科学论文中的定量数据，将散落在文字叙述中的数字、单位、测量条件等信息，整理成结构化的可用数据集。相关成果已发表在《创新》杂志上。

这件事听起来像是文字处理工具的升级版，但它解决的问题远比看起来更紧迫。

数据就在那里，但没人能全部读完

在能源、气候、材料科学等研究领域，每一篇论文里都密布着数字：效率百分比、温度范围、生产成本、碳排放量。这些数据对于建立模型、识别趋势、制定政策具有直接价值。

问题是，这些数字并不存在于整齐的表格里，它们藏在句子的中间，夹在方法描述和背景说明之间，需要人读懂上下文才能判断它的含义。

更棘手的是，相关论文的数量正在以指数级增长。以能源转型领域为例，每年新发表的研究论文已经远超任何团队手工处理的上限。想要系统性地汇总某项技术在过去十年的效率演变，靠人工阅读提取几乎是不可能完成的任务。

Quinex想要解决的，正是这个卡口。

Quinex是“定量信息提取”的缩写，其核心是经过专门训练的语言模型，能够识别科学文本中的数值，将数值与对应单位匹配，并判断这个数字描述的是什么、在什么条件下测得、来自哪里、时间节点是何时。

举一个具体例子：论文中出现“2025年假设效率水平为63%至71%”这样的句子，Quinex会将其解析为包含年份、效率范围、测量方法和文献来源的结构化数据条目，而不是仅仅提取“63%”和“71%”两个孤立的数字。

这种对上下文的理解能力，是Quinex区别于简单数字提取工具的关键所在。

在准确率方面，Quinex在数字及相关单位识别上的F1准确率约为98%，在定量属性分类和实体分类上分别达到87%和82%。这些数据来自专门构建的训练数据集和方法论改进，在同类系统中处于领先水平。

轻量、开放，让更多研究者用得上

值得关注的是，Quinex并非依赖庞大的专有大模型，而是基于相对小型、高效的开放语言模型构建。

这个选择有其明确的逻辑。大型封闭模型计算成本高昂，部署门槛高，对于资源有限的研究机构并不友好。于利希团队的目标是开发一个“强大、透明且资源高效”的工具，让AI辅助的科学数据分析真正具备可及性。

在实际测试中，研究团队将Quinex应用于来自多个领域的数千篇科学摘要，系统成功提取了各类能源技术的电力生产成本、人体最大摄氧量、地震震级与位置数据，以及光伏材料的能隙数值，提取结果与参考数据高度吻合。

负责该项目的Jann Weinand博士表示，Quinex使AI在科学数据分析中更易获得，而这正是团队从一开始就设定的目标。

于利希研究中心已将Quinex作为开源项目对外发布，全球研究人员可以免费测试、扩展和调整这套系统，使其适应各自领域的需求，从能源研究到化学、生物医学均可覆盖。

当然，Quinex并非无懈可击。团队坦承，当关键引用信息分散在文本各处时，系统有时会出现误解。领衔作者Jan Göpfert明确表示，数字和单位的识别非常可靠，因为它们直接来自原文，不存在“幻觉”问题，但对上下文的判断仍有出错的可能。

正因如此，团队将Quinex定位为辅助工具而非替代品，每一个被识别的数字都可以追溯到原始来源，必要时在原文中直接标注，解读结果的责任仍由研究者承担。

接下来，团队计划通过引入更多领域专属的训练数据集和模型，进一步提升系统在细分领域的适应性和精度。

科研的洪流在加速，能帮助研究者在数据海洋里更快找到方向的工具，正在变得越来越不可或缺。

下一篇：没有了