大语言模型在科研文献综述中的应用进展
摘要
近年来以 GPT、Gemini、Claude 为代表的大语言模型(LLM)在自然语言理解与生成方面取得突破,正在深刻改变科研工作者进行文献检索、综合分析与综述写作的方式。本文系统综述 2023—2025 年间 LLM 在科研文献综述中的应用方法、典型工具与现存局限,并对未来三年的发展方向进行展望。
一、研究背景
科研文献的指数级增长与跨学科融合趋势,使得传统的「读—摘—综」工作流逐渐难以应对。据 Nature 2024 年的统计,全球每年发表的同行评议论文已超过 500 万篇。研究者在面对海量文献时,往往不得不在「宽度」与「深度」之间艰难取舍。LLM 的出现为这一困境提供了新的解法 —— 它具备跨语言、跨学科的文本理解能力,并能在秒级时间内对数百篇文献进行结构化抽取与综合。
二、典型应用方法
2.1 文献检索增强
LLM 可以将研究者的自然语言查询自动改写为多个语义等价的检索式,并跨多个学术数据库执行联合检索。代表性工具包括 Semantic Scholar 的 SciSpace Copilot、Elicit、Consensus 等。
2.2 结构化信息抽取
针对单篇文献,LLM 可以按预定义 Schema(如:研究问题、方法、数据集、核心发现、局限)输出结构化 JSON,便于后续的对比分析与可视化。下表为一个典型 Schema 示例:
| 字段 | 类型 | 说明 |
|---|---|---|
| research_question | string | 论文核心研究问题 |
| methods | array | 采用的研究方法清单 |
| datasets | array | 使用的数据集名称与规模 |
| findings | array | 核心发现的要点列表 |
| limitations | string | 作者自陈的研究局限 |
2.3 综合性综述写作
基于多篇文献的结构化抽取结果,LLM 可以辅助生成综述初稿。但当前研究普遍认为,LLM 生成的综述需要研究者进行严格的事实校验与逻辑梳理,不宜直接采用。
"LLM 在科研写作中的最佳定位是高级科研助理,而非自动作者。研究者的判断与创造力仍不可替代。" —— Nature 2024 社论
三、技术实现示例
下列代码片段展示了一个简化的文献信息抽取流程:
def extract_paper(text: str, schema: dict) -> dict:
"使用 LLM 按 Schema 抽取论文结构化信息"
prompt = build_prompt(text, schema)
response = llm.chat(prompt, temperature=0.1)
return parse_json(response)
四、现存局限
- 幻觉问题:LLM 可能生成看似合理但实际不存在的引文或事实。
- 领域深度:通用大模型在高度专业的学科(如理论物理、有机化学)上仍显不足。
- 版权风险:未经授权使用付费文献进行训练或推理存在法律争议。
- 评估困难:缺乏统一的基准来衡量 LLM 综述的质量。
五、未来展望
未来 3 年,LLM 在科研文献综述中的应用将朝三个方向演进:(1)领域垂直化大模型的普及;(2)检索增强生成(RAG)成为主流技术架构;(3)人机协作工作流的标准化。本团队也将持续在前沿技术追踪专题中跟踪相关进展。
版本历史
- 2025-06-13 · 张明远
v1.3 · 增补 5 篇 2025 年新发表参考文献,修订第四节
- 2025-04-08 · 李雪
v1.2 · 优化代码示例,补充 Elicit 工具评测
- 2025-02-15 · 张明远
v1.1 · 修复参考文献编号错误
- 2025-01-20 · 张明远
v1.0 · 初始版本发布