学术视点
| 来源:【字号:大 中 小】
题目:Bailicai: A Domain-Optimized Retrieval-Augmented Generation Framework for Medical Applications(Bailicai:面向医疗应用的领域优化检索增强生成框架)
作者:L. Cui et al.
来源:Big Data Mining and Analytics(大数据挖掘与分析), vol. 9, no. 2, pp. 376-392.
摘要:Large language models (LLMs) excel in various natural language processing tasks and are increasingly applied in specialized fields like medicine. However, their deployment in the medical domain is challenged by limited domain-specific data and the tendency to generate inaccurate information, known as “hallucinations.” While domainspecific fine-tuning has improved open-source LLMs, they still underperform compared to proprietary models like ChatGPT and PaLM. To address this gap, retrieval-augmented generation (RAG) techniques have been explored to enhance LLMs by integrating external knowledge bases. Nevertheless, the success of RAG depends on the quality of retrieved documents, and its application within the medical field remains in the early stages. In this paper, we introduce the “Bailicai” framework as an exploratory approach to integrating RAG with LLMs in the medical field. The framework employs fine-tuning to improve the RAG process, where “falsely relevant” and “completely irrelevant” interference documents are intentionally included in the training data. This enables Bailicai to develop the ability to assess the quality of retrieved documents and selectively incorporate them. The framework is organized into four modules: (1) medical knowledge injection, (2) self-knowledge boundary identification, (3) directed acyclic graph task decomposition, and (4) retrieval-augmented generation. Through the synergy of these modules, Bailicai achieves superior performance on multiple medical benchmarks, outperforming existing large models in the medical domain, RAG-based methods, and proprietary models such as GPT-3.5. Furthermore, Bailicai effectively mitigates the hallucination problem common in LLMs applied to medical tasks and enhances the robustness of RAG when dealing with irrelevant or misleading documents, enabling more accurate information retrieval and integration.
编者译:大模型在各种自然语言处理任务中表现出色,并日益广泛应用于医学等专业领域。然而,其在医疗领域的部署面临着领域特定数据有限以及易生成不准确信息(即“幻觉”)的挑战。尽管领域特定微调已提升了开源大语言模型的性能,但与ChatGPT和PaLM等专有模型相比,其表现仍显逊色。为弥补这一不足,研究者开始探索利用检索增强生成(RAG)技术,通过引入外部知识库来增强大语言模型的能力。然而,RAG的成功与否取决于检索文档的质量,且其在医疗领域的应用仍处于起步阶段。本文提出了“Bailicai”框架,作为在医疗领域将RAG与大模型相结合的一种探索性方案。该框架采用微调技术优化RAG流程,通过在训练数据中有意引入“假相关”和“完全不相关”的干扰文档,使Bailicai具备了评估检索文档质量并进行选择性整合的能力。该框架包含四个模块:(1)医学知识注入,(2)自我知识边界识别,(3)有向无环图任务分解,(4)检索增强生成。通过各模块的协同作用,Bailicai在多个医学基准测试中表现优异,超越了医疗领域现有的通用大模型、基于RAG的方法以及GPT-3.5等专有模型。此外,Bailicai有效缓解了医疗任务中大语言模型常见的幻觉问题,增强了RAG在处理无关或误导性文档时的鲁棒性,从而实现了更精准的信息检索与整合。
题目:RFSensingGPT: A Multi-Modal RAG-Enhanced Framework for Integrated Sensing and Communications Intelligence in 6G Networks(面向6G网络通感一体化智能的多模态RAG增强框架)
作者:M. Zakir Khan, Y. Ge, M. Mollel, J. Mccann, Q. H. Abbasi and M. Imran
来源:IEEE Transactions on Cognitive Communications and Networking(认知通信和网络汇刊), vol. 12, pp. 298-311, 2026.
摘要:We present RFSensingGPT, an integrated framework for radio frequency (RF) sensing that combines technical question-answering, code retrieval, and spectrogram analysis through retrieval-augmented generation (RAG). Our framework addresses the fundamental challenge of applying large language models to RF sensing applications, where specialized domain knowledge is underrepresented in general training corpora. The system leverages a filtered RedPajama dataset containing RF-relevant technical documents, processed through a hybrid retrieval mechanism that combines vector-based similarity search with best match (BM25)-based query fusion. Performance evaluation using document collections ranging from 5K to 80K demonstrates that RAG consistently maintains superior faithfulness across all dataset sizes (0.9033-0.9779 vs 0.8162-0.8506, average improvement of 13.0%) compared to baseline LLM implementations. Our hierarchical chunking approach using MarkdownHeaderTextSplitter achieves optimal precision (0.31-0.32) at lower k-values while maintaining correctness scores of 4.0-5.0. The framework integrates CLIP-based vision models for RF pattern recognition, achieving 93.23% accuracy in radar data analysis tasks. Implementation benchmarks show efficient processing with minimal GPU memory requirements (0.66GB) even at scale. Through a comprehensive evaluation of the embedding models, RFSensingGPT establishes a new benchmark for technical query understanding and RF spectrogram analysis in the emerging field of integrated sensing and communications systems for 6G networks.
编者译:本文提出一个用于射频(RF)感知的一体化框架——RFSensingGPT,通过检索增强生成(RAG)技术,将技术问答、代码检索和频谱图分析结合在一起。该框架旨在解决大模型应用于射频感知领域时所面临的根本挑战,即通用训练语料库中缺乏专业领域知识的问题。该系统利用经过筛选、包含射频相关技术文档的RedPajama数据集,并通过一种混合检索机制进行处理,该机制结合了基于向量的相似性搜索与基于最佳匹配(BM25)的查询融合。利用规模从5K到80K不等的文档集合进行的性能评估表明,与基线大语言模型实现相比,RAG在所有数据集规模上均始终保持更高的忠实度(0.9033-0.9779 对比 0.8162-0.8506,平均提升13.0%)。本文采用MarkdownHeaderTextSplitter的分层分块方法在较低的k值下实现了最佳精度(0.31-0.32),同时保持了4.0-5.0的正确性评分。该框架集成了基于CLIP的视觉模型用于射频模式识别,在雷达数据分析任务中实现了93.23%的准确率。实施基准测试显示,即使在规模化场景下,该框架也能以极低的GPU内存占用(0.66GB)实现高效处理。通过对嵌入模型的全面评估,RFSensingGPT在6G网络通感一体化系统这一新兴领域的技术查询理解和射频频谱图分析方面确立了新的基准。
题目:人工智能生成内容技术综述
作者:张旭龙、瞿晓阳、谢骏飞、刘鹏程、肖春光、王健宗
来源:大数据, 2026, 12(01): 146-173.
摘要:人工智能生成内容(AIGC)作为传统内容生产模式的补充,利用人工智能技术满足个性化需求。深度学习技术的发展推动了AIGC在算法、生成任务和技术产品方面的突破。基于深度学习的数据生成模型如生成对抗网络、扩散模型和变分自编码器在数据生成领域展现出卓越性能。大模型如DeepSeek、GPT-4和DALL-E-2在AIGC领域展现出显著优势。AIGC模型在图像、文本、语音、视频等生成任务中表现出色。将生成模型转化为技术产品如ChatGPT和DreamStudio成为必然趋势。尽管如此,许多生成样本不符合预期要求,导致难以应用于下游任务。本文旨在梳理AIGC技术的研究现状,归纳总结并分析该领域的挑战和未来发展方向。
题目:科学数据乘数效应的激活路径与治理范式研究
作者:王呈珊、陈祖刚、陈力、安磊、范治成、徐波
来源:数据与计算发展前沿, 2026, 8(1): 148-157.
摘要:科学研究正加速向以大数据与智能驱动的新型范式演进,科学数据作为数字时代新型生产要素之一,已跃升为国家创新体系建设的基础性创新底座与战略核心资产。研究阐释了科学数据内涵外延、发展趋势与特征变化,基于科学数据要素化后的价值创造、价值实现以及价值倍增等内容,论述了科学数据要素乘数效应的作用机理。研究认为科学数据要素乘数效应的激活遵循“要素激活-价值释放-系统演进”的科学规律,以差异化制度供给体系重塑生产关系、以异构技术栈群融合升级生产力、以“数商-要素-场景”市场深化交换关系、以开放协同生态网络驱动系统进化四维联动逻辑实现科学数据要素的高效配置与价值释放。在数据要素视角下,科学数据治理范式正从“资源管理”向“要素治理”跃迁,在应用市场、应用场景和应用技术不断深化成熟过程中,科学数据治理体系、治理能力和治理规则之间会形成螺旋式协同演进趋势,为科技创新和社会发展提供强大的动力。
题目:科研智能: 政策、技术及应用
作者:董昊、魏凯
来源:大数据, 2026, 12(01): 84-95.
摘要:科研智能是人工智能与科学研究及产业研发交叉融合的前沿领域,推动科学发现和技术创新。科研智能的演进分为三个阶段:1950—1999年以数值计算和模拟仿真为核心;2000—2010年依托数据驱动方法;2010年至今在深度学习革命推动下,实现智能方法与科研实践的深度融合。AI4S(AI for science)概念提出,利用人工智能解决科研中的复杂问题,加速科学发现。2020年,AlphaFold2实现接近实验精度的蛋白质结构预测,成为科研智能领域的里程碑。同年,美国能源部发布《科学智能研究报告》,系统梳理人工智能在科学研究中的关键议题。李国杰院士团队提出“第五种科研范式”——智能化科研(AI for research),明确人工智能在基础科学、技术研究和工程应用中的赋能价值。2021年起,全球多个机构和企业积极布局科研智能领域,发布AI+生物医药、AI+数学、AI+材料等领域的研究成果。2023年起,主要经济体从政策、法规及资金支持等维度体系化推动科研智能发展。2024年10月,诺贝尔奖首次颁发给科研智能成果,标志着人工智能在科研中的地位正式迈向主流,预示着由人工智能驱动的科研新时代的到来。
