学术视点

学术视点

日期:2024-03-07

|  来源:【字号:

题目:Extended-wavelength diffuse reflectance spectroscopy dataset of animal tissues for bone-related biomedical applications

作者:Li, C.L., Fisher, C.J., Komolibus, K. et al.

来源:Sci Data 11, 136 (2024)

摘要:Diffuse reflectance spectroscopy (DRS) has been extensively studied in both preclinical and clinical settings for multiple applications, notably as a minimally invasive diagnostic tool for tissue identification and disease delineation. In this study, extended-wavelength DRS (EWDRS) measurements of ex vivo tissues ranging from ultraviolet through visible to the short-wave infrared region (3551919 nm) are presented in two datasets. The first dataset contains labelled EWDRS measurements collected from bone cement samples and ovine specimens including 10 tissue types commonly encountered in orthopedic surgeries for data curation purposes. The other dataset includes labelled EWDRS measurements of primarily bone structures at different depths during stepwise drilling into intact porcine skulls until plunging into the cranial cavity. The raw data with code for pre-processing and calibration is publicly available for reuse on figshare. The datasets can be utilized not only for exploratory purposes in machine learning model construction, but also for knowledge discovery in the orthopedic domain to identify important features for surgical guidance, extract physiological parameters and provide diagnostic insights.

题目:DEBBIES Dataset to study Life Histories across Ectotherms

作者:Smallegange, I.M., Lucas, S.

来源:Sci Data 11, 153 (2024)

摘要:Demographic models are used to explore how life history traits structure life history strategies across species. This study presents the DEBBIES dataset that contains estimates of eight life history traits (length at birth, puberty and maximum length, maximum reproduction rate, fraction energy allocated to respiration versus reproduction, von Bertalanffy growth rate, mortality rates) for 185 ectotherm species. The dataset can be used to parameterise dynamic energy budget integral projection models (DEB-IPMs) to calculate key demographic quantities like population growth rate and demographic resilience, but also link to conservation status or biogeographical characteristics. Our technical validation shows a satisfactory agreement between observed and predicted longevity, generation time, age at maturity across all species. Compared to existing datasets, DEBBIES accommodates (i) easy cross-taxonomical comparisons, (ii) many data-deficient species, and (iii) population forecasts to novel conditions because DEB-IPMs include a mechanistic description of the trade-off between growth and reproduction. This dataset has the potential for biologists to unlock general predictions on ectotherm population responses from only a few key life history traits.

题目:构建支持大模型训练的计算机系统需要考虑的4个问题

作者:郑纬民

来源:大数据, 2024, 10(1): 1-8.

摘要:支持大模型训练的计算机系统有3种类型,其中基于国产AI芯片系统的生态系统不是很好,要想改变这个局面,需要做好AI编译器、并行加速等10个关键软件;基于超级计算机的系统需要做好软硬件协同设计,从而更好地服务于大模型训练。针对如何搭建大模型的基础设施,提出4点平衡设计,以确保系统的性能、可靠性和可扩展性。

题目:多模态知识图谱表示学习综述

作者:王春雷、王肖、刘凯

来源:计算机应用, 2024, 44(1): 1-15.

摘要:在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。

题目:面向低资源场景的实体知识获取研究综述

作者:徐道柱、赵凯琳、康栋、马超、冯禹铭、李紫宣、弋步荣、靳小龙

来源:大数据, 2024, 10(1): 46-61.

摘要:实体获取是信息抽取的核心任务。近年来,在大数据训练模型的趋势下,深度学习在实体获取任务上取得了成功。但在自然环境等领域中,地形、灾害等类型的实体样本或者标注样本很少,而且对无标签样本进行标注又耗时费力。因此,面向低资源场景的实体获取逐渐受到关注,该任务被称作低资源实体获取或小样本实体获取。系统地梳理了当前低资源实体获取的相关工作,具体来说介绍了基于元学习、基于多任务学习和基于提示学习这3类方法的研究现状;总结了目前常用的低资源实体获取数据集和代表性模型在这些数据集上的实验结果;对低资源实体获取的方法进行了总结与分析;总结了低资源实体获取的挑战,并展望了未来发展方向。

题目:人手抓取物体的三维数据集的建立及应用

作者:刘健、尤晨晨、曹金明、曾琼、屠长河

来源:计算机应用, 2024, 44(1): 278-284.

摘要:真实人手抓取数据在人类抓取行为分析和机器人类人抓取等研究中起到至关重要的作用。抓取数据集中应包含复杂形状的三维物体信息、抓取点的信息以及手的姿态和形状,然而目前普遍方法是采集视频图像并从中估计人的抓取行为,导致不能准确记录手部各个关节的自由度信息。利用虚拟现实技术建立虚拟环境,利用数据手套直接捕捉在虚拟环境中三维物体和手部姿态信息作为抓取数据。提出的数据集包含生活中常见的49类物体中的91个不同形状的物体(每个有108个姿态)以及共52 173人次的抓取记录,规模和丰富性都远远超过了已有的用于研究人类的抓取行为和研究以人为核心的抓取技术的数据集。此外,使用采集的数据集进行抓取显著性分析和类人抓取计算,实验结果验证了数据集的应用价值。

题目:工业数字化转型:故障诊断方法研究进展

作者:杨彪、熊贇、傅玲、徐蔚峰、李婧

来源:大数据, 2024, 10(1): 110-126.

摘要:工业数字化是我国工业产业转型升级的重要手段,数字化转型成为我国工业发展的重要趋势。工业系统的可靠性和稳定性对于工业生产的高质量和可持续发展具有重要作用。故障会影响工业系统的运行,甚至造成重大的安全事故和经济损失。为应对这一问题,故障诊断技术应运而生并逐步发展。高效、高质的故障诊断数字化技术已经成为工业数字化转型的关键技术。分析了工业领域故障诊断数字化方法的研究进展,按照其发展特点划分为领域经验主导的建模方法、数据驱动与领域经验结合的数字化方法、数据驱动主导与可解释性结合的数字化方法3个阶段,重点探究每个阶段方法的基本思想及其特点等,并探讨未来的研究方向,为推动工业数字化转型提供参考。


附件: