2024-08-21,由中山大学创建的SDAAP数据,专门针对光谱分析和检测领域的首个开源文本知识数据集。
数据集主要应用于光谱检测分析领域,目的通过提供高质量的问答框架,减少重复性劳动,加速光谱检测过程。
##一、目前遇到挑战:
-
知识检索效率低下:在光谱分析领域,研究人员需要花费大量时间手动检索文献和相关资料,以获取特定研究对象的光谱分析方法和技术。
-
专业知识获取难:现有的大型语言模型虽然在通用领域表现出色,但在专业领域,如光谱分析,就缺乏足够的专业知识来提供准确的答案。
-
数据集缺乏:在光谱分析领域缺少专门为自然语言处理(NLP)任务设计的、包含丰富文本数据的开源数据集。
SDAAP数据集:提供了一个系统化的知识和文献资源库,可以快速检索所需信息。通过提供专业文献和指令微调数据(IFT),增强了LLM在光谱分析领域的专业性和可靠性。
数据集地址:SDAAP|光谱分析数据集|数据集数据集
二、让我们来一起看一下这个数据集:
SDAAP数据集为光谱分析和检测领域提供了一个丰富的知识库,支持自动化的知识检索。
收集从2024到2023年间发表的与光谱分析相关的学术文献,涵盖了食品、生物医学科学、材料等多个领域。
利用Web of Science等数据哭进行文献检索,通过关键词筛选和人工去重,最终获得4461篇相关论文。不仅对这些论文进行详细的分类和标注,包括研究对象,使用的光谱技术、化学计量参数等。而且还从所有文献中提取超过20000条指令微调数据(IFT),这些数据包含了相关的知识和对应的文献来源。
1、提高自动化问答系统的准确性:
SDAAP数据集结合LLM和检索增强生成(RAG)技术,提高了自动化问答系统在光谱检测领域的准确性和专业性。
- 知识可追溯性:
在科学研究中,能够追溯知识来源是非常重要的。SDAAP数据集通过提供详细的文献标注和知识指导数据,确保了生成回答的知识可追溯性。
- 跨学科研究的挑战:
光谱分析技术在多个学科领域都有应用,但跨学科研究往往面临信息整合和知识共享的难题。SDAAP数据集涵盖了多个领域的文献,支持跨学科研究的开展。
三、数据集的应用:
场景:7月的某个周末,阳光透过绿叶洒到地上。店里摆满了五颜六色的水果,尤其是凤梨,它们散发着诱人的香气。我这个吃货,走进店里,挑选了一颗看起来个头大又新鲜的凤梨。请老板帮忙打开,发现里面竟然坏了。这种情况连续发生了四次,我和水果店老板真的都感到特别的尴尬。
方案:如果这家水果店采用了光谱检测技术。 如果在整个供应链都是用了光谱检测技术。
1、采摘阶段:
- 果农以前可能要根据经验,判断是否成熟。现在可以通过光谱检测系统判断凤梨的成熟度。
2、运输和存储:
- 凤梨被放置在特制的储存箱中,箱子内置光谱检测装置,实时监测凤梨的成熟状态,确保它们在到达目的地时仍然新鲜。
3、水果店
- 水果店老板在收到凤梨后,再次使用光谱检测技术确认它们的成熟度。当顾客购买时,老板可以自信地推荐每一颗凤梨,因为它们都已经过光谱技术的“认证”
4、消费者体验:
- 我再次走进水果店,挑选了一颗凤梨。这次,老板用光谱检测器在凤梨上一扫,然后微笑着告诉我:“这颗凤梨成熟得刚刚好,保证甜! 会不会和老板 一起哈哈大笑呢。
整个供应链,由于有了光谱检测技术,果农和分销商可以更准确的预测产量和市场需求,加少浪费,提高效率。
其他水果的应用:
榴莲、苹果、橙子、牛油果、奇异果……几乎所有的水果都可以通过光谱检测技术来判断成熟度。比如,榴莲在特定波长下的光谱吸收或反射特性会随着成熟度的不同而变化,近红外光谱技术特别适用于分析榴莲内部的水分和糖分含量。 苹果的甜度可以通过它吸收特定波长的光来预测,也能通过光谱告诉我们它是否已经准备好被吃掉了。