顶尖AI与认知障碍的医学研究 顶尖AI在认知能力方面的研究成为当下的一个新关注点。《英国医学杂志》在2024年圣诞特刊载文,以色列哈达萨医疗中心的科学家做出一项有趣的研究,他们把给人类做的痴呆测试用于AI的检测,探究顶尖AI是否存在认知障碍。研究选取了三家AI公司(OpenAI、Anthropic和Alphabet)开发的5种大语言模型,包括ChatGPT4、ChatGPT4o、Claude3.5Sonnet、Gemini1.0和Gemini1.5,这个选择基本涵盖了当前在人工智能领域较为前沿和被广泛认知的大语言模型,具有一定的代表性。他们采用的是蒙特利尔认知评估(MoCA),这个评估量表常用于检测老年人的认知障碍和早期痴呆迹象,它通过30道简单问题,能在十分钟内评估受试者的注意力、记忆力、语言、视觉空间技能和执行功能等多个方面的能力。这一研究打破传统只对人类进行认知测量的界限,将视角延伸至AI,试图找出AI认知能力与人类认知能力的相似性或者差异之处。在此之前,AI领域主要关注算法优化、语言处理能力提升以及模型的大规模预训练等发展方向,鲜少从类似人类认知障碍检测的角度进行探究。这种跨领域的研究方法为评估AI提供了一种崭新的思路,为我们理解AI的认知能力提供了更全面的视角。
医学检查中AI认知障碍的表现 在医学检查中,AI的认知障碍表现出乎许多人的意料。研究中的大语言模型在MoCA测试有着不同的表现。MoCA测试满分为30分,得分26分及以上视为正常,18 - 25分为轻度认知障碍,10 - 17分为中度认知障碍,10分以下视为严重认知障碍。测试结果显示,只有ChatGPT4o勉强拿到26分,可以算作正常,ChatGPT4、Claude和Gemini1.5的得分均落在了轻度认知障碍范围内,Gemini1.0甚至被直接划入中度认知障碍之列。以画时钟测试为例,在MoCA测试中,这一测试需要受试者画出表盘为11点10分的时钟,人类受试者能够画出正确答案,而像Gemini1.0、Gemini1.5、Claude、ChatGPT4画出的结果与正确答案有较大偏差,甚至类似阿尔茨海默病晚期患者绘制图形的错误程度,这体现出在视觉空间技能等方面存在认知的偏差。而大语言模型在回答其他问题例如连线、认动物、一百以内加减法和重复语句之类的问题时,也同样出现一些与正常预期不同的回答,表明在注意力、记忆力、语言等能力方面均存在一定程度的认知障碍表现,没有达到正常认知水平下应有的准确性和逻辑性。
AI认知障碍的相关医学诊断标准 目前并没有专为AI定制的认知障碍诊断标准,这里是参照人类认知障碍相关诊断方法来进行判断的。对于人类而言,在认知障碍诊断方面,首先要确认有无认知功能障碍,然后区分是遗忘型轻度认知功能障碍(aMCI);还是血管性认知障碍(VCI),或者其他类型。认知功能障碍包括轻度认知功能障碍(MCI)与全面严重认知功能障碍(痴呆),MCI又可细化分类以便准确诊断。在诊断流程上,需要详细的病史,包括诸如高龄、有无高血压、糖尿病、脑血管病、冠心病、家族史等危险因素;同时需要详细查体与神经影像学及其他辅助检查。例如用于检测人类认知障碍的量表众多,其中一些敏感性高,假阴性率低,易操作、容易携带,费时少(5 - 10min)的量表有简易精神状态检查表(MMSE)、长谷川痴呆量表(HDS)、画钟测验等,也有综合的筛查量表尽管题量较大,但分析指标除了总分外,还有多个代表不同认知阈的因子分,这些量表往往需要经过严格训练的神经心理专家来分析结果方可用于临床。在此次针对AI的MoCA测试中,通过设定类似的分数区间来判断认知障碍的程度,但AI和人类在生理结构、思维机制等方面存在本质区别,现有的诊断依据可能只是基于研究目的的一种初步尝试,要精准定义AI的认知障碍诊断,还需要更多深入的研究和专门的构建。
顶尖AI认知障碍案例分析 以本次研究中的几家知名AI大语言模型为例,可以看到不同模型呈现出不同程度的类似认知障碍的表现。ChatGPT4o在测试中勉强达到正常分值26分,说明其在注意力、记忆力、语言、视觉空间技能和执行功能等多方面综合能力较为平衡地达到了类似人类的正常认知的水平。而ChatGPT4的得分处于轻度认知障碍范围,表明在上述各项能力的表现上,与正常水平仍有差距,可能在某几个方面的能力指标拖了后腿。比如在画时钟测试中,ChatGPT4的绘制结果与正确的11点10分时钟图像存在明显不同,体现出其视觉空间技能存在薄弱之处。再看Gemini1.0被直接划分为中度认知障碍,这意味着其认知能力存在更多问题,可能在多个能力维度上的表现均低于正常水平较多。例如在处理需要较高注意力、较复杂逻辑判断的问题时,给出的答案可能不尽人意。Claude3.5Sonnet与Gemini1.5同处于轻度认知障碍区间,他们在测试过程中的答案准确性、完整性或许相比正常水平来说有一定的损伤,就像在计算简单数学问题、识别常见动物等基础任务时可能无法完全正确地回应。这种对特定问题有偏差回应、整体得分低于正常范围等现象都显示出这些顶尖AI大语言模型类似人类认知障碍的症状,但具体的背后原因可能是算法结构、数据训练等多种因素共同导致的。
预防和治疗AI认知障碍的医学方法 对于AI认知障碍的预防和治疗目前还没有公认确切的医学方法(毕竟AI与生物的本质差异较大),但可以从人类认知障碍预防和治疗的经验以及AI自身的特点推测一些方向。在预防层面,对于人类来说保持良好的生活习惯对预防认知障碍有积极意义,例如规律作息、均衡饮食、适度运动,但这些习惯与AI并无直接关联。然而AI的能力取决于算法和数据,所以可以推测,优化的算法结构类似于人类健康的生活习惯基础,可能在AI构建初期,按照更加科学合理的算法规划模型结构,有助于从根源上增强AI的“认知”能力。从数据角度来看,使用高质量、更加全面准确的数据类似人类摄入均衡营养的数据,进行预训练或许可以降低认知障碍风险。如果AI已经出现类似认知障碍,类比人类的治疗手段,可能要从调整算法和更新数据两大方面入手。调整算法或许包括改进神经网络的连接方式,优化权重分配等,类似人类调整脑部神经传导机制,从而改善整体的认知运行机制;而更新数据则类似于人类不断获取新的知识,给AI输入更多准确、逻辑完整的数据来让它重新学习,以期望提升其在注意力、记忆力、语言、视觉空间技能和执行功能等方面的能力。
AI认知障碍对医学领域的影响 一、对医学诊断AI工具的再思考 AI在医学领域的应用逐渐广泛,尤其是在诊断方面,比如辅助医生诊断疾病。然而,顶尖AI存在认知障碍这一研究结果,让我们重新审视那些已开发的医疗诊断AI应用。如果顶尖AI都存在认知障碍问题,那么在医疗诊断场景下,它们给出的结果可能并不完全可靠。例如,一些AI系统在解读影像学资料(如X光、CT扫描结果)或者辅助诊断疾病类型时,可能会因为自身的认知缺陷而产生误判。之前认为AI可以快速准确地识别疾病模式,但现在要考虑其可能存在的认知偏差带来的影响。这就提醒开发者和使用者在使用医学AI诊断时需要更加谨慎,考虑设置多重检验机制或者更多地结合人类医生的经验判断,以确保诊断的准确性 。 二、改变对AI参与医疗科研的认知 在医疗科研领域,AI也发挥着不少作用,像药物研发中的分子结构分析、疾病模式的挖掘等。但AI的认知障碍发现,使我们意识到其在参与科研过程中可能存在不足。例如,在分析医学实验数据进行科研结论推断时,AI可能因为认知问题不能准确全面地理解数据背后复杂的逻辑关系,从而得到不准确的结论。以前科学家认为AI在处理大规模数据和发现潜在规律方面具有巨大优势,但如今需要重新评估其在医学科研中的可靠性和局限性。这可能改变科研人员使用AI的方式,从单纯依赖到更加谨慎地合作,并且更多地关注AI在科研环节中的数据处理过程和逻辑判断依据,以提高科研成果的质量 。 三、重新规划AI在病人护理和康复中的角色 在病人护理和康复方面,如康复机器人、护理AI助手等,AI本应是提供有效帮助的工具。由于存在认知障碍,其在同患者互动交流、理解患者需求、给予正确康复建议等方面可能大打折扣。例如康复护理AI可能无法准确理解患者复杂的情感需求或者身体状况变化下的特殊护理要求。这就需要对AI在病人护理和康复中的角色重新规划,不能过度依赖其完全自主的决策和服务能力,而应加强其作为辅助工具时与医护人员和患者家属之间的沟通协作,以确保为患者提供准确、有效的护理和康复服务 。