前言
最近由于项目需要,参与了很多大模型应用的开发,做了很多AI大模型落地的需求。开发了很多需求之后,总是感觉最终效果不达预期,效果比较一般,所以写了本文和大家分享一下开发大模型应用时的一些感悟。
加之,前段时间了解到某些公司竟然用AI来替换一大批P7级别以下的员工工作,真的感觉匪夷所思。 其实在现在,无论是AI产品建设还是LLM解决问题的能力都还很不完善,还有很长的路需要走。
具体来说,目前LLM落地和发展还有很多可以提升的地方主要集中在以下几个方面。(以下内容纯属一家之言,如有错误,可以在评论区友好交流)
1、令人头大的Prompt
笔者目前电脑PC端使用的大模型客户端是“豆包”,作为程序员我觉得“豆包”可以算作是一款大模型落地应用做的比较不错的产品。于是我把这款产品推荐给我做财务的同事,同事给我反馈的答案居然是使用比较麻烦,想要使用它做一些比较复杂的事情需要很长时间来描述背景和需求。
这就是提示词能够在大模型领域发展成一门科学的原因,很多时候我们与人交谈是不能很好的说明自己的需求的,如果每个客户的需求都能被很好的阐述,那么产品经理这个岗位存在的意义就小了很多。就拿财务同学需要将多张数据表格合并到一张数据表的场景,目前让人工智能去做,至少要花半小时来告诉他怎么去做合并,可是实际如果人工解决可能15分钟就能完成数据合并。
所以目前的人工智能还是适合那种处理模式不是很复杂,灵活性不是太高的工作,比如说编程助手,划线一段代码就可以开问,无需仔细去考虑提示词的问题;
所以LLM如果想进一步发展,就需要进一步降低提示词的复杂度,通过预设提示词、RAG等方式,尽量降低用户的输入,尽量的更多的自动化。
对于我们做大模型应用开发产品设计时也是如此,“simple is best ” 我们在做大模型应用落地的时候也要考虑用户的使用情况,不要让用户输入大量的提示词,将提示词改为指令或者按钮才是比较合适的做法。
2、大模型的响应时间
从向LLM提出问题到LLM给出答案的响应时间来看,在实时性较高的场景下,这种响应时间都是不可接受的。考虑一种场景,假如目前的车牌识别系统交给大模型,以目前的大模型的能力识别车牌上的数字应该完全不成问题,但是实际上从上传图片到大模型完成识别整个链路需要花费的时间可能都会超过5秒,这样慢的速度显然不能用于实际应用场景。
所以目前笔者开发的大模型应用在数据处理层面更多的还是用在“定时任务”的场景,在定时任务中不会对响应时间有很高的要求。所以目前大模型在实时性要求较高的系统里面还是无法立马的去解决复杂问题。
正是因为大模型在实时性要求较高的场景下不能很快的给出结果,所以限制了大模型在自动驾驶领域的使用,以主动刹车场景为例,还是需要可靠的算法和极强算力的芯片而不是靠大模型,也就是说用大模型当“大脑”是可以的,但是这个“大脑”目前而言转的还是不够快。
所以加快响应时间可以考虑做定制场景的大模型,目前的通用LLM是解决不了这个问题的
3、大模型的回答质量有时不让人满意
以目前coze平台的很多智能体使用评价来看,目前大模型的答案生成在部分领域里面做的确实还是非常一般。
大模型应用目前使用最多的场景还是做智能客服,但是包括我在内很多时候,遇到人工智能客服的第一句话就是“转人工”,造成这种现象的原因,就是问题的复杂性和客户的表述根本让大模型无法匹配出相似或者直击要害的答案。所以智能客服还是无法很好的完成答疑工作。
此外在文生文,文生图方面很多生成的最终结果往往还需要我们人工再润色一遍,无法直接使用。
通用LLM在数学方面有时候的谜之操作导致的一些笑话更是多次上了热搜。
5、大模型目前还是无法成为我们个人的贾维斯
大模型目前还是无法像钢铁侠的贾维斯那样,可以解决我们的一切问题,例如大模型不知道我昨天写了多少文字,走了多少步,各家软件的数据不互通,大模型采集不了这部分数据,也就不能做客户的全部私人数据整合,所以大模型现在还是只能当个问答助手还远不能称之为“私人助手”。
然而采集大量的客户隐私数据又涉及到安全性合规等一系列问题。
总结
2014算是大模型最热门的一年,大模型确实是项很棒的技术,也确实解决了不少实际问题,但是同样的大模型不是万能的银弹,还有很多很多的问题无法解决,它也真的还没有达到很多自媒体说的那样几乎所有的事情都可以丢给AI去做的地步。