生成式AI大爆发
参考资料:《生成式AI商业落地白皮书》、《中国AGI市场发展研究报告》
2023 年,全球企业和研发人员对 AI 项目的关注及投入骤然提速,生成式 AI 应用的兴起,恰是推动这一趋势的关键因素之一。据 GitHub 数据显示,AI 项目数量自 2020 年的不足 70 万,一路攀升至 2023 年的 181 万。然而,尤为引人瞩目的当属 2023 年的 AI 项目星标数量,竟高达 1221 万,是前一年的整整 3 倍。生成式 AI 应用的大规模普及,极大程度地增进了全球对 AI 项目的关注与投资,正在风驰电掣般推动技术创新与行业变革。
在接受访问的 590 名企业中高层当中,已有 21.0% 的人士已然开启小范围试点应用,26.3% 的人士正在大范围推广生成式 AI 应用,甚至有 6.4% 的人士已把生成式 AI 应用整合至整体战略转型阶段。这些确切的数据清晰地表明,生成式 AI 应用已然引发了大多数企业中高层的普遍关注。
对于尚未着手普及生成式 AI 的企业来讲,倘若不能迅速采取行动跟进,或许就会面临在技术创新以及市场竞争当中处于落后境地的风险。比如一些小型创业公司,由于未能及时跟上这一技术潮流,在市场份额的争夺中逐渐处于劣势。
根据调查数据表明,当下有 53% 的企业已然开始有组织地开展生成式 AI 的相关工作。在这些企业当中,15% 的企业虽说拥有专业团队从事生成式 AI 工作,不过仍处于研究阶段;19% 的企业则开展了生成式 AI 的培训或者分享活动;9% 的企业不但成立了专门的团队负责生成式 AI 的落地事宜,而且配备了相应的支出预算;11% 的企业已经在生成式 AI 的应用方面获取了一定的成果。
显而易见,超过半数的企业已经充分认识到生成式 AI 的重要性,并且开始在这个方面投入相应的资源和精力。
在生成式AI的应用场景中,CIO/CDO 们投票选出前 10 最有价值的场景,这些场景覆盖了企业运营的多个关键 领域,并显示出生成式 AI 在提升效率和创造价值方面的 巨大潜力。
InfoQ研究中心预计,2030年年中国AGI应用市场规模将达到4543.6亿元人民币
2024-2027中国AGI应用市场将经历过速启动期;每年年市场增速都将超过100%,2028年年起,市场将进入快速成长期,年年市场增速 保持在50%以上。并于2027年年突破千亿人民币市场规模。
InfoQ研究中心认为,中国AGI应用市场规模发展将由企业市场引领主导,到2030年年企业市场规模预计达到3024.6亿元人民币。
百模大战
中国大模型列表 Awesome LLMs In China
数据来源:wgwang/awesome-LLMs-In-China: 中国大模型 (github.com)
中国大模型数据统计分析
有了这一部分数据之后,我们希望对现有的数据统计分析,例如:统计一下哪个类别的最多,哪个地区开发的大模型最多,以此来了解大模型在国内的基本发展情况。
最为简单的方式时编写python脚本统计数据并生成柱状图或其他可用于分析的图片,然而现在基于大模型,编写python代码的过程完全可以交由AI实现。
让AI编写Python脚本,运行脚本获得数据统计结果
通过与AI对话,让AI生成python脚本,要求对Excel中的类别和省市进行统计,并绘制柱状图,以此来观察中国大模型不同地区、不同类别下的发展情况。
如果我们想要获取统计数据,但是python脚本也不想写,那么此时直接让AI进行数据统计和绘制图形也是可以的。
PS:目前为止,ChatGPT 可以进行数据统计并生成柱状图,但是对于免费用户,每天可用的token十分有限,基本上问一两个问题就没有了;在国内市场,只有少数的大模型可以上传Excel并分析统计数据,但是他们普遍的不支持生成图形。
数据统计完成之后,甚至可以让AI基于统计结果,再让他结合他对于市场的了解,形成有效的分析结论。
如果你是第一次拿到这部分数据,并不清楚要从哪些维度进行统计分析的话,甚至可以直接让AI为你提供分析的角度和建议。
使用AI进行分析统计
让AI进行基于分析结果形成总结分析
1、通用类别的普及性:通用类别的大模型出现次数最多,这表明市场上对于能够处理多种任务和场景的AI模型有着广泛的需求,它们在多个行业中都具有应用潜力。
2、行业特定需求:工业、金融、医疗和科研等领域的大模型出现次数也相对较多,这反映出这些行业对于AI技术的需求较为明确和专业,需要专门的模型来解决行业特有的问题。
3、新兴领域的崛起:代码、法律、教育等类别的出现,显示了AI技术正在向更加细分和专业化的领域扩展,这些领域对AI技术的应用可能还在探索阶段,但已经显示出增长的趋势。
4、地域分布特征:许多大模型来自北京、上海、广东等地区,这些地方往往是科技和经济发展较为成熟的地区,有更多的资源和需求来推动AI技术的发展。
5、开源与合作趋势:很多大模型都提到了开源或与高校、研究院等机构的合作,这表明开放的创新模式和产学研合作对于推动AI技术发展具有重要作用。
6、市场细分化:从统计中可以看出,除了通用模型外,市场正在向更加细分的方向发展,如客服、营销、农业等,这可能意味着市场对于定制化解决方案的需求日益增长。
让AI进行进行发散思考
如何选出好用的大模型
C-Eval
官网:
C-Eval是一个针对基础模型的综合中文评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同学科和四个难度级别。 号称是:史上最难中文大模型考试。
但是各家大模型在C-Eval进行模型训练时,就非常容易涉及到机器学习灰色地带,即面向测试集训练。一般而言,用于训练大模型的数据一般分为三种:训练集、验证集、测试集。
训练集:用来训练模型的原始数据,因为模型就是拿这些训练集的数据进行训练的,当我们用训练集的数据去询问大模型时,模型在这些数据上表现的很好,所以训练集无法作为评判模型好坏的标准。
验证集:即用来进行模型验证的数据集,其主要是用来初步验证模型的好坏,验证集中的数据全部是模型没有见到过的数据,所以我们可以根据模型在验证集上的回答结果来初步判断模型训练的好坏。
测试集:如果模型在验证集上得到了较好的结果,那么我们可以初步判断模型可能会具有较好的性能,那么我们对大模型进行最终的验证测试,测试集只使用一次,即在训练完成后评价最终的模型时使用。
举个例子:一个学生平常做了大量的模拟试卷来进行训练(训练集),平时会经历各种联考(验证集),然而只有最终的高考(测试集)才能决定当前考生的实力。
面向测试集训练:在训练过程中使用测试集,而后再用相同的测试集去测试模型。那么模型在测试时准确率很高,就像是一个学生知道了高考的答案再去参加高考一样,分数肯定会很高,但是这是一种作弊的行为。
在C-Eval这个平台中,就存在这种情况,各个厂家为了让自家的大模型在C-Eval上的排名高一点,就直接使用上面的数据来训练模型,此时,C-Eval对于各个模型的真实实力,已经给不出准确的参考价值了。
ChatbotArena
在chatbot Arena平台中,采用成对比较机制,用户只需比较两个模型响应并投票选出更好的一个,而不需要用户提供绝对分数。在每场战斗中,都会抽样两个匿名模型。为了鼓励数据多样性,不在网站上预设任何输入提示。用户可以自由地向两个模型输入任何提示。在模型提供答案后,用户将它们并排比较并投票选出首选答案。如果用户在第一轮无法选择,用户可以继续聊天,直到确定获胜者。对于那些不确定的人,还提供了两个按钮,“平局”或“都不好”。
缺点:
分类不够细致,只有一个综合分数,无法获得某个领域下最为强大的大模型
不够本土化,大部分的模型的测评结果是基于英文的,甚至部分模型都不支持中文
林哥的大模型野榜
B站UP主 @林亦lyi 自己制作的模型排行榜单,核心思想和ChatbotArena一样,也是基于匹配、打分的机制来区分哪个模型更为优秀。同时他将评测维度划分为 文本生成、文档检索、联网搜索、知识推理、角色扮演、思维启发 六个领域,供各个领域、有各类需求的人进行挑选。
同时他建立了防作弊机制,防止各个公司对自家大模型进行刷分,主要的防作弊策略有:
1、建立屏蔽词库,像是:是xx模型、由xx开发、公司创始人是xx、有xx特殊功能等,防止刷分
2、降低简单问题重复性高问题的权重,简单的问题都能答对,体现不出大模型的真正实力
玩转开源大模型
HuggingFace
说明:各个领域、各家公司的开源大模型,供君挑选
在本地运行开源大模型
在这里只简单介绍一些在本地可以运行大模型的方式,具体的安装方法,大家可以去B站、油管、百度、Google寻找对应的教程。
Ollama
官网:ollama.com/
Github:github.com/ollama/olla…
说明:Get up and running with large language models.
LmStudio
官网:lmstudio.ai/
Github:github.com/lmstudio-ai
说明:Discover, download, and run local LLMs
StableDiffusion
来源:www.bilibili.com/video/BV1iM… (B站UP主 @秋葉aaaki)
基于大模型搭建本地知识库
Ollama+AnythingLLM
参考:【LLM大模型】基于 AnythingLLM 及 Ollama 构建本地知识库_