序:本文是笔者和受访者一次周末闲谈的纪实。笔者和故事主角曾共事3年,共事期间,发现故事主角做事总是充满着激情,做事效率极高,健谈。本文记录了一个冬日的下午,俩人在北京星巴克咖啡屋聊天的话题,其中Q为笔者的提问,A为故事主角的回答,笔者整理成文,分享社区已经得到故事主人的同意。
郑志军,NLP领域硕士,2018年研究生毕业后入职某国企,在人工智能研究院担任算法工程师,5年期间从职场小白蜕变成部门挑大梁者,成为团队的核心技术人员,曾担任过部门AIGC组长,为公司技术委员会成员,近两年一直从事大模型的研发。
偶然机遇进入互联网领域
Q: 志军,谈一谈你是怎么进入这个行业的?
A: 进入NLP行业纯粹是上天的安排,命运之使然。我没想过读研的时候要选择什么专业,当时报考自然语言处理专业纯粹是被调剂到这个专业,但是我很感谢上天的选择,它赏给我一份不错的职业。
Q: 作为一个过来人,研究生专业的选择有什么建议的吗?
A: 我觉得读研遇到一个好的导师是非常重要的,当然,我遇到的导师就非常的好:导师给我们的印象就像自己的长辈一般,不仅仅在学术上给于我们指导,在人生上也给了我们充分的引导。我的导师带我参加了很多学术会议,让我们小白见识真正学术会议是什么样的;他同时也会陪着我们在操场散步,给予我们人生的经验。整个师门在这样愉快的环境下学习成长,一起上学,一起吃饭,一起下课,一起撸串,至今回忆起来都觉得幸福满满。
Q: 谈一谈读研期间,感觉最有用或者学的最好的3门课。
A: 研究生最有用的三门,第一是Python教学,现在python是我唯一会使用的语言了;第二门是深度学习导论课程,没有太高深的理论,但确是我们踏上NLP的铺路石;第三门是传统机器学习的课程,老师现场给我们推导各种公式,虽然现在很多机器学习公式推导过程还是没学会,但很敬佩老师强悍的数学推理能力。
Q: 聊一聊机器学习、深度学习的路径,以及Python语言学习的心路历程。
A: 本科的时候开始学了C和C++,这俩门语言用的也不是很好,但有了之前的编程基础,再学Python的时候就容易多了。Python要比其他语言更容易懂,Python语言在语法和规范更加简洁,更接近于人类语言,尤其是英语,不像C语言那么抽象。
至于机器学习以及深度学习心得,第一是要多看论文,第二是多模仿别人在GitHub上的高star项目,站在巨人的肩膀上永远比自己单打独斗高效得多。我曾经有个错误的认知:觉得“真男人”都是自力更生的,依靠别人算不上好汉。于是呼,我曾经闭关锁国,想着要不借助别人整出一套使用CNN训练的模型;最后搞出的东西落后别人一个时代,还白白浪费了时间。
Q: 机器学习对数学有什么要求吗?
A: 学机器学习对数学没有硬性要求,但是数学思维好的人学算法有很大优势。这本书的领一个作者以及读研时的一些师哥,他们都是数学出生,明显感觉他们的逻辑思维能力很强。好多理论到尽头都是数学,真正懂数学思维的人能对各种公式信手拈来,而不像其他人机械的记忆公式。
5年成为团队核心
Q: 工作5年印象最深或者成就感最高的项目或者产品是什么?
A: 工作5年印象最深,最具成就感的应该就是致知大模型了。毕竟之前没有做过这些东西,也没有人指引,全靠自己摸索;再者,格物大模型的研发不像我们平时做的小项目,时间跨度比较久,需要投入精力多。在研发过程中,我逐渐培养出了自己的世界观和方法论;它教会我如何解剖问题,如何做好一件无头绪的难事。
Q: 什么时候感觉自己技术突飞猛进或者开始能独当一面了?
A: 技术不会一跃而起,技术都是慢慢成长,成熟起来的。至于突然感觉自己能独挡一面,那应该是3年前的某上海项目;当领导把任务交给你负责时,你没有了依赖,只能试着独当一面;领导在身边的时候,不明白还可以问领导一声,天塌下来有高个子顶着,那时候不行,你在现场是这个项目的责任人。
Q: 从普通员工到担任组长过程中的心态变化
A: 自己一个人干活远没有当组长候累,自己做事只需要把自己的一亩三分地耕完就行,甚至还能划水;但是担任组长之后就不一样了,一旦我懈怠了,可能整个组都要落后,不但要每天push自己,还得push组员;总的来说就是岗位不同了,责任也不同了。
Q: 那个ChatGPT火了之后,当时是个自是什么想法?
A: ChatGPT出来的时候,我是没有跟上大众的,我第一反应是这是不是也是一个噱头。但在2023年春节之后,我们正式自己做自己的_致知2.0对话大模型_,尤其是在对训练好的大模型进行测试过程中,我才感觉到大模型远比自己想象中的要牛逼,尽管它也有很多的这个缺点,但是它的这个优点也真的是太多了,真的是瑕不掩瑜。
Q: 当时你们发布的致知大模型1.0的时候刷新了CLUE两项任务榜单,方便聊一聊当时的心情吗?
A: 刷这个榜单给我最大的感觉并不是在这CLUE榜单上拿到多少的名次,真正让我觉得非常自豪的就是跟其他同一模型相比,在同样参数情况下,我们确实是比其他的模型都要好,在这个时候哪怕就是高0.1个点,你都觉得很自豪。
闲聊ChatGPT
Q: 给工程人员或者小白科普一下什么是大模型,以及大模型目前的发展状态。
A: 在我看来参数至少得达到几十亿(比如:最少60、70亿),同时具有生成式能力,我认为这就是大模型。
大模型的发展之路,我觉得有几条线能走:
一条线是从单模态向多模态发展,而且愈演愈烈的趋势。2023年大家都在卷单模态,到现在也没办法再卷了,而且也不好再卷了;2024年多模态出来的反而会越来越多,在多模特上面,一方面是它有好多点要去攻克,另外一方面你发现有很多点能被攻克,那就很吸引大家了呀,所以大家就都往那个方向上发展。
另一条线是卷应用。现在的应用是铺天盖地的使用大模型,我个人十分看好大模型的应用,我相信之后的需求也会越来越多。好多人说现在是互联网的寒冬,这点我倒不认同;我觉得现在所谓的互联网寒冬,被开除的多半是前端或者是游戏等这些行业。你说人工智能会不景气,我不相信,我相信人工智能只会越来越景气。
Q: 以前你们做自然语言处理的时候,用到大模型了吗?比如说文本改写,文本生成之类的这些NLP任务,用到大模型没有?
A: 没有的,那个时候都不算是用大模型,那个时候自回归模型参数没有多大,也就才几个亿。当ChatGPT出来之后,才彻底奠定了这条路线。
Q: 自己训练一个大模型肯定是非常昂贵的,尤其GPU资源昂贵,大部分中小厂都是通过微调或或说量化压缩。那可以谈一谈你们在部署当中的一些经验,或者微调之类的,给大家分享一些微调和部署的一些经验之谈。
A: 我觉得其实对于很多公司来说,站在巨人的肩膀上真的是一个很不错的选择。你想想科技巨头做大模型的时候花了多大的这个精力。光是数据量就是几十T,而且这还是最原始的状态,如何筛选,如何配比都是核心机密;即使你这些问题解决完了,还得有海量的服务器来供你训练,所以我觉得中小公司不如站在巨人的肩膀上。
从某种程度程度来说,尽管现在大模型性能已经很好了,但是距离实际应用场景,其实还是有一段的差距;当然我上面说的这个话,仅限于非ChatGPT、ChatGPT-4之类;也就说,除了Open AI之外,其他的大模型,离实际应用其实还是有一些差距的。所以还是要微调,但这反而又陷入到第三代范式的那种感觉,但是其效果不是第三代范式可比的。
Q: 如果是公司微调的话,GPU和服务器资源昂贵吗?
A: 不昂贵,如果仅仅是130亿参数的大模型的话,需要的GPU资源真的不多,中小型公司足够承担得起。
Q: 大厂做大模型有什么优势?
A: 首先是大厂有钱,有钱随便训,其次服务器资源充足,三是业务场景支持,所以大厂天生优势明显。但是并不能通吃天下,尤其针对业务、数据敏感的ToB领域,小厂还是有很大的生成空间的。
写书需要自制力
Q: 本书是什么时候开始着手写的呢?写作过程中遇到什么困难?
A: 六月份开始写的,遇到最大困难就是要求你系统性的掌握一片知识,所以你就得不断的看,不断地总结,然后才能下笔写书。
Q: 写书,有没有一个给自己的一个时间限定,或者是一个硬性安排,比如说我周几到周几就必须写多少章节,我写多少字
A: 好多时候计划赶不上变化,我曾经给自己立个规定每天规定写多少时间,但大多时候写不出来,是真的写不出来。deadline是个好东西,它会逼着你写,不写出来都不行;有的时候没有人逼你一把,你都不知道自己的潜力到底有多大。
Q: 有些从其他行业想卷AIGC的,或者还在学校的在校生,将来他们想跨到AIGC大模型行业来,有什么建议吗?
A: 我觉得这行既好入门也不好入门,目前来看,AIGC我觉得已经开始有点卷起来了,我建议可以多往多模态那边走一些,因为我觉得多模态之后可能会更火。另外文本文本大模型做的人也不少了,也可以考虑代码生成的这条路。
AIGC是潮流和趋势,不管你喜欢不喜欢,社会都会朝这个方向发展;所以我觉得早入局铁定比晚入局要好,早点接受、早点拥抱大模型,才能让我们在未来生活中更加从容。
Q: 还有一些额外的建议吗?
A: 我建议大家都动起来,可以去做实习。空想没有多大的用处,我真心建议大家走出去,看看外面对大模型的真实需求是什么!
同行寄语
大多时候,我也不清楚自己想做什么;但是能行动的时候千万别躺着,因为躺着想这些东西,你永远想不出来这一行到底适不适合你,只有你出去做的时候你才知道对与不对;即使发现不对了,你也别觉得浪费时间,因为你躺着不动也是在浪费时间,我所以觉得要做个行动派。其次,觉得得什么时候别忘了勤劳刻苦,勤劳刻苦不能保证成功,但是他至少能让你不被饿死,我始终相信一个勤劳的人到哪儿,在哪一个行业都不会混的太差的。