字节大模型关键8人首次曝光！中科大北航清华校友，还透露下一步2024-05-22 14:55:31 来源：量子位字节大

2024-05-22 14:55:31 来源：量子位

一水白交发自凹非寺

量子位 | 公众号 QbitAI

字节大模型团队，终于曝光！

这不是，字节刚刚启动大模型校招计划，招揽人才嘛——

计划取名 Top Seed，薪资 TOP 级别、算力数据管够，但仅面向应届博士生；前沿课题覆盖大模型、图像 & 视频生成、机器学习算法和系统以及音频生成和理解等方向。

另外还有一帮顶尖的技术导师团带队…… 等等，这不就是字节豆包大模型的背后团队吗？

来自中科大、北航、西安交大等高校校友领衔的 “关键 8 人”，这就公开亮相了！该说不说，字节抢人的决心看出来了。

我们也浅浅扒拉了一下。

冯佳时：豆包大模型视觉基础研究团队负责人，中科大校友，博士毕业于新国立；
项亮：豆包大模型 Foundation 团队负责人，本科毕业于中科大，后保送至中科院自动化所；
王明轩：豆包大语言模型研究团队负责人，北航校友，博士毕业于中科院计算所；
田值：豆包大模型视觉生成模型技术专家，在川大本科期间就以一作发布顶会论文，阿德莱德大学获博士学位；
王雨轩：豆包大模型语音部门负责人，本科毕业于北航，后攻读北京大学研究生，博士毕业于俄亥俄州立大学；
严林：豆包大语言模型对齐团队负责人，研究生毕业于中科院计算所；
陈卓：豆包大模型音频生成研究团队负责人，西安交大校友，硕博毕业于哥伦比亚大学；
李成刚：豆包大语言模型预训练方向负责人，清华机械工程本硕学位；

冯佳时，2019 年加入字节，专注于计算机视觉、机器学习领域的相关研究及其在多媒体中的应用。

△图源：字节跳动官方

2023 年 12 月，新加坡国立大学的 Show Lab 联合字节跳动发布了一款视频模型 MagicAnimate，就是那个仅需 1 张图就能让人物跳舞的模型。

这个一经发布便火爆开源社区的项目，字节跳动有 5 名研究人员参与，其中就有冯佳时。

他于 2007 年本科毕业于中国科学技术大学，硕士毕业于中国科学院自动化研究所，博士毕业于新加坡国立大学。

而且他曾任新加坡国立大学电子与计算机工程系助理教授，是机器学习与视觉实验室负责人。

此外，他发表了 400 多篇关于深度学习、物体识别、生成模型、机器学习理论方面的论文。曾获得 ACM MM 2012 最佳技术演示奖、TASK-CV ICCV 2015 最佳论文奖、ACM MM 2018 最佳学生论文奖。

他还曾担任 CVPR、 NeurIPS、ICML、ICLR 的领域主席以及 ICMR 2017 的程序主席。

在加入字节后，他负责着智能内容创作部门基础研究团队。

项亮，2016 年加入字节，其所在的 AML 团队，为火山引擎的智能推荐技术服务提供了全力支持。

他于 2006 年毕业于中国科学技术大学电子工程与信息科学系，并荣获该校本科生最高荣誉奖——郭沫若奖学金。

随后保送至中国科学院自动化所，并在杨青研究员的指导下攻读工学博士学位。

2009 年，他在读博期间参与了网飞发起的百万美金挑战赛，研究电影推荐系统算法。

参赛者包括来自 186 个国家的计算机科学家、专家、学者等组成的数万支队伍。

而项亮所在的团队（The Ensemble）在公开测试排名中名列第一，并最终获得团体第二名。（比赛的最终结果由公开测试和隐藏测试两部分组成）

同年，他还发起创建了 Resys China 推荐系统社区。

毕业后，他曾任职于 Hulu 和宜信公司，从事视频推荐系统的研究和开发工作。

他还曾任瓜子二手车首席科学家。

值得一提的是，他也是《推荐系统实践》一书的作者，该书广为人知，是推荐系统领域的入门书籍。

王明轩，关注模型的超级对齐、可解释性、合成数据等关键方向研究。

他本科毕业于北京航空航天大学，博士毕业于中国科学院计算技术研究所。

他在 2018 年加入腾讯担任高级研究员，并于 2019 年加入字节跳动。

在字节跳动，他担任机器翻译业务负责人和算法科学家，主导研发了火山翻译系统，服务全球过亿用户。

他还在机器翻译领域发表了超过 50 篇顶级会议论文，包括 ACL、EMNLP 等。

值得一提的是，他曾多次带领团队在 WMT 机器翻译评测中拿到冠军。

田值去年才加入字节。2016 年，四川大学的大四学生田值，以一作身份在顶会 ECCV 上发表了一篇文章。在那个时候，很少有本科生能够在这种级别的顶会上发表论文。

在中科院深圳先进技术研究院 (SIAT) 交流实习两年后，田值进入澳大利亚阿德莱德大学攻读博士学位，**师从沈春华教授。**他的主要研究方向是实例识别，包括目标检测和实例分割。

2019-2020 这两年，田值在上述三大顶会上发表十多篇论文，其中 5 篇为一作。其中一些文章已经成为业内流行的算法，比如目标检测算法 FCOS 和文字检测算法 CTPN。

王雨轩，2018 年从 Google 加入字节跳动。

△图源：字节跳动官方

他本科毕业于北京航空航天大学，后攻读北京大学研究生，并拥有美国俄亥俄州立大学博士学位。

在谷歌工作期间，他曾和其他人提出了一种新的端到端语音合成系统 Tacotron。

该模型可接收字符的输入，输出相应的原始频谱图，然后将其提供给 Griffin-Lim 重建算法直接生成语音。

在相关论文中，他们阐述了该系统相较于 DeepMind 的 WaveNet 在架构方面的优势。

而且通过公开资料，字节在去年申请的一项专利中也有他的身影。

该专利主要涉及一种声源分离方法、神经网络的模型训练方法、声源分离装置、神经网络的模型训练装置和存储介质。

陈卓 2010 年本科毕业于西安交大电子工程专业，随后前往哥伦比亚大学攻读硕士和博士学位。

博士期间，他就对机器学习算法及其语音增强和分离、自然语音识别等应用感兴趣。谷歌学术被引数 9000+，曾发表 100 多篇研究论文和专利。

在去年加入字节之前，曾在微软工作了 6 年 7 个月。2022 年，在由中国计算机学会等主办的语音技术研讨会上，陈卓发表了《实时多人语音会话的语音识别》的公开演讲。

在这次大会上，他介绍了利用大规模自监督学习和端到端系统来解决实时多人会话识别问题的进展。

严林，硕士毕业于中科院计算所。他所在团队关注指令微调、奖励模型、RLHF、RLAIF、自学习模型等关键方向研究。

同时，在大模型泛化、可解释性和真实性等关键方向做前沿研究。

此前豆包曝光其背后公司的法定代表人也是严林，当时就职于字节跳动搜索团队。

去年 2 月 36 氪曾透露，字节从语言和图像两方面发力大模型布局，语言大模型团队由字节跳动搜索部门牵头，图片大模型团队由产品研发与工程架构部下属的智能创作团队牵头。

李成刚，清华大学机械工程本硕学位。

他先后担任今日头条网页搜索和 TikTok 视频搜索技术负责人，从 0 到 1 研发出了字节跳动的搜索系统，在 ranking 架构和算法、多语言和多模态相关性领域有较大的创新和突破，在中文搜索体验上做到了领先水平。

目前担任字节跳动头条大语言模型预训练方向负责人，研究领域包括数据的清洗、合成、配比，关联学习与课程学习，训练算法与 scaling capability 等。

而这些关键团队成员曝光，核心目的只有三件事：

招人，招人，还是招人。

字节正式开通了面向应届毕业生的招聘通道：

取名 Top Seed，面向今年 8 月到明年 8 月毕业的博士生。

要求主要两个方面。

一是态度上要热爱与积极：怀有科技改变世界的远大抱负、敢于创新；有志于投身机器学习、人工智能、大模型、计算机视觉、音视频生成等技术领域；

二要相关领域表现出色，比如学术研究、工程实践、开源社区等。

而一旦成功入围 Top Seed 计划，除了有以上的导师团队，前沿课题主要覆盖这些：

大模型：探索大模型训练方法；

图像 & 视频的理解和生成：视频生成模型、世界模型的构建和能力提升；

机器学习算法和系统：大规模分布式训练系统的性能优化；

音频生成和理解：探索统一的音频生成基座大模型。

好了豆包接下来多模态方向、音频生成方向也没跑了。

而且特别强调：他们算力数据十分充足，薪资和回报 TOP 级别。

办公地点除了北上杭深外，还有新加坡、圣何塞等地方。

字节这一波吸引人才，十分到位了。