**2024中国计算机大会(CNCC 2024)**是一个宏观论述技术趋势的大会,具有规格高、规模大、内容丰富等特点,会议形式包括大会特邀报告、大会论坛、技术论坛、特色活动及展览。大会为期三天,汇聚图灵奖获得者、两院院士、国内外顶尖学者、知名企业家等亲临大会,展望前沿趋势,分享创新成果。ACM、IEEE CS、IPSJ、KIISE等国际计算机组织的代表也多次获邀现场参加这一盛会。大会主题为“发展新质生产力,计算引领未来”。
于2024年10月24-26日在横店成功举行,参会人数达1万+。
报告1:大模型时代如何构建大数据分析的新基建和新范式?
Data+AI驱动的云原生数据平台:机遇与挑战 大数据+大模型:数据智能的新路径 生成式SQL语句的优化方法与挑战
报告人
李飞飞,阿里云
高云君,浙江大学
王肇国,上海交通大学
报告2:大模型能否通往AGI
报告人
文继荣(主持) ,人大高瓴
马毅,UCB
唐杰,清华大学
王小川,百川
谢幸,微软亚研
报告3:教师在信息学奥赛选手成长中的作用
人工智能与信息学竞赛 信息学奥赛教练角色与作用的多阶性 信息学教练规划高水平选手的科研化发展 做信息学竞赛路上的破风者 立足于训练效率的全成长周期助力 从普惠到尖端:教练作用的阶段性划分 教练在选手全程成长中的多角色作用 。
蒋炎岩,南京大学副教授
叶金毅,中国人民大学附属中学信息学竞赛总教练
胡伟栋,北京师范大学附属实验中学信息学竞赛总教练
金靖 ,华东师范大学第二附属中学信息学竞赛总教练
李建 ,杭州第二中学信息学竞赛总教练
张超,南京外国语学校信息学竞赛主教练
肖然,北京大学附属中学信息学竞赛总教练
报告3: 大语言模型能否带来软件自动化的新机遇?
报告人
梅宏,中国科学院院士
大模型能否通往AGI
报告人: 文继荣(主持) ,马毅,唐杰,王小川,谢幸
报告人单位: 人大高瓴、UCB、清华、百川、微软亚研
报告人观点摘要:
1. 我们离AGI还有多远?现有路径能否通往AGI?
- 唐杰:
- 认为我们离AGI还很远,提出了五个层次的评估标准:语言理解、一般推理、工具使用、自我学习和对物理世界的终极描述。认为在这些方面,大模型目前的表现还远未达到AGI的标准,特别是在自我学习和对物理世界的描述方面。
- 自我学习:认为自我学习能力只有10多分(语言理解能做到90分),目前主要是一些自我反馈和自我增强,并未达到全境化的自我学习。
- 认为我们离AGI还很远,提出了五个层次的评估标准:语言理解、一般推理、工具使用、自我学习和对物理世界的终极描述。认为在这些方面,大模型目前的表现还远未达到AGI的标准,特别是在自我学习和对物理世界的描述方面。
- 王小川:
- 对AGI的实现持较为乐观的态度,认为语言是通向AGI的关键(语言比其他模态更关键),认为语言模型的突破将大幅推进AGI的发展。
- 提出“造医生”的概念,认为在3年内大模型可能实现全科医生的水平。
- 谢幸:
- 认为AGI的发展还很遥远,需要长时间的努力。
- 马毅:
- 认为我们对智能的理解还处在非常初期的阶段,离AGI还有很长的路要走。例如有的大模型在处理抽象概念和逻辑推理方面仍然存在显著不足。例如,模型在处理简单的数学运算和数的概念时,表现不稳定,甚至会出错
2. 通往AGI的关键挑战是什么?
- 唐杰:
- 认为最关键的挑战是脚踏实地地解决具体问题,而不是盲目自大地定义一些毫无意义的问题。
- 提到多模态模型在处理物理定律时的困难,强调需要静下心来逐步解决这些问题。
- 王小川:
- 认为幻觉问题和机器自洽性是当前的主要挑战。
- 谢幸:
- 强调跨学科的合作,特别是在AI的价值观对齐和社会影响方面。
- 提到需要重新定义很多习以为常的概念,如创造力、情感和心智理论。
- 马毅:
- 强调语言不是模态,而是我们对知识的一种编码,当前的大模型对语言的处理更多是统计意义上的记忆,而不是对知识的深刻理解。
- **智能系统的本质特征是能够自我学习和自我纠错,**认为现有路径还需要回到智能的基本原理,注重反馈控制和自我学习机制。
3. 中美在大模型研发上的差距有多大?
- 王小川:
- 认为中国在大模型技术上比美国落后,特别是在算力和开创性创新精神方面。
- 基座有差距,应用有机会领先:在医疗健康领域的应用可以帮助中国在大模型技术上取得突破。
个人观点
-
o1的路径是AGI的路径吗?
当前的infer scaling 是COT技术路线的自然演进,并不是一个新兴的探索路径。现存的大语言模型可以基于概率进行模式匹配来实现一些逻辑推理的效果,因此越长的推理路径,使得模型求解一个问题所进行的模式匹配(浮点计算)越多,对复杂推理问题的求解就越可靠。 因此推长推理路径来获得更复杂的推理思考,肯定能让模型解决更多复杂问题。 但是AGI所要求的不止有强大语言推理能力,还需要具身行动能力、自我学习能力甚至创造组织的能力。因此O1只能算是通往AGI的一小步尝试。
2. 通往AGI的关键挑战是什么?
1. 目前大模型在AGI的路上还只走了一小步,目前个人理解关键的挑战可能是如何可以让模型学会反馈控制和自我学习。如何能像人一样进行持续地,自我地学习,可能不是通过简单的指令微调或者强化学习去简单拟合基于上文分布的模式匹配。这需要对智能本身或者人类学习机制的基本原理有更多的思考和尝试。
视频录播:
大模型时代如何构建大数据分析的新基建和新范式?
在大模型时代,探讨大模型技术在大数据管理、数据库系统、图计算系统和网络等方向的最新进展和应用,如何构建可靠、可扩展的大数据基础设施,包括数据存储、处理和传输技术;分析大模型对大数据分析范式的变革;以及分享医疗、金融等行业中的成功应用案例及其带来的商业价值。论坛将提出的问题包括:大模型在数据分析中的优势与局限性,现有大数据基础设施面临的瓶颈和挑战,如何有效融合大模型和大数据技术以实现更高效的数据处理和分析,哪些行业和领域最能从大模型和大数据分析的新范式中受益,未来大数据分析的新基建需要哪些关键技术和创新。推荐此选题因为它代表技术前沿,应用广泛,并能为未来技术发展和产业升级提供明确的方向和策略。
Keynote1: Data+AI驱动的云原生数据平台:机遇与挑战
李飞飞ACM/CCF/IEEE Fellow(会士),阿里云资深副总裁,CCF大数据专家委员会、数据库专业委员会常委。获数据库与大数据系统方向多项国际顶级学术科研与技术会议最佳论文/成果奖(IEEE ICDE 2024 Industry and Application Best Paper Award, ACM SIGMOD 2024 Industry Track Best Paper Award, ACM SIGMOD 2023 Beset Paper Award, EDBT 2022 10 Years Test of Time Award, IEEE ICDCS 2020 Best Paper Award、ACM SoCC Best Paper Award Runner Up、ACM SIGMOD 2016 Best Paper Award, ACM SIGMOD 2015 Best System Demonstration Award, IEEE ICDE 2014 10 Years Most Influential Paper Award, IEEE ICDE 2004 Best Paper Award), 作为第一完成人获得世界互联网大会2019全球领先科技成果奖、浙江省科技进步一等奖、中国电子学会科技进步一等奖等。担任多个国际及国内一流学术期刊和学术会议的编委、主席。带领团队研发了以云原生数据库PolarDB为核心的阿里云瑶池数据库产品矩阵,实现了中国数据库市场份额第一,作为国内唯一数据库厂商连续4次进入Gartner全球Cloud DBMS市场分析报告领导者象限。
数据与算力驱动了人工智能的快速发展,云计算提供了海量易用的算力资源池,云原生数据平台因其弹性扩展、高可用、分布式等特性而推动了数据驱动的人工智能模型发展(如LLM大语言模型)。为满足弹性扩展、弹性计算、按需按量使用、AI推理、RAG构建等企业级应用需求,云计算平台与云原生数据平台需要探索新的体系架构,如通过分布式共享存储shared-storage来实现shared-everything的架构和存储计算分离,基于向量引擎和推理加速来支持Data+AI的推理应用以及RAG应用。同时,金融级高可用、异地多活、以及多源异构的多模数据管理等技术挑战也是云原生数据平台必须提供的关键能力。人工智能和数据平台在快速的向云原生化、平台化、一体化、智能化的四化方向演进。基于对以上技术挑战的不断探索和实践,我们自研了云原生数据库系统PolarDB,提供企业级云原生数据库能力。同时我们也自研了企业级云原生数据仓库AnalyticDB(ADB)以及云原生多模数据库Lindorm。基于算力平台和数据平台阿里云研发了大语言模型通义。经受了阿里巴巴双十一世界级的交易峰值挑战并在阿里云上取得了商业化成功。我们深度结合机器学习和安全加密等最新技术,提供下一代企业级应用的智能化、高效安全的一站式Data+AI云原生数据平台。
阐述了大模型时代对数据系统的要求。提出了向量融合查询,意在解决大模型时代需要的多模态数据检索能力问题。
Keynote2: 大数据+大模型:数据智能的新路径
高云君
浙江大学求是特聘教授,博士生导师,国家杰出青年科学基金获得者(2020)、国家优秀青年科学基金获得者(2015)。研究方向为数据库、大数据管理与分析、DB与AI融合,已发表CCF A类论文150余篇,出版专著4部,授权专利20余项,登记软著4项,并获ICDE等会议最佳/优秀论文6次,省部级或全国性学会科技进步特等/一等奖3项。现为ACM中国SIGSPATIAL分会副主席,全省大数据智能计算重点实验室主任,浙江大学软件学院副院长。担任TKDE、JCST、FCS、《计算机研究与发展》等期刊编委/副编辑,VLDB、SIGSPATIAL、WISE等10余个顶级/重要国际学术会议程序委员会/Workshop/Tutorial/宣传/出版/本地(共同)主席,SIGMOD、VLDB、ICDE、SIGKDD、SIGIR等会议(资深)程序委员会委员。培养多名博/硕士生获省部级或全国性学会优秀博/硕士学位论文奖8次以及KDD Cup 2022风电预测(Wind Power Forecast)赛道全球冠军。
随着训练数据规模的不断增大,大模型演化出强大的泛化能力,并涌现出新智能。大模型的智能是来自数据的智能。大模型的智能也正反哺大数据管理与分析,已在数据治理、数据分析等方面展现出巨大的潜力。大数据和大模型的深度融合将铸就数据智能的新路径。本报告聚焦大数据与大模型融合研究前沿,先介绍大数据和大模型的相关背景,而后探讨数据管理技术对大模型的赋能(DB for LLMs)以及大模型技术对数据分析的赋能(LLMs for Data Analytics),并汇报报告人负责团队在向量数据库、检索增强生成、Text-to-SQL、数据智能体等方面的探索。
keynote3: 生成式SQL语句的优化方法与挑战
王肇国,上海交通大学长聘副教授,博导,软件学院副院长,优秀青年科学基金获得者,重点研发项目负责人。主要从事数据库与分布式系统方面研究,相关成果发表在OSDI、SIGMOD、VLDB、NSDI、PPoPP、PODC等相关领域权威会议上。曾获2023 SIGMOD研究亮点奖、SIGMOD 2022最佳论文荣誉提名奖、APSys 2017最佳论文奖、ACM ChinaSys新星奖、华为奥林帕斯先锋奖,以及两次华为火花奖。主要学术兼职包括OpenHarmony技术指导委员会智能数据管理TSG负责人、ACM ChinaSys秘书长、CCF数据库、系统软件、高性能专委会执行委员等,受邀担任EuroSys 2025、NSDI 2024、SOCC 2024、IEEE ICDCS 2019/2023、IEEE Cluster 2021等国际会议的程序委员会成员。
SQL优化是数据系统中的核心问题。近年来,随着Web框架和机器学习技术的发展,SQL语句逐渐由开发者手写转变为系统辅助生成。这一变化打破了传统数据库系统对SQL优化的假设,使现有的优化规则和方法难以继续适用。同时,现有研究主要关注生成SQL的准确性,而对其性能优化关注较少。本次报告将简要汇报我们在生成式SQL性能优化以及重写规则方面的研究成果,并分享在研究过程中遇到的一些挑战和思考。
大语言模型能否带来软件自动化的新机遇?
讲者:梅宏
中国科学院院士,发展中国家科学院院士,欧洲科学院外籍院士,CCF/ACM/IEEE Fellow。主要从事软件工程和系统软件领域研究,在构件化软件中间件、开发方法学和工具环境等方面取得了系列成果。曾获国家技术发明一等奖、二等奖,国家自然科学奖二等奖,何梁何利基金科学技术进步奖、陈嘉庚科学奖信息技术科学奖、IEEE Computer Society Technical Achievement Award等重要奖项。曾担任国家863计划专家组成员、组长,国家“核高基”科技重大专项专家组成员,全国信息技术标准化技术委员会大数据标准工作组组长,国家重点科技研发专项“云计算和大数据”实施方案编制组组长、总体组组长,国家“科技创新2030 -重大项目”大数据重大项目立项建议和实施方案编制组组长等。
报告摘要
【议题一】软件自动化及其实际软件开发中的挑战
【议题二】AI在软件工程中的应用
报告内容
【议题一】软件自动化及其实际软件开发中的挑战
-
软件自动化一直是计算机科学家的梦想,但在生成大规模程序时仍面临许多挑战。
-
回顾过去十年在软件自动化方面所做的努力,包括编译器和词法分析器的生成、声明式语言程序综合、领域特定编程模型驱动的体系结构等。
-
提出了利用大数据和深度学习进行软件自动化合成的可能性,以及利用大量开源代码数据进行软件自动化研究的潜在影响和挑战。
-
讨论了AI在软件工程中的应用,如提升开发效率和生成代码等。
【议题二】AI在软件工程中的应用
-
继续研究如何将AI技术应用于软件工程,以提高开发效率和代码质量。
-
探索深度学习和大语言模型在软件自动化中的应用,以及这些技术如何与软件工程的传统方法相结合。
-
研究和解决当前面临的挑战,如代码的结构化特征丢失、数据限制和质量保证等问题。
-
推动软件工程与AI的交叉研究,进一步探索AI对软件工程带来的影响和机会。
-
鼓励在软件开发实践中使用和评估这些新技术,以便更好地理解其实际效果和应用价值。
教师在信息学奥赛选手成长中的作用
-
第六届 CNCC NOI 论坛——教师在信息学奥赛选手成长中的作用,报告人:韩文弢,赵启阳,蒋炎岩,叶金毅,胡伟栋,金靖,李建,张超,肖然
-
报告输出的观点摘要:报告主要阐述了在大模型快速发展的今天,教师如何结合大模型辅助进行奥赛教学,以及教师对于学生能力培养与情绪关注不可或缺的作用。