
中国信息通信研究院总工程师 何宝宏
尊敬的各位领导、各位专家,大家好!很高兴有机会再次来到数字经济论坛,分享我和团队关于人工智能发展的最新观察、理解与思考。内容不一定完全准确,供大家批评指正。
第一,今年的《政府工作报告》首次提出“打造智能经济新形态”,这标志着数字经济发展进入了新阶段。过去我们强调数字化、网络化,现在更突出AI赋能千行百业,产业发展进入智能化高级阶段。从技术角度看,基础大模型在过去一年,无论是语言模型还是多模态模型,都取得了长足进步,但呈现出新特点:语言大模型过去几年能力年均提升约35%,但增长逻辑出现转折——不再单纯依靠“模型越大、效果越好”,而是通过模型扩展、外挂工具等方式,技术路线发生了微妙变化。多模态模型的进步更为显著,过去一年能力提升50%以上,产业创新重心正从语言模型加速转向多模态,各类技术瓶颈不断被突破。
第二,开源模型能力已接近闭源,差距持续缩小。开源赛道呈现收敛趋势,历史上开源模型数量曾超200个,如今下载量、使用量及衍生模型高度集中于头部。TOP5开源模型下载量占比超过83%,可以看到,Meta与DeepSeek明显占据了榜单前面,开源模型也在走向收敛。
第三,世界模型成为新探索方向。仅有语言模型和多模态还不够,智能需要与物理世界交互,物理仿真、现实建模能力仍显不足。学术界正积极探索构建世界模型,最简单路径是语言大模型与物理世界融合。目前世界模型研究尚处初期,方向明确,但技术路线仍存较大分歧。一旦世界模型成熟,元宇宙也将迎来真正落地。再往上走是数据,数据是一个重大的挑战。过去一段时间,模型的能力不能仅依靠模型越大来支撑,今天的数据预训练撞上了墙,难以找到新的数据来提升它,数据成了制约模型能力提升的一个核心性的因素。如果是数据部门,或者做大数据要素,你会说数据太多了,体量大,类型多。如果做大模型,反过来就会说数据太少了,质量也不高,互相甩锅,这是一个正常的现象,不是数据不够,是模型不好。
为了解决今天的公共互联网上的公用数据基本消耗殆尽的问题,如何挖掘更多的数据价值,第一个是私域数据,针对特定行业和特定行业的私域数据的开发利用,尤其是模型的微调和训练也是远远不够的,从公域走向私域。
第二是合成数据,人类产生的数据基本上消耗殆尽,生产数据远远会落后模型消耗数据的速度,能不能用各种传统的算法,用AI的算法合成数据回去再训练数据,答案是可以的。
第三,不断提升数据的质量,通过数据工程等方法,无论是什么数据,需要进一步提炼加工。之所以数据用不好,一个重要的原因是数据本身在质量、即时、完整性、标准化等方面存在很多的问题,我们通过更先进的数据工程来不断提升已有数据的质量,更好服务好AI。
算力在过去一年的时间里,热点层出不穷。第一个是推理算力,从预训练类的算力转向实际使用的推理算力,推理算力的比例将来肯定会超过训练算力。第二,算力在国内尤其是小散乱,需要把算力一体化集中起来,更好的互联互通,发挥闲置资源的匹配作用,正在构建全国算力一张网。第三个是超节点,我们需要单节点能力持续不断的提升。随着算力越来越大,算电要协同,人工智能对电的消耗越来越大。
Agent的技术框架已经初步确定。Agent的开源领域今年发展得非常快,从去年开始技术发展非常快,发现有技巧,效果会更好,把话术整理多了,就是一个说明书,发现人整理的说明书,得面向机器,让机器更准确理解说明书,就有了技术。
还有驾驭工程,模型给出的结果是概率性,有可能会出错,这个时候当概念性出现错误的时候,如何控制模型,让它沿着正确的轨迹去前行,这个在IT历史上从来没有遇到过一个新的情况、新的问题。所有智能都有可能出现“发疯”的情况,风险一定要在可控范围之内,从计算机时代的软件工程到互联网时代的分布式工程,到今年需要一些驾驭工程,每个时代要把它的不确定性变得更加确定。
具身智能目前已经取得了长足的发展,但是大部分的产品还是在特定场景。目前具身智能的领先场景也是在特定场景,但已经可以自主执行了,这是一个飞跃。未来具身智能的发展目标是希望能够泛化,适用于更多的场景,要自主执行,不再是遥控。具身智能属于未来产业,我们还面临着一些非常关键的挑战,一个是高质量数据的缺失,训练具身智能需要物理数据,海量的数据不是专门的物理数据,如何获得更多的物理数据去训练它。比如说真机数据,还是合成数据,或是互联网数据。真机数据太贵、量太小,合成数据有时候不靠谱,互联网数据很便宜,也不靠谱。所以数据的差距问题很大,第二个是模型泛化问题,在一个场景下训练的具身智能在另外一个场景下不行了,所以整个链条的配合问题尤其重要。
AI产品形态越来越多,AI手机、AIPC,还有眼镜,形态明显日益丰富和完善。
走到今天,AI正在向各行各业持续的渗透,但是渗透的次序可能不太一样,语言渗透比较快,持续推动人类社会进步。人工智能正在迎来智变,我们做好准备了吗?我先说这么多,谢谢!