“我在去年年底预约了提前还贷,当时最快只能选一个月之后的。现在一个月过去了审批还没通过,我打电话问银行,说是去年10月的申请还没处理完呢,我估计要排到4月。”
12月19日,智源研究院发布并解读国内外100多个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。基于评测结果,智源研究院副院长兼总工程师林咏华总结指出,2024年下半年,大模型发展更聚焦综合能力提升与实际应用;多模态模型发展迅速,涌现出不少新的厂商与新的模型,语言模型发展相对放缓。在模型开源生态中,除了Meta这些科技巨头之外,也出现了新的开源贡献者。
《中国经营报》记者注意到,现场反响最为热烈的环节是由AI大模型实时演示的辩论赛,由阶跃星辰、智谱AI两家国产大模型,与OpenAI的GPT-4o、Anthropicr Claude-3.5两家海外大模型随机“开展辩论”。就“拥抱玄学是不是当代年轻人的精神解脱之道”“功夫熊猫和孙悟空哪一个更适合做队友”两个辩题分别进行正反方辩论,由两名来自北京大学的辩论专家进行现场点评。
“测评一点也不比开发简单”
林咏华在现场感叹:“大模型性能测评一点儿也不比大模型开发简单。”她介绍,智源研究院自2023年6月上线了大模型评测平台FlagEval,经过多次迭代升级后,目前已覆盖全球800多个开源、闭源模型,包括20多种任务、90多个评测数据集、超200万条评测题目。值得一提的是,今年9月,智源研究院上线开放了“大模型角斗场”,支持用户通过模型对战来评测模型的性能及服务质量。
。这些测试结果或排行榜,不仅能够给消费者在纷繁芜杂的应用市场提供一些选择认知参考,而且对企业技术厂商来说也能提供第三方背书,了解自身所处的行业地位。
智源研究院此次发布的评测结果涉及语言模型、文生图、文生视频多模态模型、语音语言模型等。其中,语言模型针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。语言模型主观评测重点考察模型中文能力,结果显示字节跳动的豆包pro、百度文心4.0 Turbo分别位居第一、第二,OpenAI GPT-o1、Anthropic的Claude-3-5分别位列第三、第四,阿里巴巴的千问-Max排名第五。此外,从文生视频多模态模型的测评结果来看,文生视频尚处于起步阶段,画质、镜头动态性、转场流畅度在提升的同时,普遍存在着大幅度的动作易变形、无法理解物理规律、物体消失、闪现、穿模等情况。结果显示,快手可灵1.5高品质版、字节跳动即梦P2.0pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。
语言模型发展放缓,多模态需求蓬勃
智源研究院在现场真实演示大模型1v1辩论赛的环节引起了热烈的反响,林咏华称由2018年IBM的AI系统Project Debater首次与人类进行现场公开辩论启发,机器与机器对战、机器与人类对抗,都是为了更直观地展示AI的能力。
谈及测评结果显示的“语言模型发展放缓”观察,林咏华指出,语言模型发展至今已具备了基础能力,以Meta的LLama 405B、阿里巴巴的千问2模型为例,性能表现已很高,后续要实现明显增长不太容易。因此,我们会看到更新更大的语言模型出现的频率有些减缓,发展进入了“深水区”。400B参数量的大语言模型,如果要进行更大的创新,需要投入的资源成本是相当巨大的,“深区水”的创新难度会更大。
与此同时,林咏华表示:“从全球模型的发展情况来看,模型尺寸正在出现两极分化。”今年11月Hugging Face下载量最高的模型集中于两类:一类是更大、更强的稠密模型,如Llama3.1 405B一个月的下载量达到七八百万次;另一类呈现高下载量的却是7B及以下的小模型。
与语言模型放缓形成鲜明对比的是,多模态模型的潜力正在逐步显现,需求旺盛,很多场景都依赖多模态模型,而多模态模型的基础能力还没有像语言模型那样达到一定的水平,存在明显的提升空间。在智源研究院看来,预计2025年,多模态模型会层出不穷,包括开源的多模态模型。
在采访中,林咏华还提到中文互联网“数据孤岛”的问题。十年前,以中文撰写的互联网数据占全球的比例约5%,但自2021年至今,这一数字仅剩下1.3%。需要注意的是,全球使用中文上网的用户数量在十年里变化并不明显炒股的杠杆什么意思,约19%。这一比例呈现如此大落差的原因便是数据孤岛的存在。再以新兴的视频生成模型来看,大量的互联网视频数据并没有被真正地、很好地利用,成为当下视频生成模型的生成质量仍有较大提升空间的原因之一。