为什么在探索大模型之余,百融云创还要将小模型做精?
在ChatGPT横空出世后的一段时间内,业内严格遵循Scaling Law(规律定律),即更大的参数、更大数据和更强算力才能收获更好的模型智能,现在业内的理念正在转变,“大力出奇迹”的时代已经过去,海外巨头如Mistral、Deepseek、微软、Meta、Google等纷纷推出小巧但功能强大的小模型,就连Scaling Law的提出者OpenAI也加入了小模型赛场,发布了轻量版GPT-4o mini。
这些迹象显示,AI赛道的竞争格局正在重塑,大模型不再是唯一,而是AI产业的一部分,越来越多的小模型、专用模型以及行业定制模型正在崭露头角,它们将与大模型互补结合,对外输出更加智能化的解决方案。
小模型集体涌现的背景是海内外市场竞相掀起的模型价格战,甚至将API调用的价格卷至“白菜价”,激烈的商业竞争下,模型需要更加考虑性价比和轻巧化落地,针对不同的应用场景,将模型参数做小、做精几乎是一种必然。
国内公司如百融云创也在推进轻量级模型的布局,该公司强调在追求算力参数的同时,也需要考虑用户意图和实时反馈的平衡,警惕陷入“博算力”的误区,百融云创还提出了“模型应用一体化”的战略方向,并搭建了一站式开发平台Cybertron,将大模型与RAG(检索增强生成)等技术相结合,落地到金融、出行、租赁、物流等多个垂直场景中。
百融云创认为,并不是所有的应用场景都需要非常强大的模型,在某些特定场景中,更需要的是借助大模型实现精准化文本解析、信息抽取和语义匹配,小模型的崛起还与大模型端侧化落地的趋势相关,小模型可以更好地适应终端算力受限的场景。
除了成本平衡约束,机构推测小模型的崛起未来可能会持续,基于端云协同的战略方向,百融云创也在将智能语音、多模态等技术集成到端侧,开发高效、低能耗的端侧小模型,应用于手机、车载等智能终端。
从技术角度来说,轻量级模型实现有限算力下的超强性能门槛并不低,需要大量的训练数据投入、模型优化及对于硬件的有效利用等,以百融云创的智能语音机器人(Voice-GPT)为例,该产品基于Transformer架构,内置了多项技术,提供“真人级”的互动体验,同时客户语音识别的准确率能达到99%以上,这得益于百融云创在语音识别、语音理解等通用技术领域的沉淀,以及自主研发的语音质检分析方法及系统。
百融云创还借势决策式AI的力量来增益大模型性能,在2023年,该公司共上线了300余个小模型,其中蕴含决策式AI技术的小模型可以增强模型间的互补性,提高对于不同应用场景的适配度,百融云创认为,单一模型无法解决垂直行业的所有问题,需要的是多模型、多元化的AI技术组合拳,以大模型为基座,结合成熟的小模型,再加上行业Know-How,可以提升整个数智系统的成熟度和性价比。
未来是混合AI的时代,单一大模型的时代已经过去,轻量级模型的崛起将对AI产业产生深远影响。