IDC:百度智能云获大模型平台及向量数据库技术评估双第一
近日,全球领先的IT市场研究和咨询公司IDC发布《中国生成式AI应用开发平台市场:企业统一AI开发平台的雏形》报告。IDC所定义的大模型平台包括两部分,一个是模型开发平台,即提供模型训练与调优工具,赋能开发者自主使用基础模型进行开发,另一个是应用开发平台,支持开发人员聚焦应用开发,提供低代码无代码开发工具。
该报告不仅对市场上主流的大模型平台厂商进行了对比分析,还为企业用户选择大模型平台提供了关键的技术指标。在此次评估中,百度智能云获得七项满分,位于所有大模型平台厂商第一名。亚马逊云AWS、阿里云并列第二名。
IDC报告指出,大模型平台给应用程序开发提供了一个新的路径,企业在选择大模型平台的时候,应该重点关注厂商在模型层和数据层的能力。在模型层能力方面,如何让模型更好的适配企业的应用场景至关重要。而在数据层能力方面,如何做好RAG(检索增强生成),保证生成内容的准确性,消除幻觉最为关键。
而在这两个方面,百度智能云都有深厚的技术积累。百度智能云千帆大模型平台(以下简称千帆平台)是大模型与AI应用开发及服务平台,可以从模型开发、模型服务、应用开发三大维度,为企业提供全流程服务。目前,文心大模型日均调用量超过15亿次,千帆平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用。
模型精调助力大模型与产业深度融合
大模型具有强大的泛化能力,可以处理很多通识类问题,但在某些特定行业及领域的表现不如人意。这是因为不同行业有着独特的专业知识、逻辑和数据特点,通识知识无法完全覆盖这些特殊需求。模型精调是增强大模型在行业应用中表现的关键,通过将行业的专业知识和数据特征融入大模型,可以让其更好地满足行业特定需求,从而提升应用的准确性和可靠性。
行业内主流大模型服务商也正在通过大模型平台提供模型精调服务,帮助企业快速打造AI应用。
AWS SageMaker集成了亚马逊的高性能预训练模型库,这些预训练模型在大规模的通用数据上进行了训练,已经学习到了丰富的特征表示和知识,为模型精调提供了良好的基础,同时,SageMaker还提供了多种先进的机器学习算法,用户可以根据精调任务的特点和需求,选择合适的算法来进一步优化模型性能。
百度智能云千帆大模型平台提供了完整的工具链,是业界首个上线DPO、KTO等模型训练方法的平台,提供了高质量通用语料数据和开箱即用的模型精调样板间。无论是想要自己准备数据、做精调,还是想快速上手、复制行业最佳实践,千帆平台都可以高效支持。目前,在千帆平台上,每天有超过一半的调用量是来自精调后的模型。
拿医疗行业举例,杭州全诊医学基于千帆平台和文心大模型打造了AI医疗助理应用,能够在导诊、预诊、诊间、入院、手术、随访等全阶段服务医生患者。以辅助医生撰写病历为例,全诊医学通过使用20万份精标病历数据对大模型进行了精调,使AI医疗助理的医学用语更准确、更规范,大幅提升病历内容质量。病历生成的准确度提升了45%,医生的接诊量提高了20%,造福更多病患。
RAG已成为企业解决大模型幻觉问题的有效手段
生成式AI已成为企业布局和投资的重点,企业希望借助大模型实现降本增效和产品创新。然而,通用大语言模型(LLM)在实际应用中往往存在幻觉问题或回答不准确的情况,尤其是在面向B端场景时,难以有效满足企业的落地需求。为解决这一问题,企业通常采用RAG(检索增强生成)技术,将生成式AI与企业内部数据库、知识库相结合,使生成内容更加准确、合理。在此过程中,向量数据库凭借其在语义理解和高效检索方面的独特优势,成为企业实现RAG的关键组成部分。
不久前,IDC发布了《RAG与向量数据库市场前景预测》报告,对使用大模型的企业进行了深入调研。报告显示,在生成式AI的开发过程中,41%的高管认为构建RAG架构至关重要;此外,81%的IT领导者认为,基于业务数据的生成式AI模型能够为企业带来显著的竞争优势。这表明,RAG技术在提升通用大模型准确性方面效果显著,且企业对其认可度正持续提高。随着更多企业意识到RAG的重要性,它有望成为生成式AI落地的关键推动力。
在分析了RAG和向量数据库市场的发展趋势后,IDC还评估了市场上的主要厂商。在这一评估中,百度智能云的向量数据库VectorDB在核心性能、功能全面性、大模型支持、战略与生态合作、工程化落地五个关键领域保持领先,综合排名并列第一。
目前,百度智能云VectorDB已经在超过500家客户中实际落地使用,支持HNSW、Puck、PQ等常用算法,主流LLM、RAG框架,以及百度智能云千帆和开源Embedding模型,支持企业一站式部署落地。面向未来,百度智能云VectorDB将继续在产品形态、内核功能、生态支持三个方面重点发力,为企业AI应用落地服务,提供最专业的向量数据库服务。
免责声明:本文章由“知识和经验”发布如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系