1. 首页 > 金融分期资讯

蚂蚁理财 AI “蚂小财” 登顶金融大模型评测

作者:小小 更新时间:2025-09-11
摘要:上财FinEval6.0首测显示金融严谨性超行业均值17分领跑行业上海财经大学近日发布国内首个金融领域大模型评估基准FinEval6.0的首份评测报告,蚂蚁集团旗下理财AI“蚂小财”的模型底座在金融严谨性等核心维度表现突出,以显著优势排名第一,总分跑赢GPT-4o、DeepSeek-R1等国内外主流通用大模型。核心优势:严谨性超越行业均值17分FinEval6.0新增金融严谨性评测维度,通过,蚂蚁理财 AI “蚂小财” 登顶金融大模型评测

 

上财 FinEval6.0 首测显示 金融严谨性超行业均值 17 分领跑行业

上海财经大学近日发布国内首个金融领域大模型评估基准 FinEval6.0 的首份评测报告,蚂蚁集团旗下理财 AI “蚂小财” 的模型底座在金融严谨性等核心维度表现突出,以显著优势排名第一,总分跑赢 GPT-4o、DeepSeek-R1 等国内外主流通用大模型。

核心优势:严谨性超越行业均值 17 分

FinEval6.0 新增金融严谨性评测维度,通过覆盖金融学术知识、行业理解、安全认知等六大模块的 2.6 万道专业试题,全面评估大模型在复杂金融场景中的可靠性。评测结果显示,“蚂小财” 在金融严谨性单项得分超出行业均值(70.27 分)17 分,达到 87.27 分,在数值计算、合规性校验等细分领域表现尤为突出。其背后的蚂蚁自研 Finix 大模型,通过金融智能增强技术体系实现专业功能与交互体验的双重提升,在保险收益计算、产品推荐等场景中展现出精准的逻辑推理能力。

技术支撑:生态协同与专业壁垒构建

作为连接蚂蚁财富平台 200 余家持牌金融机构的 AI 理财管家,“蚂小财” 通过 “通用大模型 + 金融知识注入 + 安全控制” 的技术架构,构建起行业领先的专业能力护城河。其技术团队在通用模型基础上叠加金融垂直领域训练,结合实时数据验证与人工审核机制,有效降低 AI 幻觉发生率,确保输出内容的合规性与可解释性。例如,在投顾场景中,“蚂小财” 可通过动态资产诊断生成结构化分析报告,并嵌入风险提示,实现从 “知识搬运” 到 “专业决策” 的跨越。

行业意义:推动 AI 从‘博闻强识’到‘专业审慎’

“金融领域对 AI 的严谨性要求远超通用场景,蚂小财的领先表现标志着国内金融 AI 已从‘能用’迈向‘好用’阶段。” 测评团队负责人、上海财经大学教授张立文指出,此次评测不仅验证了垂直领域模型的技术价值,也为金融机构的智能化转型提供了选型参考。随着 FinEval6.0 基准的推广,金融 AI 的评估体系将更贴近真实业务需求,助力我国在国际 AI 竞争中巩固优势地位,同时为数字金融、普惠金融建设开辟新路径。

(注:本文数据来源于上海财经大学 FinEval6.0 评测报告及蚂蚁集团公开信息)