首个信贷多模态AI评测基准FCMBench发布,为金融AI打造“标准尺”

一场关于信贷多模态AI如何定标准的讨论,揭示了金融AI从技术狂欢走向产业落地的关键一步。
2月5日,奇富科技举办了一场聚焦“信贷多模态AI如何定标准”的产业与学术前沿直播讨论。来自产业界与学术界的专家指向同一个核心问题:没有统一标准,金融AI很难真正落地。
直播中,奇富科技联合复旦大学、华南理工大学研究人员发布的首个面向信贷场景的多模态评测基准FCMBench-V1.0成为焦点。
这一基准源自真实信贷业务场景,围绕多模态感知、推理与决策等关键环节设计评估任务,并同步开源数据集与评测工具,试图为金融AI建立一把可被广泛认可的“尺子”。
01 产业痛点:金融AI落地缺乏统一评测标准
金融业务对隐私、安全与合规有着天然的高要求,模型能力是否可靠不能只靠“自说自话”。当前金融机构在选择模型和方案时,常常陷入“不同模型分别声称得到了95分和98分,到底哪个好”的困惑。
奇富科技多模态负责人杨叶辉用“锄头与土地”比喻AI与应用场景之间的关系:AI是工具,而金融、医疗这样的高门槛行业则是足够“肥沃”的土地。没有统一、公平、公开的评测体系,决策就容易失焦。
FCMBench的价值在于把模型拉到同一条起跑线上,让能力在真实业务条件下接受检验。杨叶辉坦言,做评测基准并非短期收益项目,但从长期看,行业共识和开源力量的形成终将反哺业务本身。
02 设计理念:从真实业务场景出发的“实战性”评测
FCMBench在设计上强调“实战性”,从合规前提下重构数据体系,到任务层面对真实业务流程的映射。该基准对光线、角度、反光等十余种真实干扰场景进行模拟,直指金融风控中最具挑战性的推理问题。
例如,职业信息与异常流水之间的矛盾识别,正是检验大模型是否具备金融推理能力的关键一环。FCMBench-V1.0构建了与真实银行审核流程高度一致的评测框架,涵盖18类核心信贷证件。
这些证件包括身份证、收入证明、银行流水、房产证等,包含4043张合规图像和8446个测试样本,问题覆盖信贷审核全链条。其创新的“感知-推理-鲁棒性”三维评测体系,对金融信贷AI模型所需的实战核心能力进行全面考核。
03 学术视角:从ImageNet到FCMBench的范式意义
复旦大学教授陈涛从AI发展史角度指出,深度学习真正的分水岭不只是算法突破,而是ImageNet的出现,让评测尺度第一次实现了数量级跃迁,终结了小数据集时代“各说各话”的局面。
“金融AI现在正处在类似的阶段。”陈涛强调,从数据规模、任务覆盖度到评测设计的系统性来看,FCMBench是目前国内金融领域,乃至国际金融AI研究中规模最大、最具权威性、同时也是少有的统一评测基准。
华南理工大学教授许言午为金融AI发展提供了另一种参照。他将数据集的发展分为三个阶段:先夯实数据质量,再通过学术与赛事运营形成影响力,最终获得行业层面的官方认可,成为类似托福、雅思那样的“准入门槛”。
在许言午看来,FCMBench正处在一个极具潜力的起点。对比医疗AI长达十余年的研发与审批周期,金融行业更短的业务迭代周期,反而为模型评测和更新提供了现实土壤。
04 评测结果:现有模型与实战要求的差距
通过对23个主流多模态模型的全面评测,FCMBench展现出强大的鉴别能力。这些模型来自14家顶尖AI企业及科研机构,评测结果揭示了当前模型的能力水平。
结果显示,Google DeepMind的Gemini 3 Pro以64.61分位列商业模型榜首,阿里巴巴Qwen3-VL-235B以57.27分成为最佳开源基模。而奇富科技自研的信贷垂类多模态大模型Qfin-VL-Instruct以64.92的F1分数斩获综合第一。
这一成绩彰显了垂类领域定制化训练的优势。但同时也表明,即便是最强的大模型,在真实信贷场景的benchmark上也仅有约64%的综合表现,距离“稳稳拿满分”还有很长的路要走。
在鲁棒性测试中,模型表现明显下降,说明现实拍照噪声和伪影对AI依然是挑战。现有模型还有很大提升空间,特别是在跨证件一致性推理和现实场景抗干扰方面。
随着FCMBench的发布,金融AI行业首次拥有了专门针对信贷场景的多模态评测标准。这把“尺子”不仅解决了模型评估的难题,更定义了什么才是金融AI真正需要解决的问题。
从技术突破到产业落地,金融AI正经历从“炫技”到“实用”的关键转变。而FCMBench的出现,为这一转变提供了可靠的评估框架和方向指引。
