数字经济时代,数据是国度定义的关键“消费要素”,已成为经济开展的新引擎和国际合作的新焦点。但是,未加工的数据存在口径差别、尺度纷歧、数据孤岛等一系列问题,需颠末升维再构,即提炼处置成为信息、常识、聪慧后,才气阐扬更大的价值。常识图谱是实现数据“提炼处置”的重要办法,其以构造化的体例描述客不雅世界中概念、实物,并利用“图”做为前言描述其间的联系关系关系,通过更接近人类认知世界的形式,提拔数据的组织、办理和理解才能。

马上消费股份有限公司(以下简称“马上消费”)做为中国银保监会批准、拥有领先AI和数字手艺的金融机构,高度重视数据要素潜能激活的根底工做。公司操纵常识图谱手艺,以构造化体例对海量文本和图像等数据停止升维再构,将数据及信息高效转化为常识,进一步助力构建认知智能。

一、常识图谱响应万物智联的时代趋向

跟着互联网和数字手艺的不竭开展,人机互动从单向获取开展为双向交融。万物互联的设想下,人们逃求极致的用户体验,但仍存在大量内容多源、数据多样的无效信息。常识图谱的开展为万物智联打下坚实的根底。

常识图谱是国度确立的新一代人工智能关键共性手艺之一。国务院发布《新一代人工智能开展规划》,明白指出要开展“常识计算引擎与常识办事手艺”,重点打破常识图谱构建与进修、常识演化与推理、智能描述与生成等手艺,构成多源、多学科和大都据类型的跨媒体常识图谱。现实上,国度科技部近三年均发布与常识图谱相关的“科技立异2030-‘新一代人工智能’严重项目”。常识图谱已然是我国修建人工智能开展先发优势的重要战略抓手。

常识孕育和传布在大数据时代正履历第三次大变化。3000年前,人类文明开启了随机、零星地传承,常识是少数人的特权;工业化消费阶段,逐步构成谜底尺度、节拍同一、内容单一的专家库系统;跟着万维网的普及,庞大的数据网链接并推演常识,常识的构成和传布呈现自适应、个性化、智能化趋向。

图谱的构造化形式激活数据构造化的要素价值。常识图谱通过资本描述性框架,展现现实中的概念、实体与关系,尤其擅长关系描述。因而,在图谱形式下,数据根据三元组形式停止升维再构,由孤立的、分离的、封锁的数据点组织构成互相联系关系的庞大常识图谱,进一步产生常识交融、图发掘计算、常识推理等认知智能价值。

二、图谱建模仍存亟待打破的开展瓶颈

常识图谱由谷歌在2012年提出,近十年开展热度越来越高,目前来看,常识图谱的普遍运用还存在不小挑战。

常识图谱的构建应用仍存手艺难点。基于规则和模板的图谱构建手艺面对常识抽取、常识交融、常识推理方面的困难:多语种、大范畴的多元实体关系抽取面对算法准确率和召回率较低的问题;高量量的实体对齐、多源数据库的交融亟待处理;随时间推移的动态常识图谱推理还需研究。深度进修擅长处理端对端的问题,是常识图谱进一步晋级和完美的重要标的目的。

图谱本体构建和维护成本高。相关于传统常识库,无论在高频仍是低频的智能问答中,常识图谱准确答复率均高于传统常识库。但常识图谱的多个构建环节人工参与量较大,以1000个节点、3000条边的图谱本体构建为例,大约消耗2人月(算法工程师),人工成本较高。而且,图谱构建胜利后,还需要不竭维护以包管图谱的量量,那对应更高的存储成本和人力成本。

行业常识图谱处于起步期,常识深度还待发掘。通用常识图谱逐步完成开辟性构建,目前演变成通用互联网常识图谱,构成搜刮引擎、智能问答、智能保举三大产物类型,例如百度百科、美团、知乎等,应用效果成熟。而面向场景的行业常识图谱仍处于起步阶段,常识深度还不敷,存在行业专家储蓄不敷、常识成立不到位等痛点。

三、构建金融数据常识图谱的应用理论

马上消费高度重视数据要素的资产价值,以常识图谱做为数据要素治理的手艺东西,构建内部常识库和行业常识库,为精细的大数据阐发供给有力的手艺撑持,为常识资产的优化供给泉源处理计划,赋能精准营销、客户维护、风险评估等多种金融场景,数据要素的资产价值也由此得到落实。

产学研互动,鞭策常识图谱与深度进修的交融开展。常识图谱行业才能、底层手艺才能的核心是图谱建模手艺。马上消费重视攻关图谱构建的共性关键手艺,公司专设常识图谱团队,以算法专家任团队长,团队成员以高级架构师为主,并配有多名软件工程师、测试工程师。而且,公司参与共建金融常识图谱与常识推理尝试室、聪慧金融与大数据阐发重庆重点尝试室,结合华中科技大学等高校攻关手艺难题,设立“金融范畴的常识图谱问答系统”、“基于深度进修的常识图谱暗示参数优化”等横向课题,紧跟常识图谱前沿手艺才能。目前,公司已提交常识图谱相关专利申请和软件著做权申请,并通过工信部中国信通院的常识构建与办理才能评测,成为全国第三家到达4级尺度的公司,也是金融行业的独一一家。

研发工程与算法平台,降低图谱构建成本。马上消费自主研发常识图谱全流程构建平台,该平台是常识本体构建和实体抽取的半主动化东西,实现了金融范畴图谱从创建、验证、存储到应用的全周期办理,具有高效率、高不变、高性能、低成本等特征。在平台上,常识库办理人员可深度参与、自主完成常识从本体定义、常识抽取、常识交融、常识存储、常识计算的全流程,对构造化数据、半构造化数据、非构造化数据以常识图谱形式停止沉淀,整合各渠道常识资产,搭建企业级常识库。目前,该平台已做为独立产物推广到市场上,为金融机构的市场、风控等部分供给智能化精准搜刮、问答等办事,提拔拓客效率、工做效率和客户满意度,降低企业人力办事成本,具有较好的经济效益与社会效益。

深耕常识深度,扩展常识图谱的多维场景应用。当前,通用百科常识图谱的手艺开展已经相对成熟,常识图谱在语义搜刮和常识问答的应用彰显优势。然而,常识驱动的智能信息处置还有普遍的应用空间,马上消费在金融行业停止了一些有益的摸索。公司在静态图谱的构建才能根底上,进一步过渡到事务图谱的因果阐发,从而实现多模态图谱的内容生成才能。在数据办理上,公司应用常识图谱对接AI数据中台,串联金融营业大量的多源异构数据,实现数据价值的深层发掘。在金融营业上,公司将图谱手艺应用到信誉评估、反欺诈、风险预警和精准营销的关键环节,鞭策了常识构架的营业应用。将来,公司将进一步摸索常识图谱的多模态表示,让人工智能愈加深切认知、理解实在世界场景,鞭策全方位的认知智能开展。

本文源自金融界资讯