2010年7月,南非世界杯如火如荼。比赛激情进行,赛事预测引发大量关注。来自德国的章鱼哥“保罗”,针对德国队所做的7次预测全部正确,并成功预测了冠军球队,8场比赛正确率达100%,成为了世界杯最佳“预言帝”。
与世界杯赛事预测异曲同工,诺贝尔奖结果公布之前,全球领先的商务和专业智能信息服务商汤森路透也会进行预测,利用其研究方案Web of Knowledge中的数据,根据诺贝尔奖的生物或医学、物理、化学与经济分类,使用定量数据来分析和预测最有影响力的研究人员。根据发表的研究成果的总被引用频次,他们被授予“引文桂冠得主”称号,预示着可能成为诺贝尔奖得主。自2002年起,共有21位“引文桂冠奖得主”夺得诺贝尔奖。
诺贝尔奖结果预测,堪称一件“趣事”。在专业领域,汤森路透已经为法律、税务、会计和合规、科学、医疗保健及媒体等企业客户提供了准确、可靠的智能信息服务,辅助决策、简化运行、提高效率、降低风险、促成商业成功。支撑起这一系列服务,源动力是汤森路透的底色——庞大的数据量和强大的分析能力。
在南非世界杯结束两年后的2月,《》的一篇专栏称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
适应大数据时代,不仅要快,而且要聪明。2013年,时任汤森路透金融市场及风险管理业务全球总裁大卫克雷格表示:“我们需要做的是减少各种数据噪音,以便为客户提供更有价值的数据。”因为人们获取免费数据的途径越来越多,很多金融机构、对冲基金,乃至各国央行,并没有足够多的时间来做海量的、无关的信息“过滤”工作。
那如何提升客户获取和处理数据的效率?如何增加客户“看数、用数”的便捷性和灵活性?如何保证数据的准确性和全面性?以及,历经2008年金融危机后,众多金融机构面临减少成本的压力。汤森路透不得不解决“效率和成本”的双重难题。云计算或许是一个较好的解决方案。基于云计算,汤森路透推出了Elektron平台,可为客户提供低延时的全量(Full Tick)市场数据管理和交易服务,并将数据基础设施的总体拥有成本降至最低。
之后的几年里,汤森路透计划将所有的数据迁移到其Elektron平台之上,将云作为全新的IT基础设施。一方面,汤森路透的业务遍布全球,数据分布高度分散,依靠传统的数据中心,已经难以实现数据的集中化存储和管理,且随着数据量的指数级增长,底层IT基础设施建设成本水涨船高,成为一笔不小的投入。另一方面,实时市场数据一直是汤森路透的优势所在,在数据量保持海量规模的同时,保证数据传递给到客户的及时性,但来到大数据时代,本地化数据上传到总部,统一处理后再分发到各分部,可能已经过去了很久,时效性和灵活性显然不足。因此,总部和分部的数据如何共享调用,边缘端如何实现数据的本地收集、计算,在处理分析后第一时间提交给客户就变得尤为必要捷佐展览服务。
假如某个跨国企业,进入年末需要分析上海、香港、新加坡、东京的交易数据,以横向对比不同城市间的营收额和成本投入,为新一年的战略布局提供数据支持,那便需要将数据集中到云中心统一计算。当进入年初,每个城市开展本地化业务时,需要通过当地的市场动态、人群消费习惯等数据分析以高效支撑决策判断,边缘计算成为必需。
此外,大数据时代汤森路透更需专注于推出更多深度洞察信息和数字化产品及方案,以响应客户的数字化转型需求。但在IT基础设施管理和运维上,过度依赖大量的人工作业,不仅任务繁重,且人力成本居高不下。
在此背景下,汤森路透加快了迁移上云的步伐。2018年,汤森路透牵手亚马逊云科技,通过其提供的专业服务、管理服务(代运营基础设施)等,提前五个月完成了迁移,并利用亚马逊云科技的托管服务,将全球业务部门的数百个关键任务和传统应用程序快速迁移到云端并投入使用。为了进一步简化迁移流程,汤森路透利用亚马逊云科技Marketplace简化访问,快速采购并将其首选的第三方软件集成到亚马逊云科技的云上环境中。
到2020年底,汤森路透将数千台服务器和数百个创收应用程序迁移到云端,利用亚马逊云科技的云服务,包括分析、数据库、容器、无服务器、存储、机器学习和安全等,成功实现数据的高效采集、存储和流转、处理,加速专业数字化产品和服务的创新,实现业务在云端的敏捷开展,对其所服务的客户提供了更深的洞察,助力决策。时任汤森路透架构和开发副总裁Justin Wright对此表示,“亚马逊云科技提供的专业技术,加速了我们向云端的迁移,支持我们开发更有洞察力的数字产品和服务,帮助客户在复杂领域重塑高效的工作和运营方式。”
毫无疑问,AI已成为当下炙手可热的技术。但早在20世纪90年代,已拥有庞大数据量的汤森路透,敏锐地嗅到,要想进一步释放数据潜能,关键在于算力和算法,即高性能计算和机器学习(ML)、深度学习、人工智能(AI)技术的融合应用。自然而然,汤森路透抢先一步,推出了业内首个使用自然语言处理(NLP)技术进行更高效、更自然的法律研究平台Westlaw,开启了自己的AI技术应用之路。
来到大数据时代,汤森路透在推出Elektron平台的同时,还推出了桌面金融信息产品Eikon。这是一款专为新一代金融人士设计的旗舰产品,客户不仅可以方便地获取实时数据、新闻、分析,开展在线交流和交易,还可以通过它采用“自然语言”的人性化交互进行数据处理和分析。当客户提问“比较一下2012年和2013年,A银行与B银行的利润对比”时,系统会迅速给出答案,而且这些答案不再是海量资料、数据,而是非常有针对性的对比表格、以及两家银行的具体营收比较。该产品推出后不久,便被全球超过40万专业人士使用。
看到AI技术广阔的应用前景,汤森路透决定打造AI技术创新应用“基地”,于2015年9月正式成立汤森路透实验室。实验室主要目的是创新与合作:创新是利用汤森路透的数据进行研究和实验,为客户提供更专业和完善的解决方案;合作指的是加强与各类行业专家及企业的联合创新,进一步扩大AI等新技术的应用场景。
对汤森路透而言,AI技术的创新应用具有重大意义。以Westlaw为例,发展到今天的它,已经被汤森路透实验室嵌入了生成式AI技术,可自动生成丰富、详实、专有的法律内容数据库,法律专业人士几秒内即可获得特定法律问题的答案,并能够帮助撰写合同、准备纳税申报表或监管备案。换言之,在内容检索和文本生成方面,生成式AI带给汤森路透服务客户的全新生产力。
尽管如此捷佐展捷佐展览服务览服务,但在推动生成式AI技术普惠,提升全公司员工生产力层面上,汤森路透仍感不足。尤其是每当研发团队或是开源社区推出全新的大语言模型(LLM)时,这些前沿成果如果不能被公司员工迅速且准确地掌握,仍可能会错失新的数据处理或分析策略带来的机会,或在生成专业的解决方案、优化客户服务质量方面遭遇瓶颈。因此,若对生成式AI技术掌握和应用一旦滞后,无疑将会成为汤森路透进一步提升公司生产力和竞争力的一大障碍。
进一步说,这也与汤森路透非常专注于提高每个团队、每个业务领域的员工对生成式AI技术的认识和理解背道而驰。越来越多的员工在网络研讨会、培训材料和小组讨论上,期望公司能够开发相关的学习工具等。
为了鼓励整个组织的探索和创新,让技术和非技术团队都能获得人工智能解决方案,在亚马逊云科技的支持下,采用了包括Amazon Bedrock、Amazon SageMaker、Amazon Lambda和Amazon DynamoDB,以及Hugging Face和深度学习容器(DLC)等服务,汤森路透实验室仅用6周时间,开发出了自研企业级大型语言模型应用平台Open Arena。
在该平台的开发期间,汤森路透实验室通过Amazon SageMaker上的Hugging Face技术,实现了整个架构模型的部署和增强,并借助Hugging Face推理工具包和加速库,加速推理过程,高效应对运行复杂且资源密集型模型的需求。这些技术和工具的应用,确保了多个大语言模型(LLM)能够实现快速且无缝集成部署。而Amazon Bedrock支持访问Anthropic的Claude模型、来自Mistral AI的开源模型,来自Meta的开源Llama 2模型, 以及广为人知的Stable Diffusion 生图模型和亚马逊云科技自研的Amazon Titan模型等,极大地增强了Open Arena模型集成的灵活性。
为了提供无缝的体验,Open Arena采用了安全的API网关,由Amazon Lambda来管理,确保数据能够经过精细的预处理和后处理,并将托管在Amazon S3存储服务上的前端与Amazon Lambda后端进行连接,部署在Amazon S3存储服务上的前端作为静态站点,再通过Amazon CloudFront以及汤森路透的单点登录机制,确保身份验证的安全性。在访问层面,该平台提供了一种非编程化的访问方式,员工基于网络即可实现自助服务,轻松探索和体验最新的大语言模型(LLM)及相关套件,帮助员工使用生成式AI技术快速安全地创新。这对于没有编程背景的同事极为友好。
以Amazon DynamoDB作为NoSQL数据库服务,Open Arena还能够有效地存储和管理各种数据,包括用户查询、响应、响应时间以及用户信息等。为了简化开发和部署流程,汤森路透实验室还采用了Amazon CodeBuild和Amazon CodePipeline进行持续集成和持续交付(CI/CD)。此外,Amazon CloudWatch提供了自定义仪表板和全面的日志记录功能,帮助监控基础设施并确保其最佳运行状态。
值得一提的是,Open Arena的开发旨在从多个数据集合中迅速获取答案,应用场景包括客户需求快速响应、快速提取专业信息、总结和验证文档要点等。因此,对于基于内容的用例(需要特定语料库的答案的经验),Open Arena结合Amazon提供的检索增强生成(RAG)技术,能够针对特定语料库进行查询并获取最相关的内容。在这个过程中,文档被分割成块,为了获得最佳匹配块,Open Arena使用了基于双编码器和和交叉编码器模型的检索/重新排名方法,然后,将检索到的最佳匹配作为输入与查询一起传递给大语言模型(LLM),高效生成专业的解决方案。
此外,使用生成式AI技术相关的风险之一,就是数据泄露。此次双方合作,采用了安全定制的方式,能够确保Open Arena用于微调大语言模型(LLM)的所有数据都保持加密。为了降低使用门槛,Open Arena还采用了交互友好的界面,设计了为每个用户探索体验预设的启用磁贴。如下图所示,这些图块作为预设交互,满足员工的特定要求。
“询问文档”功能允许员工上传文档并询问与大语言模型(LLM)内容相关的具体问题。“体验总结”功能则允许员工将大量文本提炼成简明的摘要,如下图所示。
这些功能的交互设计,简化了员工对生成式AI技术的探索过程,激发了创造力,并促进了创新用例的发现。
目前,在不到一个月的时间里,Open Arena每月为汤森路透全球业务的1000多个内部员工提供了服务,平均与每个员工的互动时间为5分钟,有效促进了内部自主研发和开源社区的大语言模型(LLM)的探索应用,并与汤森路透沉淀的的海量数据资源结合,服务客户做好产品创新和业务决策。
Copyright © 2002-2024 柔芯电子商务有限公司官网 版权所有 HTML地图 XML地图txt地图 | 浙ICP备2021023164号-5