腾讯吴永坚：未来腾讯云将继续推动AI大模型等先进技术

9月8日消息，2023腾讯全球数字生态大会日前在深圳国际会展中心举行，聚焦产业未来发展新趋势以及自研技术产品的最新进展，展示了全方位的行业前沿与智慧洞见。在行业大模型及智能应用专场上，腾讯云副总裁、腾讯云智能研发负责人、腾讯企点研发负责人吴永坚发表《MaaS助力应用升级重塑智能时代生产力》主题演讲。基于AI大模型技术，腾讯云更新升级近10款智能应用和解决方案，进一步加快模型产业落地。

吴永坚认为，AI大模型应用，催生“效率革命”，让智能应用表现出更强的能力、更高的效率。例如，在AIGC应用方面，腾讯混元大模型正式通过腾讯云对外开放，用户可以通过自然语言给模型输入内容生成指令，提升文案创作效率。依托腾讯自研的AI绘画模型，腾讯云AI绘画实现输入文本、图片智能生成图像，支持超过25种绘画风格，共同为高质量、高效率的内容创作提供支持，加快在内容社区、电商等场景落地。

同时，腾讯云依托行业大模型解决方案，提升了图像识别、数据分析、人机交互等多款智能应用生产效率，将更多元化的，即插即用的产品、服务推向市场，重塑智能时代生产力。

format-jpg

图注：2023腾讯全球数字生态大会行业大模型及智能应用专场

（图源腾讯云智能视频号截图）

吴永坚介绍，在图像识别领域，TI-OCR训练平台集成OCR大模型，借助端到端算法，助力客户解决特定场景识别难题，减少训练成本和训练时长；在数据分析领域，腾讯企点分析·AI助手通过分析大模型，实现零门槛对话式分析，让人人都能拥有专业数据分析能力，为业务一线提供决策支持。在人机交互方面，通过行业大模型中枢，对接海量知识和工具，实现文字、语言、视频等多模态意图理解，生成智能、精准答案输出，支持更智能、更高效、更自然的智能客服、AI助手、数智人应用落地。

吴永坚表示，未来腾讯云将继续推动AI大模型等先进技术，应用于内部PaaS、SaaS产品，验证MaaS服务的可用性、易用性。另一方面，也将持续打造更多开箱即用的AI大模型产品、服务，打通AI产业落地全链条，助力客户实现数智化升级。

format-jpg

图注：腾讯云副总裁、腾讯云智能研发负责人、腾讯企点研发负责人吴永坚

（图源2023腾讯全球数字生态大会行业大模型及智能应用专场直播截图）

以下为吴永坚主题演讲内容整理：

各位线上的观众、媒体朋友们，大家好！我是腾讯的吴永坚，今天我分享的主题是《MaaS助力应用升级重塑智能时代生产力》。

今年6月，我们正式发布了腾讯云行业大模型解决方案，助力客户将AI大模型应用于产业场景。与此同时，我们也推动内部实践，基于行业大模型，推出腾讯企点智能客服、企点AI助手两款产品，通过技术创新解决智能客服“不智能”，数据分析门槛高的难题。

随后，我们将AI大模型能力应用到更广泛的PaaS、SaaS产品。一方面，验证我们MaaS服务的可用性、易用性。另一方面，也将更多开箱即用的产品、服务，向客户开放，推动大模型在实际生产、运营场景发挥效用。

今天，借数字生态大会，和大家分享一下我们的最新实践。

依托腾讯云多年深耕产业互联网的经验，我们从产业需求出发，基于自研腾讯混元大模型，同时支持主流开源模型应用，在TI平台内置高质量行业大模型，为客户提供不同规模的模型服务。通过升级大模型训练、精调工具链，助力企业快速生成专属模型，升级智能应用，加快模型产业落地。

首先和大家分享，我们基于腾讯混元大模型，在AIGC应用方面的探索。

过去，在文案创作场景，传统创作以“人工”为核心，容易产生创意不足、时效性不足、质量不可控等问题。今天，腾讯混元大模型正式通过腾讯云对外开放，用户可以通过自然语言给模型输入内容生成指令，提升文案创作效率；通过参数选择、多轮输入，对生成内容进行控制、调优，提升文案创作效果；根据营销、创作、效率等不同场景需求，生成对应专属内容，提升文案可用性。同时，还可以与广告平台、UGC平台、SaaS服务实现快速连接，加速落地，为各类场景提供更精准、高效的商业文案创作工具。

同样，传统绘画创作，也需要耗费大量的时间和精力，并且严重依赖于创作者的专业水平和主观经验，给企业带来较大的运营成本。我们推出腾讯云AI绘画，输入文本、图片即可智能生成图像，支持超过25种绘画风格。值得注意的是，依托腾讯自研的AI绘画模型，腾讯云AI绘画具有强大的中文理解能力，可以更好地支持中文元素的图像生成，例如古诗词理解、水墨剪纸等；我们也大幅降低了API接口耗时，相较业内平均水平降低50%，为高质量、高效率的内容创作提供支持。

深入产业，我们发现在内容社区、电商等场景，图文结合的形式，可以提供更丰富、更个性、更有创意的广告信息，有效提升转化率。基于刚刚介绍的两种方式，用户只需输入主题和产品描述，即可一键生成种草文案、商品详情描述等内容。AI绘画，还可以在内容配图，宣传海报等环节，提供创意辅助，实现智能营销+智能创意双重提效。现在，欢迎大家申请试用腾讯混元大模型，也可以登录腾讯云官网试用AI绘画。

在此之外，今年6月，我们还公布了腾讯云行业大模型解决方案。

由大量专业知识学习，以及强大推理能力，构建出的专属行业大模型，在特定领域的表现力及适应性更强。基于此，我们进一步提升了图像识别、数据分析、数智人、客服等智能应用生产效率，将更多元化的，即插即用的产品、服务推向市场。

在图像识别领域，既往OCR文字识别，需要经过图片输入、检测、识别、结构化等多个流程。一方面，多流程操作容易导致错误累积，降低模型准确率；另一方面，每一个业务场景的图片识别需求有所不同，导致单一模型难以复用于新场景，每一次定制都需要增加成本。

升级为“端到端”的OCR大模型后，从图像到文字，一步生成识别结果。比如，针对票据示例，可直接提问“委托日期是什么时候”，大模型在理解图片后给出回答，大幅缩减识别流程，提升识别准确度。针对发票混贴的场景下，一个模型可支持多种类型图像识别，泛化性进一步提高。

与传统模型相比，OCR大模型突破技术局限，有效降低了落地成本。例如，针对手写体，复杂表格难识别的问题，OCR大模型通过全面理解图片，直接提取相关字段，提升识别准确度；针对拍摄背景复杂的图片，OCR大模型可以借助端到端算法，避开干扰信息，直接回答相关问题；针对训练成本，在特定场景下，传统模型训练提升指标，需要依赖超过2000个训练样本，48到60个小时训练，而OCR大模型，只需要50到100个训练样本，训练2个小时，即可实现3%到20%的效果提升。

目前，OCR大模型已经集成到TI-OCR训练平台，供客户依据自身业务场景，进行小样本精调使用。

以新能源领域为例，客户通过TI-OCR 训练平台进行图片标注，以小样本企业数据对OCR大模型进行精调，实现对弯曲电线字符、水印铭牌、复杂电表图片等识别，推动自动化信息审核。在OCR大模型辅助下，字符读取准确率达到98%以上，自动化审核预计为客户节省超过80%的人力投入。

在数据分析场景，当用户希望了解“最近的销量情况”时，传统数据分析流程复杂，需要高度依赖专业人员，经过分析思路拆解、数据指标导入等环节，才能生成结论，链路长效率低。面对同一个问题，通用大模型因为缺乏分析专业知识和洞察力，则容易生成冗余、或无效的答案。

为此，我们打造了支持零门槛对话式数据分析的分析大模型。

和通用大模型相比，分析大模型内化了专业的数据分析知识、不同行业的分析指标体系，可以依据行业特点进行意图理解、思路拆解、数据推理，从分析师视角生成结论。

例如，通过分析大模型的意图理解能力，销量这个词汇会被关联为“销售额”、“订单数”，“最近”被关联为“近7天”，经过与用户交互，明确分析任务为近7天的订单数趋势。

通过分析大模型的数据推理能力，还将进一步建议用户从不同销售渠道，分析订单数变化原因。

基于分析大模型，我们升级推出腾讯企点分析AI助手，覆盖对话式分析，辅助数据配置，提取智能结论、一键生成报告四大场景。今年9月，企点分析AI助手正式向大客户开放内测申请。未来，人人都能拥有专业数据分析能力，让数据跑得更快，为业务一线提供决策支持。

在人机交互方面，我们通过行业大模型中枢，对接海量知识和工具，实现文字、语言、视频等多模态意图理解，生成智能、精准答案输出。接下来，我将详细为大家介绍智能客服、语音助手、数智人方向的探索。

围绕客服场景，今年6月腾讯企点发布全新一代智能客服，引入大模型能力，对对话交互、人工辅助和知识构建三个层面进行提升。最近，我们进一步升级了管理端配置能力，提升知识构建效率，优化C端用户体验。同时，我们积极与各行各业进行产业实践，在文旅、泛政、地产等领域落地标杆案例。

例如，在知识构建方面，通过企业专属知识“导入-校验-调优”闭环，可以提升复杂文档读取、理解效果，进一步优化冷启动效率，降低运维成本。在文字文档基础上，我们增加了对图文混排、多列排版等复杂文档接入。通过语义切块，生成向量，以高可用、可扩展向量数据库方案，丰富问答组合及内容；通过快速生成问答对，以及问答原文的回溯，提高问答校验的效率；通过提供对话测试和运营工具，让运营人员快速实现调优，提升问答准确率。

在对话交互层面，大模型迭代向量数据库、搜索引擎能力，智能生成拟人化答案，可以让智能客服应对更复杂的需求。例如，传统客服无法支持“操作步骤讲解”这类复杂需求。新一代智能客服通过上下文信息补全，基于企业知识库进行问答推理，可以将复杂问题解决率提高30%。

在用户体验上，大模型加持，也让智能客服更接近“真人客服”。例如，可以准确地识别用户情绪，及时给出安抚。可以分辨任务型、知识型、闲聊型话题，通过聊天的方式解决任务需求。在图片示例中，我们看到，即使在业务办理过程中，用户插入了“闲聊”话题，也不会导致任务中断，保证了业务办理成功率。

除了智能客服，出行大模型的引入，也极大提升了车载语音助手的语义理解能力、交互体验。

传统车载语音助手，以规则+小模型的方式，理解用户请求，存在对话呆板不自然、机械式回复无情感、功能单一等问题。加入大模型后，通过复杂意图识别，提供更自然的对话能力；通过设定人设，实现更富情感化的语音交互。同时，随着大模型能力迭代，将支持更多出行场景能力。

例如，基于出行大模型，通过简单提问，语音助手可以自动生成行程规划。根据车辆情况，语音助手会主动提示加油，并在导航中添加沿途加油站。同时，大模型也融合了车身信号信息，可以为用户进行车辆故障诊断。

在数字人领域，数智分身技术发展，推动数字人从定制化走向普惠化。我们通过行业大模型，进一步降低数字人应用门槛，提升生产效率及交互体验。

今年4月，我们推出了数智人工厂，24小时即可生成小样本数智人。今天，在AI大模型技术的加持下，我们再次提升生产效率，发布“通用口型”版小样本数智人，无需训练，上传素材后，1小时内即可获取专属数智分身，数智人生产效率再次获得提升。虽然流程、时间都大幅简化，但形象效果依然很逼真。

大模型技术的加持，也让数智人实现更高效、更自然、更智能的效果。我们全新升级的“交互式”小样本数智人，可以根据真实对话场景，进行手势的停顿、变化,更接近于真人交互状态。具有交互能力的小样本数智人，未来将不再局限于短视频生产这类单向播报场景，也可以被用于服务咨询等交互场景。

在3D数智人生产运营领域，依托AI大模型技术，我们推动照片式生成3D形象，改变手工作业形式，大幅提升生成速度。也可以实现智能动作驱动，基于语义为3D数智人自动匹配动作，让“数智员工”服务体验接近于真人员工。

可以看到，AI大模型应用，正在催生“效率革命”，让智能应用表现出更强的能力、更高的效率，落地更多场景。未来，我们将持续将AI大模型等先进技术，应用于内部PaaS、SaaS产品，打通AI产业落地全链条，重塑智能时代生产力。让更多开箱即用的AI大模型产品、服务，助力客户实现数智化升级。