AI技术延续,关键在场景落地

2023-12-13 06:10:59

当下,多模态理解、生成和交互能力正成为大模型新一轮演进的重要方向。多模态指使用多种感觉通道(如视觉、听觉、触觉等)来获取和表达信息;多模态大模型则是指能够同时处理多种模态数据(如图像、语音、文本等)的深度学习模型。

多模态大模型通常由两部分组成:视觉模型和语言模型。视觉模型用于处理图像、视频等视觉数据;语言模型用于处理文本、语音等语言数据。这两部分模型可以通过注意力机制等方式进行交互,从而实现多模态数据的融合和处理。

像百度文心一言、阿里云通义千问、讯飞星火认知大模型、腾讯混元大模型、华为盘古Chat?等国产大语言模型(LLM),都拥有多模态能力,不仅可以处理多种自然语言任务,如问答、对话等,还能把各种感知模态结合起来,执行视觉任务,以更高效、更全面、更综合的方式理解和生成信息,完成复杂任务。例如,用户在通义千问上输入图片发起问题,就能获取相应的文字描述和视觉定位。

AI?在场景落地时,需根据企业自身的产业链角色和应用场景特点,对大模型进行结构微调和算法优化,因此下游应用层面会形成百花齐放的格局,出现更多AI?软硬一体化产品,越来越频繁地与行业应用结合。同时,基于企业对降本增效的考量,以及应用场景的不断增加,人工智能企业应用将呈现阶梯式需求。

作为一种赋能技术,它今天所扮演的角色,其实就像曾经的蒸汽机、电力和互联网那样,既能给人类的生活带来革命性的变化,又必然与政治、经济和科研等场景息息相关。

归根到底,人工智能的最终目的,就是服务于人类生活和社会发展。这就要求它必须与应用场景结合起来,将技术用到实处。

当前,越来越多企业开始争相利用人工智能技术,把AI 能力融入日常办公、客户服务、销售管理、辅助决策等应用场景,通过大模型补充原有的小模型算法或应用功能,提升原有应用的产品能力,解决实际问题,创造更大价值。

文章来源:https://blog.csdn.net/metaboss/article/details/134952966
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。