书生通用大模型

93次阅读

书生通用大模型

书生通用大模型官网

上海书生通用大模型，人工智能实验室，开放世界理解、跨模态生成、多模态交互
网站服务：书生通用大模型，别摸鱼导航。

上海书生通用大模型官网，人工智能实验室，开放世界理解、跨模态生成、多模态交互

书生通用大模型简介

如同人类的“五感”互相连通密不可分，人工智能的视觉、语言、音频等模态间的边界日渐融合，随着人工智能感知、交互和生成能力的快速发展，多模态大模型正推动人工智能迈进“通感”时代。上海人工智能实验室（上海AI实验室、于近日发布书生通用大模型体系，其中，书生多模态大模型（以下简称“书生·多模态”；InternLMM，Intern Large Multimodal Model、是具备真实世界理解能力，可实现跨模态生成与交互的大模型。书生·多模态包含200亿参数，由80亿海量多模态样本训练而成，支持350万语义标签的识别和理解，覆盖开放世界常见的类别和概念，在80余种多模态与视觉任务中性能国际领先。
书生通用大模型官网: https://intern-ai.org.cn/home

主要功能

目前，书生·多模态具备开放世界理解、跨模态生成、多模态交互三大核心能力。

在多项多模态和视觉任务上达到世界顶尖水平
核心能力一：开放世界理解 在人工智能的研究中，“开放世界”指非预设、非学术集或封闭集定义的真实世界。传统研究中，人工智能仅能完成预定义任务，即学术集或封闭集定义的任务，然而这种任务范围与真实的开放世界存在很大差距。例如，ImageNet-1K学术集包含1000种物体，其中约有2种花、48种鸟和21种鱼；而在真实世界中，花鸟鱼的种类数量分别约为45万、1万和2万。在开放世界中，书生·多模态正通过不断学习，获得更接近人类的感知和认知能力。在语义开放方面，书生·多模态可以识别和理解开放世界中超过350万种语义，覆盖日常生活中常见的物体类别、物体动作和光学字符等。书生·多模态完成了从解决预定义任务到执行开放任务的蜕变，为未来多模态AGI模型研究提供了有力的支持。在任务开放方面，书生·多模态可以将图像视为一种新的语言，用户可利用自然语言指令，灵活定义和管理任意视觉任务。该大模型同时拥有多种级别的自定义视觉感知、理解和逻辑推理能力，能力范围覆盖目标对象、输出格式、任务内容等模块。
核心能力二：跨模态生成 通过联合学习，书生·多模态可实现模态间的相互转换。研究人员尝试让书生·多模态根据张大千的《湖山清夏图》创作七言绝句。验证结果表明，经过联合学习，书生·多模态已经具备了较好的由图像到文本的跨模态生成能力，并且已经拥有了相当深厚的中国文化积累。生成文本的同时，书生·多模态还给出了创作思路：根据图片确定描绘的是山水清幽的自然景色画面；从画面中寻找能够表达出诗人思想情感的元素，如山峰高耸、云雾缭绕、松涛入画；根据元素构思出诗句；最后根据诗句的韵律和格律进行完善。书生·多模态还特别描述了第四句的灵感：借鉴了唐代诗人韦庄的名句“春水碧于天，画船听雨眠”。书生·多模态根据张大千的《湖山清夏图》创作的七言绝句
核心能力三：多模态交互 书生·多模态继承在上一代书生在常规预定义视觉任务上性能的同时，还创新了人机交互的方式，用户通过光标点击、聊天等方式，即可精准传达指令。书生·多模态降低了AI任务的门槛，使AI成为万千大众都能使用的生产工具。多模态理解、生成和交互能力正成为大模型新一轮演化的重要方向。面向未来，书生·多模态将持续通过原始创新提升模型能力，通过开源开放赋能创新生态，让大模型更好服务于人。

书生通用大模型网址入口

https://intern-ai.org.cn/home

小编发现书生通用大模型网站非常受用户欢迎，请访问书生通用大模型网址入口试用。