免费

TextSquare-字节、华师、华科联合提出的8B参数量多模态大模型

  • 2024年 4月 27日
  • 阅读数:1609

TextSquare 是由字节跳动华东师范大学华中科技大学的研究人员联合开发的一款具有8B参数量的文字多模态大模型MLLM)。该模型在文本中心的视觉问答VQA)领域取得了显著进展,其性能指标逼近了业界领先的 GPT4V。

工具简介和背景

随着多模态大模型在 VQA 领域的快速发展,闭源模型如 GPT4V 和 Gemini 展现了超越人类的能力。然而,开源模型的性能仍然落后。为了缩小这一差距,研究人员提出了 Square 策略,通过从先进的闭源 MLLMs 中获取高质量的 VQA 数据,构建了千万级指令微调数据集 Square-10M。

主要功能和产品特色

  • 大规模指令微调数据集:Square-10M 数据集包含380万张富文本图像,涵盖自然场景、图表、表单等多种场景。
  • 四步生成策略:包括自问(Self-Questioning)、自答(Self-Answering)、推理(Self-Reasoning)和评估(Self-Evaluation)。
  • 减少幻觉:通过自我评估和推理数据,TextSquare 能够减少幻觉内容,提升模型性能。
  • 性能提升:TextSquare-8B 在多个基准测试上超越了 GPT4V,显示出强大的性能。

需求人群

  • AI 研究者:对多模态学习和视觉问答领域感兴趣的研究者。
  • 数据科学家:需要处理和分析大量文本图像数据的专业人士。
  • 软件开发者:开发包含视觉问答功能的应用程序。

使用场景示例

  • 智能助手:在智能助手中集成 TextSquare,提供基于图像和文本的视觉问答服务。
  • 教育应用:用于教育软件,帮助学生理解复杂图表和文档。
  • 自动化分析:在商业智能和市场分析中自动解释图表和报告。

官方资源: