TextSquare 是由字节跳动、华东师范大学和华中科技大学的研究人员联合开发的一款具有8B参数量的文字多模态大模型(MLLM)。该模型在文本中心的视觉问答(VQA)领域取得了显著进展,其性能指标逼近了业界领先的 GPT4V。
工具简介和背景
随着多模态大模型在 VQA 领域的快速发展,闭源模型如 GPT4V 和 Gemini 展现了超越人类的能力。然而,开源模型的性能仍然落后。为了缩小这一差距,研究人员提出了 Square 策略,通过从先进的闭源 MLLMs 中获取高质量的 VQA 数据,构建了千万级指令微调数据集 Square-10M。
主要功能和产品特色
- 大规模指令微调数据集:Square-10M 数据集包含380万张富文本图像,涵盖自然场景、图表、表单等多种场景。
- 四步生成策略:包括自问(Self-Questioning)、自答(Self-Answering)、推理(Self-Reasoning)和评估(Self-Evaluation)。
- 减少幻觉:通过自我评估和推理数据,TextSquare 能够减少幻觉内容,提升模型性能。
- 性能提升:TextSquare-8B 在多个基准测试上超越了 GPT4V,显示出强大的性能。
需求人群
- AI 研究者:对多模态学习和视觉问答领域感兴趣的研究者。
- 数据科学家:需要处理和分析大量文本图像数据的专业人士。
- 软件开发者:开发包含视觉问答功能的应用程序。
使用场景示例
- 智能助手:在智能助手中集成 TextSquare,提供基于图像和文本的视觉问答服务。
- 教育应用:用于教育软件,帮助学生理解复杂图表和文档。
- 自动化分析:在商业智能和市场分析中自动解释图表和报告。
官方资源: