多模态交互,感知多维信息
豆包大模型在多模态理解上有着卓越表现。自豆包 1.5 版本起,其多模态能力就在 60 个公开评测基准中斩获 38 项最佳成绩 ,广泛应用于电商识图、自动驾驶数据标注、门店巡检等实际场景。发展到豆包 1.6 版本,更是支持多模态理解与图形界面操作。例如,它能理解和处理真实世界问题,自动操作浏览器完成酒店预订,识别购物小票并整理成 Excel 表格等,让用户在与豆包交互时,可借助文字、图片等多种形式输入信息,豆包也能以更丰富的形式输出结果,打破单一文本交互的局限,为用户带来更直观、多元的体验。