豆包大模型家族重磅升级：视觉理解模型发布，AI应用再加速！

在AI技术日新月异的今天，各大科技公司都在竞相推出更强大、更智能的AI模型。近日，火山引擎在FORCE原动力大会·冬上，带来了豆包大模型家族的全面升级，其中最引人注目的莫过于全新发布的视觉理解模型。这项技术将如何拓展大模型的应用边界？又将为各行各业带来哪些变革？让我们一起深入了解。

豆包大模型家族重磅升级

火山引擎总裁谭待在大会上表示，豆包大模型自5月发布以来，日均tokens使用量已超过4万亿，较发布之初增长超过33倍。这一惊人的增长速度，不仅表明豆包大模型在市场上的受欢迎程度，也预示着其在不同场景中的巨大潜力。

豆包大模型的快速增长和多场景覆盖，促使其不断迭代升级，并迎来本次重磅升级。

视觉是人类理解世界的重要方式，对于大模型来说，具备视觉理解能力至关重要。火山引擎此次发布的豆包·视觉理解模型，让大模型能够同时理解文本和图像信息，并给出准确的回答。这意味着，用户可以像与人交流一样，向大模型提出关于图片的问题，而不仅仅是文字。

功能亮点：

例如，在教育场景中，视觉理解模型可以帮助学生优化作文，科普知识；在旅游场景中，可以帮助游客看外文菜单，讲解照片中建筑的背景知识；在电商营销场景中，可以帮助商家充分描述商品细节，高效发布种草广告。

更令人惊喜的是，豆包·视觉理解模型的输入价格非常亲民，每千tokens仅需0.003元，比行业平均价格降低了85%。这意味着，一块钱就可以处理284张720P的图片，让视觉理解模型真正走进“厘时代”。

此外，火山引擎还为企业和开发者提供了更高的初始流量，RPM达到15,000次，TPM达到120万，让用户可以更好地使用视觉理解模型，探索更多创新场景。

除了视觉理解模型，豆包大模型家族的其他成员也进行了升级。豆包通用模型Pro新版本在综合任务处理能力上较5月份提升了32%，在推理、指令遵循、代码、数学、专业知识等领域也分别有显著提升。

这些提升不仅增强了豆包大模型的综合实力，也为其在各行业的应用提供了更强大的支持。

此外，豆包·视频生成模型将在2025年1月正式对外开放服务，用户可在火山引擎官网预约正式服务。这项技术将进一步拓展大模型在内容创作领域的应用，为用户带来更多可能性。

火山引擎不仅提供了强大的大模型，还提供了AI应用开发平台，包括火山方舟、扣子平台以及HiAgent等，让大模型能够更好地在企业中落地。这些平台持续升级，加速了大模型的应用落地，为企业和开发者提供了高效的工具。

为了帮助企业应对信息获取和搜索推荐的挑战，火山引擎推出了全域AI搜索，通过场景化搜索推荐一体化服务、企业私域信息整合服务、联网问答服务，将企业的信息、业务和用户需求紧密结合，帮助企业实现“发现更多，推荐更准，搜索无限可能”。

记忆对大模型来说非常重要，是其必备的能力。火山引擎融合了更好的上下文缓存技术和RAG技术，发布大模型记忆方案，通过更快的响应速度、更低的使用成本、更精准的效果、以及亿级别的记忆片段，帮助客户构建更有效的记忆方案。

豆包大模型的落地加速，为各行各业带来了更多机遇。在汽车领域，豆包大模型已服务国内市场近八成汽车品牌，稳坐汽车行业大模型服务商第一梯队。在智能终端领域，豆包大模型服务了终端行业客户50+AI应用场景，覆盖超过了3亿个终端设备。

火山引擎将持续提升模型能力，优化模型服务，推动AI在各行业的深度融合与创新应用。更强模型、更低价格、更易落地的豆包大模型，将助力开启更智能、高效、便捷的AI未来。