火山引擎总裁谭待:AI对话很基础,视觉能解锁更多复杂任务

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

栏目分类火山引擎总裁谭待:AI对话很基础,视觉能解锁更多复杂任务

你的位置:经济观察网 > 产业经济 >

火山引擎总裁谭待:AI对话很基础,视觉能解锁更多复杂任务

发布日期:2024-12-19 10:52    点击次数:93

(原标题:火山引擎总裁谭待:AI对话很基础,视觉能解锁更多复杂任务)

图片开端:企业官方

蓝鲸新闻12月19日讯(记者 朱俊熹)字节高出再卷AI模子价钱。在12月18日举办的火山引擎Force大会上,字节高出认真发布豆包视觉斡旋模子,输入价钱为0.003元/千tokens。继通用大模子后,多模态模子也由以分计价迈入以厘计价的阶段。

据字节旗下云劳动平台火山引擎先容,豆包视觉斡旋模子的订价比行业价钱低85%,尽头于一元钱就不错处置284张720P的图片。与国表里其他具备多模态才智的大模子比拟,OpenAI GPT-4o的输入价钱为0.0175元/千tokens,Anthropic的Claude 3.5 Sonnet订价为0.021元/千tokens,阿里Qwen-Vl-Max为0.02元/千tokens。

本年5月,字节高出在认真对外发布豆包大模子时,就曾因订价比同业低99.3%而掀翻海潮。阿里云、百度、腾讯等头部厂商很快紧随后来,纷纷晓示跟进降价,燃起了国内大模子价钱战。在廉价的驱动下,大模子的运用也初始加快。火山引擎数据夸耀,限度现在,豆包通用模子的日均tokens使用量已高出4万亿,较初度发布时增长了33倍。

火山引擎总裁谭待在继承媒体群访时提到,跟着模子资本大幅缩小、遵循得到进步,近半年来阛阓上关于模子使用的响应才多了起来,初始更关切模子调用量、token数。他在演讲时示意,“咱们但愿用一个合理的、可不时的,枢纽是一步到位的价钱,让企业和开发者不错省心果敢地去使用,去作念多模态。”

新推出的豆包视觉斡旋模子大概精确识别视觉本色,同期具备斡旋和推理、视觉描摹等才智。在现场示例中,该模子不错识别动物的影子详细、杂志内页的星云、体检陈诉的某项具体缠绵。其运用场景可能包括西宾方面的判卷带领、作文转变,或旅游、电商营销等范围。

谭待称,字节高出在类o1的推理模子范围雷同有所布局。在解答数学、物理、代码问题上,豆包视觉斡旋模子已具备此类才智的雏形。齐备版推理模子会在进一步完善后推出,“不会太久”。

除字节外,国内也有大模子公司在视觉标的取得新进展。12月16日,独角兽月之暗面发布视觉想考模子k1,主推既能通过视觉精确识别,又能散布推盼愿考,在数学、物理、化学等评测中推崇开拔点。上周,私募巨头幻方量化旗下的AI公司DeepSeek开源全新视觉模子VL2。该公司称,视觉是东说念主类获取外界信息的主要开端,在大模子方面的进展却远远过期于谈话模子,进步模子视觉才智的意象更在于全地点进步其感知和贯通才智。

在这次火山引擎行径中,字节高出还发布了豆包3D生成模子,多款产物迎来更新。其中,豆包通用模子pro已全面临王人GPT-4o,使用价钱为后者的1/8。音乐模子的维持时长从60秒升级至3分钟,文生图模子2.1版块大概已矣精确生成汉字、一句话P图等产物化才智。字节瞻望,来岁春季将推出具备更长视频生成才智的豆包视频生成模1.5版,并很快上线端到端及时语音模子。

谈及对大模子改日落地场景的判断时,谭待称AI对话是一个通用的场景,但大模子在坐蓐力、买卖化场景中的增速并不慢。以近3个月为例,豆包大模子在信息处置场景的调用量增长了39倍,客服与销售场景增长16倍。“聊天功能是一个很基础的功能,得加上深度推理、视觉斡旋等功能才能处置更复杂的任务。而这才是模子之后发展空间越来越大的前提,视觉对大模子的调用量和场景会带来很大的匡助。”谭待示意。

在谭待看来,阛阓仍处于早期,比起竞争会更关注用户对复杂谈话场景、视觉等方面的需求。与互联网时期C端先于B端崛起不同,大模子的这两个方面并不是割裂的,其背后都基于雷同的模子才智。因此,字节对大模子的判断是To B和To C王人头并进。

对火山引擎这一双外怒放字节工夫器具的云厂商而言,AI成为了新的增长契机。谭待示意,拉升火山引擎阛阓份额的枢纽在于两点。一是范围上风,作念到范围大、弹性高、资本低廉,企业会自关连词然地挪动过来或作出遴荐。而火山引擎的上风是从初期起,就将字节旗下抖音、当天头条的里面范围与外部范围统沿途来开导。其次,要把执住AI大模子这一工夫变革,通过豆包赢得更多关注和新的协作契机。

谭待并未表露云收入受大模子带动的具体数据,仅对使用大模子的客户数目、使用进度给以了笃定的评价。“从云原生到AI云原生,火山但愿作念成这块的领军企业。”他示意。