发布日期:2025-12-10 08:44 点击次数:58
智东西
智东西12月9日报说念,昨晚,智谱开源了其GLM-4.6V系列多模态大模子,包括面向云表与高性能集群场景的基础版GLM-4.6V(106B-A12B)以及面向土产货部署与低延伸应用的轻量版GLM-4.6V-Flash(9B)。
此外,今天上昼,智谱还开源了大模子交互智能体AutoGLM,访佛于“豆包手机助手”,该智能体在前年10月发布之时曾被业内视为“宇宙首个具备手机操作智力的AI Agent”。

▲GLM-4.6V开源主页(图源:Hugging Face)

▲AutoGLM开源主页(图源:Hugging Face)
据官方先容,GLM-4.6V大要完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长高下文的文档与视频领略等任务,智东西第一时辰对其进行了体验。
在骨子体验中,GLM-4.6V的图像搜索、全网比价以及长文本和视频的领略智力推崇较为自若,其生成笔墨和网页的速率快、内容准。但图文混排智力上,其所生成的图片一直无法裸露。关于暧昧提示,GLM-4.6V的领略有几许偏差。
GLM-4.6V系列模子将检修时高下文窗口进步到128k tokens,其初度在模子架构中将Function Call(器用调用)智力原生融入视觉模子。
在性能上,在同等参数鸿沟下,GLM-4.6V系列模子在多模态交互、逻辑推理和长高下文等重要智力上得到SOTA推崇。
其中,9B版块的GLM-4.6V-Flash在粉饰了通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位智力的34项测试中,有22项的分数进步Qwen3-VL-8B,106B参数12B激活的GLM-4.6V推崇则与有着2倍参数目的Qwen3-VL-235B贯串近。

▲GLM-4.6V系列模子基准测试(图源:z.ai/blog/glm-4.6v)
价钱上,GLM-4.6V系列相较于GLM-4.5V降价50%,API调用价钱低至输入1元/百万tokens,输出3元/百万tokens,GLM-4.6V-Flash全面免费。

▲GLM-4.6V系列模子价钱表(图源:智谱AI)
GLM-4.6V开源地址:
GitHub:
https://github.com/zai-org/GLM-V
Hugging Face:
https://huggingface.co/collections/zai-org/glm-46v
魔搭社区:
https://modelscope.cn/collections/GLM-46V-37fabc27818446
GLM-4.6V体验地址:
https://chat.z.ai/
一、智能图文混排:可生成推文大纲,但无法裸露图片领先是智能图文混排与内容创作智力,GLM-4.6V构建了原生多模态器用调用智力,不错班师领略图像、截图、文档页面等多模态数据,无需先转为笔墨形色再理会。
咱们上传了GLM-4.5V的工夫叙述,条目其生成一篇图文并茂的微信公众号著述。简陋1-2分钟,GLM-4.6V就完成了对系数文档的阅读和领略,输出了包含标题、导语、五个章节以及结语的完满公众号著述,但进程屡次尝试,其依旧无法裸闪现图片。

▲智能图文混排
二、识图购物与导购:自动比价一气呵成,但暧昧搜索领略不到位为了体验GLM-4.6V识图购物与导购功能,咱们班师输入“帮我搜索面前iPhone 17 Pro Max在各平台的价钱。”
GLM-4.6V会自动调用关联器用在全网中搜索,况且酿成商品名、平台、品牌、商品图、商品聚首以及店铺名的比价表格,班师点击聚首即可跳转到购买页面。
▲商品比价
咱们还不错班师让GLM-4.6V搜索《跋扈动物城2》中尼克狐尼克的同款眼镜,其通过图像搜索功能班师搜索出了其同款眼镜的实拍图。

▲暧昧搜索导购
三、网页复刻:一张图丝滑生成网页代码,但图标更换分别咱们上传了一张X平台的登录页面截图,条目用户GLM-4.6V生成HTML代码和网页预览。

▲截图生成网页代码

▲生成网页预览
收到提示后,GLM-4.6V就坐窝运行逐行生成HTML代码,并裸闪现预览页面。不错看出,其生成的“仿X”登录网页与原网页险些一模雷同。此外,GLM-4.6V还复旧多轮视觉交互,班师阐发终端用当然言语提示修改网页的颜色、更变按钮位置等。
比如,咱们在上一轮输出的基础上,条目其将网页主题色改为天蓝色,图标X改为Z,但还保抓原格调。不错看到,针对修改主题色的条目,GLM-4.6V完成的很完善,但关于图标X改为Z的提示,其误生成了一个“进取箭头”时势。

▲修改网页元素
四、长高下文的文档领略:可同期处理多篇中英文论文,长文档领略准确GLM-4.6V将视觉编码器与言语模子的高下文对皆智力进步至128k,在骨子应用中,128k高下文约就是150页的文档、200页PPT或一小时视频。
为考据其长高下文的文档领略智力,咱们班师甩给GLM-4.6V三篇网罗平台贬责鸿沟的论文,其中有两篇中语文件和一篇英文文件,让其阅读以上论文,并生成一篇学习札记。

▲生成论文体习札记
从GLM-4.6V生成的效果来看,图片依旧莫得裸闪现来,但笔墨部老实容澈底,逻辑昭彰,将每篇文件中的中枢不雅点和论断都昭彰地胪列了出来,英文文件处理也莫得错漏。
五、视频领略:能快速理会视频内容和拍摄手段,但视频大小有死一火临了,GLM-4.6V还不错领略长视频内容,用户不错上传一部200M以内的MP4影片,条目其分析视频的拍摄手法和内容、结构等。
比如,咱们上传了一段6分48秒的视频制作手段共享视频,想要其转头一下视频的念念路和内容,并给一些作念照相类自媒体的提议。

▲视频内容领略(高下滑动稽查完满图片)
GLM-4.6V在几秒钟之内就给出了包含视频念念路、叙事手段、镜头哄骗和斥地选择等的完满详解,况且给出了交替渐进的四条成为照相博主的提议,回话准确且昭彰完满。
结语:GLM-4.6V镌汰了视觉模子接初学槛从骨子体验来说,GLM-4.6V在正常职责上依然能帮不少忙,但生奏效果还不太自若,生成公众号著述时图片出不来、改网页细节时仍会有纰谬,但其价钱降到了上一个版块的一半,轻量版还免费,关于想尝试多模态AI的个东说念主或小团队来说,门槛照实镌汰了不少。
在现时各家AI智力越来越接近的情况下,谁能把体验作念得更顺畅、资本更低,谁就可能眩惑更多开发者。
在官方推文中,智谱团队写到本周是其开源发布周,将会有更多效果开源,值得期待。