免登录 Gemini 多模态能力实测:图片 / 表格 / 文档解析

3 阅读5分钟

多模态能力是 Gemini 的核心优势之一,它能够理解和处理图片、表格、文档等多种形式的信息,这是很多其他 AI 工具所不具备的。对于免登录版 Gemini,很多用户都关心它的多模态能力是否完整,实际使用效果如何。dd.zzmax.cn通过大量的实测,为大家全面解析免登录版 Gemini 在图片识别、表格解析和文档处理方面的实际表现。

首先是图片识别能力的实测。免登录版 Gemini 支持上传 JPG、PNG、GIF 等常见格式的图片,最大支持上传 10MB 的图片文件。我们选取了不同类型的图片进行测试,包括文字图片、表格图片、图表图片、实物图片和场景图片。

测试结果显示,免登录版 Gemini 的文字识别能力非常出色。对于打印清晰的文字图片,识别准确率达到 98% 以上,能够准确识别中文、英文、数字和符号,并且能够保留原始的排版格式。对于手写文字图片,如果书写比较工整,识别准确率也能达到 80% 以上。对于一些字体较小、光线较暗或有轻微模糊的图片,也能获得不错的识别效果。

表格解析能力是免登录版 Gemini 的一大亮点。它不仅能够识别表格中的文字和数字,还能够理解表格的结构,区分表头、数据行和总计行,准确识别合并单元格的范围,并将结果转换为 Markdown 表格格式。我们测试了不同复杂程度的表格,包括标准有线表格、无框表格、合并单元格表格和嵌套表格。对于标准有线表格和简单的合并单元格表格,解析准确率达到 95% 以上,输出的 Markdown 表格可以直接复制到 Excel 或 Word 中使用,几乎不需要进行人工调整。对于复杂的嵌套表格,解析准确率也能达到 85% 左右,只需要进行少量的人工修正。

图表识别能力也表现不俗。免登录版 Gemini 能够识别柱状图、折线图、饼图、散点图等常见的图表类型,提取图表中的数据,并进行分析和解释。例如,上传一张公司年度营收柱状图,它能够准确提取每个季度的营收数据,计算同比增长率,并分析营收变化趋势。对于一些数据标注清晰的图表,分析结果非常准确,能够为数据分析提供有力的支持。

实物识别和场景理解能力也比较出色。它能够准确识别图片中的物体,说出物体的名称、特征和用途。对于场景图片,它能够描述场景中的内容、人物活动和环境氛围。例如,上传一张旅游景点的照片,它能够识别出景点的名称、地理位置和主要特色;上传一张美食图片,它能够说出菜品的名称、主要食材和口味特点。

接下来是文档处理能力的实测。需要注意的是,免登录版 Gemini 不支持直接上传 PDF、Word 等文档文件,只能通过截图的方式上传文档内容。对于单页文档,截图上传后,Gemini 能够准确识别文档中的文字和表格,提取关键信息。对于多页文档,可以逐页截图上传,然后让 Gemini 将所有页面的内容整合起来。

我们测试了一份 10 页的技术文档,逐页截图上传后,Gemini 能够准确提取文档中的核心内容,整理成一份清晰的摘要,并回答关于文档内容的问题。虽然这种方式比直接上传文档要麻烦一些,但对于处理篇幅不是很长的文档来说,还是比较实用的。

在实测过程中,我们也发现了一些免登录版 Gemini 多模态能力的局限性。首先,不支持直接上传文档文件,处理多页文档时效率较低。其次,对于一些非常复杂的表格和图表,解析准确率会有所下降,需要进行人工修正。第三,图片上传大小限制为 10MB,无法上传大尺寸的高清图片。第四,不支持视频和音频文件的识别和处理。

尽管存在这些局限性,免登录版 Gemini 的多模态能力仍然非常强大,能够满足大多数日常使用需求。无论是识别图片中的文字、解析表格数据、分析图表内容,还是理解实物和场景,都表现出色。对于学生、职场人士和开发者来说,都是一个非常实用的工具。

总的来说,免登录版 Gemini 的多模态能力基本完整,实际使用效果令人满意。虽然与登录版相比存在一些功能限制,但对于大多数用户来说已经足够用了。dd.zzmax.cn会持续测试 Gemini 的多模态能力,为大家带来更多的实测结果和使用技巧。