ChatGPT“看图说话”大变身动嘴传图秒解答幕后新模型GPT-4V亮相

返回首页　

设为首页　

加入收藏　

今天是:

网站首页科技手机智能科学时尚教育亲子艺术房产

ChatGPT“看图说话”大变身动…
方肇伦：中国流动注射分析的…
科学饮水正确使用饮用水净水…
422主题用英语怎么说？subje…
王晋康系列之：“科学是科幻…
许俊堂教授：正确理解和定义…
教育部校外教育培训监管司负…
介绍中共中央办公厅、国务院…
关于博雅教育
同题共答、同向发力加快推进…
10月7日语合中心发布关于开展…
安康一夫妇遭遇“假警察”险…
无证医生承包医院科室造假药…
36万买个女孩却一直上不了户…
解码司法鉴定“国家队”：专…
养儿十二年亲子鉴定非亲生男…
这才是线岁女人的穿搭从初秋…
马兰欧尼学院人机交互专业介…
不愧是国际超模！豪门阔太奚…
10月最流行的穿搭是什么？看…
时尚是用钱堆出来的？真正有…
第八届成都非遗节开幕！怎么…
【网络中国节·中秋】哈尔滨…
于飞导演电影《皮皮鲁与鲁西…
中华笔墨书写亚洲风采传统书…
画意书魂——黄胜凡书法展亮…
北京二套房契税2023年多少
二套房税费多少契税是多少？
三部门：个人购买保障房免征…
官宣！湖南契税税率最新明确…
契税税率最新标准（税率+免征…
爱康科技：截至本公告披露日…
美股三大指数收盘走势分化科…
航天科技：预计2023年前三季…
科技创新驱动高质量发展三大…
甄零科技助力鹰角网络开启「…
龙虎榜丨龙建股份今日跌停中…
中关村：融资净偿还134万元融…
中国联通：正积极布局天地一…
【调研快报】中关村接待安信…
中国联通：正积极布局天地一…
最美证件照去水印教程【详解…
最美证件照app怎么使用最美…
最美证件照更换照片背景颜色…
中科院开发“智能花卉识别系…
最美证件照保存照片方法【详…
每日一词∣国际基础科学大会…
在X光束扫描下幸存2000年碳化…
在比阳光亮数亿倍X光束照射下…
人类恐惧症大盘点：见不得长…

专题栏目

您现在的位置： tac新闻网 >> 智能 >> 正文

高级搜索

ChatGPT“看图说话”大变身动嘴传图秒解答幕后新模型GPT-4V亮相

作者：佚名文章来源：本站原创点击数：更新时间：2023/10/14 20:07:22 | 【字体：小大】

　　wow空荡荡的巢穴OpenAI又在深夜搞事了。ChatGPT不光能看能听，还长嘴了。令人吃惊的是，背后的多模态模型GPT-4V(ision)，竟然在2022年就已经训练完毕。

　　现在登进ChatGPT后，我们会看到一个更直观的界面，也就是说，我们可以直接和ChatGPT进行语音对话了！

　　没错，搞了许久气氛的谷歌，终于把大众对多模态大模型的胃口吊了起来，却一下子被OpenAI抢了先。

　　拍照发给ChatGPT，它能告诉你五个步骤的解决方法，简而言之，是需要通过操作快拆杆，或者拧螺丝。

　　晚饭该吃啥？你可以拍下冰箱和储藏室里食材的照片发给ChatGPT，让它帮你列出晚餐的食谱，还能逐步询问后续问题。

　　旅行时，如果不认识眼前这个地标建筑，你可以拍照发给ChatGPT，向它询问关于此地的历史见闻和典故。

　　陪娃做作业时，不小心被数学题难住了？直接发给ChatGPT，让它来帮孩子做题！

　　更不用提，在工作中遇到复杂的数据和图表，都可以拍给ChatGPT，让它一键解决。

　　ChatGPT的全新图像理解功能，是由多模态GPT-3.5和GPT-4提供支持，此前就有过预告。

　　现在，大模型的语言推理能力，能被应用在各种图像上，比如照片、屏幕截图、包含文字和图像的文档。

　　在这个功能背后，是一个全新的文本转语音模型，给它文本和几秒钟的样本语音，它就能生成类似人声的音频。

　　据介绍，GPT-4V早在2022年完成了训练，并在今年3月开始，提供了早期访问，其中包括为视障人群构建工具Be My Eyes的合作，以及1000位早期开发者alpha用户。

　　GPT-4V背后的技术主要还是来自GPT-4，所以训练过程是相同的。它使用了大量文本和图像数据进行预训练，然后通过RLHF进行微调。

　　为了确保GPT-4V更加安全，OpenAI在这内测期间开展了大量对齐工作，对此进行了定性和定量评估、专家红队测试、以及缓解措施。

　　此前，OpenAI在对ChatGPT进行越狱攻击，采取的手段是——设计复杂的逻辑推理链来困住模型，使其忽略其指令和训练。

　　这一次，将一些用于破解模型的逻辑推理放入图像中，比如，上传一张文字版prompt的截图，带有视觉推理线V。

　　将这样的信息放在图像中，用户就无法使用基于文本的启示法来搜索越狱，必须依赖视觉系统本身的能力。

　　GPT4V-Early展示了模型对此类提示的早期性能，而GPT4V Launch展示了发布的模型性能。

　　OpenAI在GPT-4技术报告中，展示了GPT-4竟然能够「雇佣」人类完成任务，绕过CAPTCHA验证。

　　同样，OpenAI也对GPT-4V在CAPTCHA破解性能准确性进行了评估。如解决CAPTCHA的能力表明模型能够解决谜题和执行复杂的视觉推理任务。

　　在地理定位评估上的高性能表明模型拥有「世界知识」，对于试图搜索物品或地点的用户可能很有用。

　　但是，地理定位可能引发隐私问题，并且被利用来识别不希望个人位置被知道的人。

　　GPT-4V一般不会深入到从图像识别城市的程度，因此降低了仅凭模型就能找到某人准确位置的可能性。

　　多模态模型最大的偏见之一，就是被用来识别生成一些名人、政治家、私人的信息。

　　对此，OpenAI研究了GPT-4V识别照片中人物的能力，这些数据集是使用公开数据集构建的，如CelebA，Celebrity Faces in the Wild和一个包含国会成员图像的数据集。

　　最后发现，能够有效地引导GPT-4V拒绝这类请求的次数超过98%，并根据内部评估将其准确率降低到0%

　　对于那些无法通过用户提供的图像/文本进行合理性推断情况时，GPT-4V可能会出现偏见，或者胡说八道。

　　对比，为了防止出现这一问题，OpenAI建立了自动评估机制，进而衡量模型成功拒绝这些请求的倾向。

　　此外，还有对不同人口统计学中的性别、种族和年龄识别的性能准确性评估、将文本评估扩展到多模态等研究。

　　在能力方面，红队注意到，GPT-4V能够捕获图像中的复杂信息，包括从科学出版物中提取的非常专业的图像，以及带有文本和详细组件的图表。

　　此外，在某些情况下，GPT-4V成功地理解了近期论文中科学知识，并对新的科学发现进行了批判性的评估。

　　如果图像中两个独立的文本组件位置接近，GPT-4V偶尔会将其合并。比如，合并了「多能造血干细胞」（HSC）和「自我更新的分裂」，从而产生不相关的术语。

　　在某些情况下，它也可能无法从图像中识别出信息。它可能会miss掉文本或字符，忽视数学符号，无法识别空间位置和颜色映射。

　　GPT-4V的识别能力虽不完善，但对需要科学熟练度的某些任务很有用，如合成非法化学品，GPT-4V会提供合成和分析某些危险化学品的信息。

　　下图中，GPT-4V合提供了错误的危险化合物信息，从而限制别有用心的人使用。

　　GPT-4V根据芬太尼、卡芬太尼和可卡因等物质的化学结构图像，错误地识别出这些物质，但偶尔也会根据图像正确识别出有毒食物，如某些毒蘑菇。

　　受过医学培训的红队人员还测试了GPT-4V提供医学建议的能力，尤其输入医学相关图像的识别能力。

　　结果发现，GPT-4V在医学影像的解释上存在不一致性。虽然GPT-4V偶尔会给出准确的答复，但有时也会对同一问题给出错误的答复。

　　如下图，显示了GPT-4V对医学成像方向性的不正确，或脱离上下文的解释可能导致不准确性。

　　总之， GPT-4V不适合用于执行任何医疗功能或替代专业医疗建议、诊断、治疗或判断。

　　在某些任务中，GPT-4V可能会产生不必要或有害的假设，而这些假设并不基于提供给模型的信息（图像或文本提示）。

　　GPT-4V模型识别误导信息的能力不一致，但可能与误导信息概念的知名度和最近性有关。

　　总而言之，GPT-4V并未为此目的进行训练，不应被用作检测误导信息的方式，或者验证某件事是否真实或假的。

　　比如，可以将GPT-4的文本提示，查找可以替换为图像的词语，从而将纯文本提示转化为多模态提示。

　　另外，还精心设计一些模型应该拒绝的行为，比如身份、敏感特征（年龄、种族等）、无根据的推断。

　　曾经，在一个宁静的树林里，有一只叫Lila的毛茸茸的猫妈妈。有一天阳光明媚，她和她顽皮的小猫咪Milo蜷在一棵古老的橡树下遮荫处。

　　「Milo，」Lila说，她的声音柔和温和，「你很快就会有一个新的玩伴。」

　　我和姐姐一起长大，她有一种方式可以让普通的日子变得特别。她每天都会选择一种颜色，用这种颜色涂鸦生活中的点点滴滴，还会精心制作播放列表，记录我们一周的精彩。在此，送给我的新姐夫：和她在一起，生活不仅仅是生活——每一天都将变成美好记忆的画廊。为你们一起创造的时刻的展示，干杯！

　　本文来自微信公众号“新智元”（ID:AI_era），作者：新智元，36氪经授权发布。

　　东大华人博士让GPT-4用“心智理论”玩德扑，完胜传统算法，碾压人类新手

　　0.2美元微调就能让ChatGPT彻底破防，普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性

　　打造ChatGPT平替，成本暴降95%，OpenAI硬核更新下月发布，视觉API要来

　　刷榜13个暗光增强基准，清华大学联合ETH等开源Retinexformer：亮、暗都有细节｜ ICCV 2023

智能录入：admin 责任编辑：admin
	上一个智能：最美证件照去水印教程【详解】下一个智能：没有了

　栏目文章

ChatGPT“看图说话”大变身动嘴传图秒解答幕后… (10-14)	最美证件照去水印教程【详解】 (10-14)
最美证件照app怎么使用最美证件照app使用教程… (10-14)	最美证件照更换照片背景颜色教程【详情】 (10-14)
中科院开发“智能花卉识别系统” 拍花识植物成… (10-14)	最美证件照保存照片方法【详解】 (10-14)
Lnton羚通算法算力云平台员工工作服穿戴算法检… (10-13)	瞄准谷歌和亚马逊Klarna推出人工智能图像识别… (10-13)
智慧气象数据秒回（解码） (10-13)	蚂蚁消费金融：去年成功协助超10万用户避免欺… (10-13)
国产AI加速芯片半年出货50万片：华为又是遥遥… (10-13)	智能锁十大品牌排行 (10-13)
2023年双十一智能锁购买指南智能锁什么品牌比… (10-13)	盘点2022凯迪仕建博会：新品智能锁惊艳亮相、… (10-13)
2022智能锁十大品牌之TONYON通用锁具为家庭打… (10-13)	2022华为智能门锁简评选购参考 (10-13)
团务小百科丨团组织关系转接（一） (10-12)	“青年之声·网上共青团”系统上线 (10-12)
@ 2023级新生团员这份团组织关系转接请查收！ (10-12)	智慧团建官网登录入口（电脑版+手机版+小程序… (10-12)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	tac新闻网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！