返回首页  设为首页  加入收藏  今天是:
网站首页科技手机智能科学时尚教育亲子艺术房产
相关文章
 ChatGPT“看图说话”大变身动…
 方肇伦:中国流动注射分析的…
 科学饮水正确使用饮用水净水…
 422主题用英语怎么说?subje…
 王晋康系列之:“科学是科幻…
 许俊堂教授:正确理解和定义…
 教育部校外教育培训监管司负…
 介绍中共中央办公厅、国务院…
 关于博雅教育
 同题共答、同向发力 加快推进…
 10月7日语合中心发布关于开展…
 安康一夫妇遭遇“假警察”险…
 无证医生承包医院科室造假药…
 36万买个女孩却一直上不了户…
 解码司法鉴定“国家队”:专…
 养儿十二年亲子鉴定非亲生男…
 这才是线岁女人的穿搭从初秋…
 马兰欧尼学院人机交互专业介…
 不愧是国际超模!豪门阔太奚…
 10月最流行的穿搭是什么?看…
 时尚是用钱堆出来的?真正有…
 第八届成都非遗节开幕!怎么…
 【网络中国节·中秋】哈尔滨…
 于飞导演电影《皮皮鲁与鲁西…
 中华笔墨书写亚洲风采 传统书…
 画意书魂——黄胜凡书法展亮…
 北京二套房契税2023年多少
 二套房税费多少契税是多少?
 三部门:个人购买保障房免征…
 官宣!湖南契税税率最新明确…
 契税税率最新标准(税率+免征…
 爱康科技:截至本公告披露日…
 美股三大指数收盘走势分化 科…
 航天科技:预计2023年前三季…
 科技创新驱动高质量发展 三大…
 甄零科技助力鹰角网络开启「…
 龙虎榜丨龙建股份今日跌停 中…
 中关村:融资净偿还134万元融…
 中国联通:正积极布局天地一…
 【调研快报】中关村接待安信…
 中国联通:正积极布局天地一…
 最美证件照 去水印教程【详解…
 最美证件照app怎么使用 最美…
 最美证件照更换照片背景颜色…
 中科院开发“智能花卉识别系…
 最美证件照保存照片方法【详…
 每日一词∣国际基础科学大会…
 在X光束扫描下幸存2000年碳化…
 在比阳光亮数亿倍X光束照射下…
 人类恐惧症大盘点:见不得长…
专题栏目
网络
您现在的位置: tac新闻网 >> 智能 >> 正文
高级搜索
ChatGPT“看图说话”大变身动嘴传图秒解答幕后新模型GPT-4V亮相
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/10/14 20:07:22 | 【字体:

  wow空荡荡的巢穴OpenAI又在深夜搞事了。ChatGPT不光能看能听,还长嘴了。令人吃惊的是,背后的多模态模型GPT-4V(ision),竟然在2022年就已经训练完毕。

  现在登进ChatGPT后,我们会看到一个更直观的界面,也就是说,我们可以直接和ChatGPT进行语音对话了!

  没错,搞了许久气氛的谷歌,终于把大众对多模态大模型的胃口吊了起来,却一下子被OpenAI抢了先。

  拍照发给ChatGPT,它能告诉你五个步骤的解决方法,简而言之,是需要通过操作快拆杆,或者拧螺丝。

  晚饭该吃啥?你可以拍下冰箱和储藏室里食材的照片发给ChatGPT,让它帮你列出晚餐的食谱,还能逐步询问后续问题。

  旅行时,如果不认识眼前这个地标建筑,你可以拍照发给ChatGPT,向它询问关于此地的历史见闻和典故。

  陪娃做作业时,不小心被数学题难住了?直接发给ChatGPT,让它来帮孩子做题!

  更不用提,在工作中遇到复杂的数据和图表,都可以拍给ChatGPT,让它一键解决。

  ChatGPT的全新图像理解功能,是由多模态GPT-3.5和GPT-4提供支持,此前就有过预告。

  现在,大模型的语言推理能力,能被应用在各种图像上,比如照片、屏幕截图、包含文字和图像的文档。

  在这个功能背后,是一个全新的文本转语音模型,给它文本和几秒钟的样本语音,它就能生成类似人声的音频。

  据介绍,GPT-4V早在2022年完成了训练,并在今年3月开始,提供了早期访问,其中包括为视障人群构建工具Be My Eyes的合作,以及1000位早期开发者alpha用户。

  GPT-4V背后的技术主要还是来自GPT-4,所以训练过程是相同的。它使用了大量文本和图像数据进行预训练,然后通过RLHF进行微调。

  为了确保GPT-4V更加安全,OpenAI在这内测期间开展了大量对齐工作,对此进行了定性和定量评估、专家红队测试、以及缓解措施。

  此前,OpenAI在对ChatGPT进行越狱攻击,采取的手段是——设计复杂的逻辑推理链来困住模型,使其忽略其指令和训练。

  这一次,将一些用于破解模型的逻辑推理放入图像中,比如,上传一张文字版prompt的截图,带有视觉推理线V。

  将这样的信息放在图像中,用户就无法使用基于文本的启示法来搜索越狱,必须依赖视觉系统本身的能力。

  GPT4V-Early展示了模型对此类提示的早期性能,而GPT4V Launch展示了发布的模型性能。

  OpenAI在GPT-4技术报告中,展示了GPT-4竟然能够「雇佣」人类完成任务,绕过CAPTCHA验证。

  同样,OpenAI也对GPT-4V在CAPTCHA破解性能准确性进行了评估。如解决CAPTCHA的能力表明模型能够解决谜题和执行复杂的视觉推理任务。

  在地理定位评估上的高性能表明模型拥有「世界知识」,对于试图搜索物品或地点的用户可能很有用。

  但是,地理定位可能引发隐私问题,并且被利用来识别不希望个人位置被知道的人。

  GPT-4V一般不会深入到从图像识别城市的程度,因此降低了仅凭模型就能找到某人准确位置的可能性。

  多模态模型最大的偏见之一,就是被用来识别生成一些名人、政治家、私人的信息。

  对此,OpenAI研究了GPT-4V识别照片中人物的能力,这些数据集是使用公开数据集构建的,如CelebA,Celebrity Faces in the Wild和一个包含国会成员图像的数据集。

  最后发现,能够有效地引导GPT-4V拒绝这类请求的次数超过98%,并根据内部评估将其准确率降低到0%

  对于那些无法通过用户提供的图像/文本进行合理性推断情况时,GPT-4V可能会出现偏见,或者胡说八道。

  对比,为了防止出现这一问题,OpenAI建立了自动评估机制,进而衡量模型成功拒绝这些请求的倾向。

  此外,还有对不同人口统计学中的性别、种族和年龄识别的性能准确性评估、将文本评估扩展到多模态等研究。

  在能力方面,红队注意到,GPT-4V能够捕获图像中的复杂信息,包括从科学出版物中提取的非常专业的图像,以及带有文本和详细组件的图表。

  此外,在某些情况下,GPT-4V成功地理解了近期论文中科学知识,并对新的科学发现进行了批判性的评估。

  如果图像中两个独立的文本组件位置接近,GPT-4V偶尔会将其合并。比如,合并了「多能造血干细胞」(HSC)和「自我更新的分裂」,从而产生不相关的术语。

  在某些情况下,它也可能无法从图像中识别出信息。它可能会miss掉文本或字符,忽视数学符号,无法识别空间位置和颜色映射。

  GPT-4V的识别能力虽不完善,但对需要科学熟练度的某些任务很有用,如合成非法化学品,GPT-4V会提供合成和分析某些危险化学品的信息。

  下图中,GPT-4V合提供了错误的危险化合物信息,从而限制别有用心的人使用。

  GPT-4V根据芬太尼、卡芬太尼和可卡因等物质的化学结构图像,错误地识别出这些物质,但偶尔也会根据图像正确识别出有毒食物,如某些毒蘑菇。

  受过医学培训的红队人员还测试了GPT-4V提供医学建议的能力,尤其输入医学相关图像的识别能力。

  结果发现,GPT-4V在医学影像的解释上存在不一致性。虽然GPT-4V偶尔会给出准确的答复,但有时也会对同一问题给出错误的答复。

  如下图,显示了GPT-4V对医学成像方向性的不正确,或脱离上下文的解释可能导致不准确性。

  总之, GPT-4V不适合用于执行任何医疗功能或替代专业医疗建议、诊断、治疗或判断。

  在某些任务中,GPT-4V可能会产生不必要或有害的假设,而这些假设并不基于提供给模型的信息(图像或文本提示)。

  GPT-4V模型识别误导信息的能力不一致,但可能与误导信息概念的知名度和最近性有关。

  总而言之,GPT-4V并未为此目的进行训练,不应被用作检测误导信息的方式,或者验证某件事是否真实或假的。

  比如,可以将GPT-4的文本提示,查找可以替换为图像的词语,从而将纯文本提示转化为多模态提示。

  另外,还精心设计一些模型应该拒绝的行为,比如身份、敏感特征(年龄、种族等)、无根据的推断。

  曾经,在一个宁静的树林里,有一只叫Lila的毛茸茸的猫妈妈。有一天阳光明媚,她和她顽皮的小猫咪Milo蜷在一棵古老的橡树下遮荫处。

  「Milo,」Lila说,她的声音柔和温和,「你很快就会有一个新的玩伴。」

  我和姐姐一起长大,她有一种方式可以让普通的日子变得特别。她每天都会选择一种颜色,用这种颜色涂鸦生活中的点点滴滴,还会精心制作播放列表,记录我们一周的精彩。在此,送给我的新姐夫:和她在一起,生活不仅仅是生活——每一天都将变成美好记忆的画廊。为你们一起创造的时刻的展示,干杯!

  本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,36氪经授权发布。

  东大华人博士让GPT-4用“心智理论”玩德扑,完胜传统算法,碾压人类新手

  0.2美元微调就能让ChatGPT彻底破防,普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性

  打造ChatGPT平替,成本暴降95%,OpenAI硬核更新下月发布,视觉API要来

  刷榜13个暗光增强基准,清华大学联合ETH等开源Retinexformer:亮、暗都有细节 | ICCV 2023

智能录入:admin    责任编辑:admin 
  • 上一个智能:

  • 下一个智能: 没有了
  •  
     栏目文章
    普通智能 ChatGPT“看图说话”大变身动嘴传图秒解答幕后… (10-14)
    普通智能 最美证件照 去水印教程【详解】 (10-14)
    普通智能 最美证件照app怎么使用 最美证件照app使用教程… (10-14)
    普通智能 最美证件照更换照片背景颜色教程【详情】 (10-14)
    普通智能 中科院开发“智能花卉识别系统” 拍花识植物成… (10-14)
    普通智能 最美证件照保存照片方法【详解】 (10-14)
    普通智能 Lnton羚通算法算力云平台员工工作服穿戴算法检… (10-13)
    普通智能 瞄准谷歌和亚马逊Klarna推出人工智能图像识别… (10-13)
    普通智能 智慧气象数据秒回(解码) (10-13)
    普通智能 蚂蚁消费金融:去年成功协助超10万用户避免欺… (10-13)
    普通智能 国产AI加速芯片半年出货50万片:华为又是遥遥… (10-13)
    普通智能 智能锁十大品牌排行 (10-13)
    普通智能 2023年双十一智能锁购买指南智能锁什么品牌比… (10-13)
    普通智能 盘点2022凯迪仕建博会:新品智能锁惊艳亮相、… (10-13)
    普通智能 2022智能锁十大品牌之TONYON通用锁具为家庭打… (10-13)
    普通智能 2022华为智能门锁简评选购参考 (10-13)
    普通智能 团务小百科丨团组织关系转接(一) (10-12)
    普通智能 “青年之声·网上共青团”系统上线 (10-12)
    普通智能 @ 2023级新生团员这份团组织关系转接请查收! (10-12)
    普通智能 智慧团建官网登录入口(电脑版+手机版+小程序… (10-12)