让段子手失业？AI的野心不止于此动察

返回首页　

设为首页　

加入收藏　

今天是:

网站首页科技手机智能科学时尚教育亲子艺术房产

让段子手失业？AI的野心不止…
拓尔思：拓尔思人工智能平台…
博彦科技：公司有chatbot智能…
微博热搜图片在线生成
译图在线OCR云平台：低门槛享…
百度科普量子计算新世界再次…
百度百科10年580万网友创建1…
百度百科亮相2018全国科普日…
中国科协实施“科普中国·科…
百度科普
时尚相关资讯_太平洋女性网
简历-CFW时尚
国外女星迪莎帕塔尼 90后的她…
时尚博主Gogoboi是谁个人资料…
温精灵是谁年龄多大个人资料…
2023年度十大教育热点前瞻
2020教育研究热点话题
2022年基础教育十大热点
2022这些教育热点不容错过！
2020年度十大教育热点前瞻
手绘头像你的微信头像里还少…
手绘头像：一家人在一起就是…
全家福手绘头像让家充满仪式…
＃一家三口＃三口之家＃幸福…
“90后”漫画《全家福》传递…
在这里看懂令人惊艳的中国手…
这位金山女企业家荣膺“2023…
中国传统手艺流入国外一张纸…
贺州瑶绣何以成为联合国的名…
中国传统手工艺的传承与发展
宁波房产经纪人怎么考在哪报…
房地产经纪人考试难度有多大…
规范房地产中介服务为什么难
房地产经纪人报考条件有哪些…
考后回访：房地产经纪人难考…
值得关注的十大前沿技术
2022全球增长最快的十大技术…
2023 十大前沿科技趋势AIGC …
权威发布：《麻省理工科技评…
百度首次发布“十大科技前沿…
2023夏季：这4款手机性能强品…
大降价！手机最贵组件之一价…
真香性能机合集：两千元价位…
安卓(Android)
苹果手机租用多少钱一年租手…
vivo NEX今日全国开售！带你…
二维码：如影随形扫行天下标…
手机浏览器扫一扫的花样玩法…
春节最命大的鱼逃过上餐桌还…
畅享移动互联网生活 ColorOS…

专题栏目

您现在的位置： tac新闻网 >> 智能 >> 正文

高级搜索

让段子手失业？AI的野心不止于此动察

作者：佚名文章来源：本站原创点击数：更新时间：2023/4/14 23:08:45 | 【字体：小大】

　　生化危机之终期幽默感不仅是一种与思维发展相联系的情绪体验，其本质也是一种创造力。因而，无论是段子或是梗图都是创意性劳动成果的呈现。曾有预言指出，创意性工作是最难以被AI取代的工作。但随着AI大模型的不断发展与迭代，这种固有印象似乎将很快被打破。

　　从基于模式和结构的纯文本式的笑料，到基于图像理解和要素提取的吐槽，AI随处释放的幽默感背后是多模态大模型点滴进阶的缩影。但取代纯文本创作的段子手，绝不是AI的核心竞争力和最终目标。

　　未来，AI不仅能写段子，大概率还能讲会演。即便暂时无法代替真人进行现场表演，但假以时日，生成真人脱口秀表演的视频将不成问题，而这对于花重金邀请喜剧大咖进行专场直播和录制的奈飞来说绝不是个好消息。当带着审视目光的观众最终一个个被AI戳中笑穴时，喜剧从业者们脸上的表情也必定耐人寻味。

　　幽默感通常被定义为对于一事物的诙谐、滑稽或不合逻辑的理解和表达力，这需要人类具备情感、经验和文化背景等因素的综合作用。

　　正如很多脱口秀演员的早期生涯都是从模仿前辈开始，在对语义的理解和模仿的基础上，AI已经能输出完全贴合不同喜剧大师风格的段子。

　　例如，在GPT-4对人类笑话段子的理解测试中发现，其能正确解析英语、西班牙语、日语等语言中的谐音梗，能看懂双语梗和原创梗。

　　通过对不同演员的多个经典单口喜剧专场的文本训练，GPT-4可以精准模仿乔治卡林、路易CK、Joan Rivers、Kevin Hart、Chris Rock等单口喜剧演员的风格进行脱口秀文本创作，其创作思路、用语习惯与其模仿对象高度神似，经专业人士认证已经能达到通顺平稳的喜剧工业流水线水平。与同样水准的脱口秀编剧相比，GPT-4的优势还在于其可以高密度批量稳定输出，并按需求不断修改。

　　这意味着，若将GPT-4外接语音助手，用户将轻松获得足不出户即可收听业界中等水平的原创脱口秀专场的体验。

　　最近，一款由网友制作的“meme梗图生成器”风靡外网。用户上传随手拍摄的照片，程序将自动识别图片并配上调侃文字，并一键生成梗图，其讽刺而不失风趣的风格令众多初次尝试的用户欲罢不能。令人惊叹的是，即便针对同一场景进行多次拍摄上传，生成器也会敬业地给出完全不同但同样辛辣有质感的吐槽文案。

　　GPT-4是由OpenAI潜心研发的大模型GPT-3.5的迭代版，其在自然语言处理方面的高度优化使其可用于从故事脚本、角色创作到游戏内容创作的所有领域。OpenAI论文显示，GPT-4已经能够理解图像中的逻辑和其中的幽默感。

　　而前文中另一个展现AI幽默感的工具——梗图生成器则是集成了GPT-3.5的文字生成能力和另一个视觉语言训练模型BLIP图像识别能力的成果（最终呈现的效果是用户上传的原图叠加AI生成的吐槽文字）。

　　BLIP基于编码器和解码器的多模态混合，可以与三个视觉语言目标共同进行预训练，即图像-文本对比学习、图像-文本匹配和图像-条件语言建模。通过对噪声图像和文本对比学习，BLIP模型能够在各种下游任务上取得了稳定的性能改进，包括图像-文本检索、图像标题、视觉问答、视觉推理和视觉对线月，Junnan Li发布了新模型BLIP-2，目前代码已开源，在Github上已获得3.5k星。BLIP-2包含了图像编码器和大型语言模型(LLM)的解码器，并附加了可将视觉转换到语言的Q-Former，其使用的通用预训练框架可以任意对接自己的语言模型。

　　论文显示，在零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务等多项视觉语言任务的评估中，BLIP-2都实现了SOTA（研究任务中目前最好的性能和表现）。BLIP-2已具备图像信息检索、事实推理以及开放性生成问题等能力，而上文中的梗图生成器就是模型对于用户上传的图片进行上述任务处理的能力体现。

　　当下，多模态大模型已在全球遍地开花。多模态预训练模型已开始向多模态通用生成模型转变，并有了一些初步的探索。除了上文中的GPT-4和BLIP-2以外，微软的Kosmos-1、谷歌的Flamingo、PaLM-E都是典型的多模态通用生成模型。

　　以上模型虽然可进行图像、文字等多模态输入，但其只能进行通用的语言生成。在此基础上，微软的VALL-E主打高质量的文本转语音。

　　Meta的Make-A-Video可以把文字生成视频，也可以将静态图片生成连续图片并连接成一段视频；谷歌的两款文生视频产品中，Imagen Video主打高分辨率的高清视频片段，Phenaki基于新编解码器C-ViViT挑战有故事有长度的视频；曾参与奥斯卡获奖影片《瞬息全宇宙》特效制作的创业公司Runway发布的 Gen-1 模型可通过应用文本提示或者参考图像所指定的任意风格，将现有视频转换为新视频……

　　国内，百度的文心大模型开始提供文字生成视频功能、阿里达摩院的 “文本生成视频大模型”也在开源模型平台低调对外测试。

　　但总体而言，现有的文生视频模型效果还不太理想。因而，业界仍普遍期待OpenAI视觉生成能力的展现。

　　据预测，最快在今年6-7月，GPT-5的功能将陆续开放。除了更庞大的参数规模、更精准强悍的语言理解能力，GPT-5最具变革性的功能之一便是对包括音频和视频在内的多模态处理能力。未来，GPT-5创建和生成的内容将囊括文字、音频、3D模型和视频。

　　值得注意的是，在建立各种多模态大模型的过程中，通过生成指令微调使之与人类对齐是一大当务之急，否则模型将产生较多有害信息，降低其可用性。

智能录入：admin 责任编辑：admin
	上一个智能：拓尔思：拓尔思人工智能平台有关图像识别技术主要包括：图像特征识别、分类、人脸、以图搜图、OCR场景检测、目标检测、主体提取等下一个智能：没有了

　栏目文章

让段子手失业？AI的野心不止于此动察 (04-14)	拓尔思：拓尔思人工智能平台有关图像识别技术… (04-14)
博彦科技：公司有chatbot智能聊天机器人解决方… (04-14)	微博热搜图片在线生成 (04-14)
译图在线OCR云平台：低门槛享受人工智能技术红… (04-14)	vivo NEX今日全国开售！带你畅玩央视世界杯！ (04-14)
二维码：如影随形扫行天下标识万物应用广泛 (04-14)	手机浏览器扫一扫的花样玩法识万物还能答疑翻… (04-14)
春节最命大的鱼逃过上餐桌还被当成锦鲤来供… (04-14)	畅享移动互联网生活 ColorOS Breeno 让出行更… (04-14)
小米智能家居 (04-13)	米家智能家居有哪些 (04-13)
米家 - OFweek智能家居网 (04-13)	小米智能家居系统好不好 (04-13)
小米智能家居APP有哪些_小米智能家居app怎么用… (04-13)	百度DuerOS (04-13)
起亚与百度Apollo战略合作成果切实落地 (04-13)	百度DuerOS再进一步落地全屋智能体验店！ (04-13)
百度“小度”的「生态野望」 (04-13)	百度投资创维控股打造智能家居和IoT服务系统 (04-13)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	tac新闻网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！