服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

MiniGPT-4 ,开源了!

日期: 来源:GitHubDaily收集编辑:小 G
公众号关注 “GitHubDaily”
设为 “星标”,每天带你逛 GitHub!
不知不觉,距 GPT-4 首次公开问世,已经过去一个月了。
在这段时间,有不少人拿到了 GPT-4 API 权限,开通了 ChatGPT Plus,提前体验了 GPT-4 的能力。
这些人无一例外,都被 GPT-4 强大的逻辑分析、统筹规划能力深深折服。
无论是论文创作、编写代码、还是数据分析,GPT-4 都给出了令人惊艳的表现。
不过,大家可别忘了,GPT-4 作为一个多模态大语言模型,它不仅能生成文字内容,还能理解图像输入内容,让用户直接与图片进行对话。
一个月前,OpenAI 向外界演示了 GPT-4 如何通过手绘草图,直接生成网站,让当时不少围观群众看的目瞪口呆。
不仅如此,它还能 get 到图像里面的笑点,识别数学题目并依次给出解答步骤。
我始终觉得,图像对话才是 GPT-4 真正令人心神向往之处。但可惜的是,这个功能至今仍没有对外开放。
除了 Be My Eyes、可汗学院等少数几家与 OpenAI 有建立合作的企业,大部分人还是只能体验 GPT-4 的文本对话能力。
原本我以为只能苦等 OpenAI 发布更新,才能体验上这个功能,没成想今天让我找到了这么一个项目。
该项目名为 MiniGPT-4,是来自阿卜杜拉国王科技大学的几位博士做的。
它能提供类似 GPT-4 的图像理解与对话能力,让你先人一步感受到图像对话的强大之处。
GitHub:https://github.com/Vision-CAIR/MiniGPT-4
在线体验:https://minigpt-4.github.io/
项目作者认为,GPT-4 所实现的多模态能力,在以前的视觉 - 语言模型中很少见,因此认为,GPT-4 先进的多模态生成能力,主要原因在于利用了更先进的大型语言模型。
为了验证这一想法,团队成员将一个冻结的视觉编码器与一个冻结的 Vicuna 进行对齐,造出了 MiniGPT-4。

在研究中,他们发现 MiniGPT-4 具有许多类似于 GPT-4 的能力,如详细的图像描述生成、从手写草稿创建网站等。
不仅如此,他们还在研究中还收获了意想不到的惊喜,除了能实现上述功能之外,MiniGPT-4 还能根据图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。
下面给大家看几个示例。
拍一张菜品图片,让 AI 自动帮你生成菜谱:
让 AI 描述图像内容:
通过商品图,直接生成广告文案:
根据实验结果表明,GPT-4 这些先进的能力,理论上可以归因于它使用了更先进的大语言模型。
也就是说,未来在图像、声音、视频等领域,基于这些大语言模型所造出来的应用,其实际效果都不会太差。
这个项目证实了大语言模型在图像领域的可行性,接下来应该会有不少开发者入场,将 GPT-4 的能力进一步往音频、视频等领域延伸,进而让我们得以看到更多有趣、令人惊艳的 AI 应用。

如果你想了解更多关于 ChatGPT 的新进展,欢迎点击下方链接,加入我们社群进一步交流探讨。

相关阅读

  • 钉钉巨变

  • 作者|桑明强微软Copilot刚发布没多久,中国协同办公玩家也不甘示弱,在阿里云通义千问面世一周后,钉钉也迅速推出了类Copilot能力。相信大家也看到了,在今天钉钉2023春季钉峰会上,钉
  • 这一轮,中国能赢美国么

  • 重要通知一个好消息,我们在知识星球开辟了第二战场【非凡油条】,有很多在公众号不方便说的东西、一些相对私密的个人见解(涉及经济、投资等)、一些财经方面的重要资料,我们都会发
  • 十堰市委党校:拓展教学理念 提升教学效果

  • 通讯员 张红霞4月17日,十堰市委党校科干班开展以“干部能力作风建设存在的问题和对策”为主题的结构化研讨,进一步提升学员对干部能力作风建设工作的认识。课堂上,学员们分为四
  • 关注人工智能生成内容之利弊

  •   近年来,随着人工智能领域大跨步向前迈进,大众也不断享受着愈发丰富的多样化、个性化技术红利。人工智能生成内容(AI Generated Content,AIGC)指利用人工智能算法、自然语言处
  • 大模型之下,游戏行业会被如何重塑?

  • 拥有庞大市场(超过 2000 亿美元)并且一刻也没有停下追求技术创新、体验创新的游戏行业,历来是科技的一部分。游戏改变了计算机图形界面的开发方式,为 GPU 的诞生提供了产业需求
  • 如何阻止针对AI模型的对抗性攻击

  • 人工智能(AI)技术的进步已对人类社会产生了重大影响,但也引起了研究人员的担忧,因为随着AI技术的深入应用,与之相应的对抗性攻击也变得越来越普遍。这些攻击可能会对AI系统的安全
  • 360智脑首发上手实测,到底是个啥水平?

  • “ 周鸿祎为什么总爱聊 GPT ? ” 这是上个月底,周鸿祎在展示自家新的大语言模型产品上亲自问的问题。这也是人们第一次知道,一个主打安全服务的 360 公司,居然也在默不作声地
  • 商汤加入AI大模型混战,更看重模型能力而非规模

  • 商汤不仅有自己的大模型,也在为行业内其他公司的大模型提供基础设施服务位于上海临港,商汤人工智能计算中心是亚洲最大的人工智能计算中心之一文|施然4月10日,AI公司商汤科技公

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 【今日问答】广州男职工生育险能用来干嘛?

  • ✦今日问答✦是我们推出的互动栏目我们会从网友们提的问题里选出典型的、大家常问的问题进行解答关于车牌、入户、社保、玩乐等问题都可以问哦!只需要在这篇文章底部留言就可
  • 广州车主注意!国内新一轮油价调整→

  • 号外号外!家里有车的朋友请看昨晚(4月17日24时)广州迎来2023年油价再次调整当前广州油价是多少?如何查询广州/广东/全国油价?快来一起看看NO.1广东省最新油价根据国家成品油价
  • 风声 | 淄博烧烤经济学:自发秩序的胜利?

  • 凤凰网原创 在淄博政府的这些措施背后,更基础,更底层,也更本质的,是一种容忍。容忍烧烤的烟雾、容忍城市街道某种程度上的混乱。作者丨刘远举知名财经专栏作家多家智库研究
  • 风声IFENG | 转载须知

  • 您好~这里是凤凰网评论品牌 风声 IFENG 感谢您对我们内容的青睐,为保护作者与品牌合法权益,提高对接效率,请您依照如下规则提交开白申请,我们将尽快响应。开白转载事宜请添加小
  • MiniGPT-4 ,开源了!

  • 公众号关注 “GitHubDaily”设为 “星标”,每天带你逛 GitHub!不知不觉,距 GPT-4 首次公开问世,已经过去一个月了。在这段时间,有不少人拿到了 GPT-4 API 权限,开通了 ChatGPT Plu