ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
GPT-4o用不上,国产平替海螺AI可以先试试
9053点击    2024-05-19 17:01

AI领域本周都卷起来对话式交互


前有OpenAI推出实时视频通话如真人的GPT-4o,后有谷歌与之类似的Astra。


但不论是GPT-4o还是Astra,都或多或少有一些使用门槛


也许是看到了这种gap,一款类似能力的国产AI应用,也悄然更新了……



能力和体验上,可能跟GPT-4o和Astra演示的还有差距。


但作为门槛更友好的平替,也足够了。


这款产品是国产大模型公司MiniMax的海螺AI,主打AI助手+实时语音聊天


那么它有哪些具体应用场景呢?


海螺AI能干什么?


海螺AI是MiniMax推出的一款多模态AI生产力工具,能听、能写、能说、能识图。


概括而言,官方此次对这款产品作了如下更新:


  • 多模态互动:海螺AI支持文本、音频和图像。用户可以通过打字输入、拍照识图或语音通话与AI进行互动。


  • 语音通话功能:海螺AI的一个显著特点是支持语音交互。用户可以直接与AI进行语音通话,这在做饭、洗脸等不方便打字的情况下尤为方便。此外,这个功能还非常适合练习英语口语和模拟面试。


  • 教育和职场应用:海螺AI提供学习助手和工作助手功能。包括课程报告生成、知识点问答、作文辅导、背单词、周报生成、工作汇报编写等,适用于学生、教育者和职场人士。


  • 内容创作和数据处理:海螺AI支持生成多种社交媒体文案,如小红书、短视频脚本和公众号文章等。同时,它还能进行智能搜索和数据查询,帮助用户获取企业信息、金融数据和学术研报等。


(以下为原速实测)


语音播报今日热点


上下班开车途中,可以让海螺AI播报今日热点,并随意聊天。



02:03


读论文、读财报


接着来看一项日常学习工作都需要用到的能力——快速总结长文本


直接拿最常见的学术论文和公司财报来试试。



00:31


海螺AI总结论文


整体较为流畅,看来十几页的论文对它来说不算挑战。

难度加码!这一次我们喂给它有大量数据报表的公司财报。


00:3


随机选取华夏银行今年1季度报告


免费查数据


除了速读长文本,作为一款AI助手,检索并快速整合信息也是关键。


先就日常生活来说,我们来试试让海螺AI做旅行攻略


比如“从重庆出发前往深圳再去长沙的五天旅游规划方案”。


短短几个字估计能瞬间让倾向于细致规划的“J人”炸毛。



00:50

此外,海螺AI接入了天眼查、萝卜投研和学科网等专业数据库,能够让用户免费搜索专业数据。


随便想了一个例子,“帮我查下量子位的工商数据”。


00:3

辅导作业


海螺AI还能帮助父母辅导孩子功课。


我们直接上传一张小学数学应用题常见的“相遇问题”。


可以看到,海螺AI按照步骤进行了解答。(移动端支持直接拍照上传)


00:23

写作


由于写规划、写报告、写文案等对几乎所有AI来说都是常规操作,在此我们不再展示。


但是,当我们驱散班味儿,想用AI写作来搞副业时,海螺AI能否派上用场?


让我们直接提示它“帮我构思一个职场女性黑化逆袭重生的爽文霸总剧本”。



00:40

英语口语陪练


海螺AI支持口语练习,用户可以用它来练雅思和托福、CET4/6、PET等。


00:2

海螺AI提供雅思面试建议


小结


单从本周热门的“对话式交互”来说,它和GPT-4o及Astra还存在一定差距。


这主要体现在:


  • 海螺AI能听能说,但是不能看,无法像打视频一样感知周围环境


  • 当海螺AI说话时,无法通过语音沟通打断,不过有一个暂停按钮


  • 海螺AI在实时能力上仍有提升空间,不过目前体验下来影响不大


总之,对于这样一款能立即上手甚至免费的国产AI来说,瑕不掩瑜,值得一试。


技术原理:自研多模态MOE大模型


对于海螺AI背后的技术,更早之前,官方也有过披露,分为以下两个方面:


万亿参数MoE大语言模型


今年4月,MiniMax推出了万亿MoE模型abab-6.5,并在其基础上开发了生产力工具“海螺AI”。


根据MiniMax发布的技术报告,在各类核心能力测试中,abab-6.5接近 GPT-4、Claude 3 Opus 、Gemini 1.5 Pro等世界领先的大语言模型。



MiniMax语音大模型


另外,海螺AI还接入了MiniMax语音大模型——speech-01。


这一模型的主要特色是:


  • 高度接近人声,且能用声音表达情感


  • 可模仿数千个声音的音色特征,并生成声音变体


  • 支持30秒克隆音色


首先,官方称海螺AI可以很好的理解人类的语言、语气、情感。


让我们整蛊一下小海螺。


要求它在同一句话里表达出喜怒哀乐等情绪,看看能否听出明显差别。


00:2

其次,官方称海螺AI不仅限于模仿单一的声音,它还能通过学习数千个声音的音色特征,生成更多声音变体。


目前它精通中文、英文、德文、法文等8国语言,还预置了30多种音色



最后,官方称海螺AI只需30秒的音频样本,就能快速复刻出与原音色高度相似的语音。



00:27

打造者:国内独角兽MiniMax



MiniMax是一家成立于2021年12月的人工智能初创公司,由前商汤科技副总裁、研究院副院长闫俊杰创立,成员主要来自商汤科技等知名AI公司。



闫俊杰在2021世界人工智能大会算法典范总决赛上



2022年7月,MiniMax完成了Pre-A轮融资,投资方包括明势资本和米哈游等。


2023年6月,MiniMax完成了一轮超过2.5亿美元的融资,投资者包括与腾讯有关联的实体。


今年3月,MiniMax的最新一轮融资由阿里巴巴领投,金额至少为6亿美元,这使得公司估值超过25亿美元



目前,MiniMax主打三款产品,分别为MiniMax API开放平台、沉浸式AI内容社区星野、以及生产力工具海螺AI。

使用无门槛,欢迎回来给我们分享使用反馈呀。


文章来源于“量子位 ”,作者“关注前沿科技 ”


关键词: GPT-4o , 海螺AI , AI社交 , Astra , AI应用
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales