ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
你的超级知识助手来了!讯飞星火支持长文本长图文长语音,生产力直线UP
8029点击    2024-04-27 12:12

这一次,大模型真的可以让人类解放双手了。


今天讯飞星火大模型V3.5春季上新,直戳办公场景的痛点!


  • 星火大模型能力升级,支持长文本、长图文、长语音……不仅能够把各种来源的海量文本、图文资料、会议录音等进行快速学习,还能够在各种行业场景中给出专业、准确回答。
  • 还有专门为企业推出的“智能体平台”,打造智能助手,解决大模型应用企业落地的最后一公里难题。
  • 另外讯飞星火语音交互能力进一步升级,首发多情感超拟人声音合成,AI能“情感共鸣”了,还上线“一句话声音复刻”等功能。


好了,目前星火大模型已经升级,这就来第一时间体验一下。


“超级知识助手”来了


在此前官方预告中,大家就对即将发布的三个“长”功能颇为关注。科大讯飞推出这一系列新功能,背后有着怎样的考虑?


据科大讯飞董事长刘庆峰透露,他们看到一段时间以来,讯飞星火的开发者和用户都高度关注知识的获取和学习问题。


在知识获取和学习的过程中,广大用户能拿到的资料往往不仅是现成的长文本,还有随手可见的报刊书籍内容、各种研讨会的PPT内容,老师黑板上的板书、同学的笔记,以及各种会议录音、访谈,各种网上的发布会、培训教育视频等,能不能把这些文本、图片、语音等都上传到讯飞星火中,快速地获取知识?


这就要求大模型不仅要解决长文本、还有长图文、长音频以及各种企业和专业行业应用的准确率问题。


为此,科大讯飞推出首个支持长文本、长图文、长语音的大模型,来解决用户真实场景中多源信息的获取需求。


长文本


据介绍,升级之后,当前星火大模型通用长文本能力,包括长文档信息抽取、长文档知识问答、长文档总结、长文档文本生成等,总体已经达到GPT-4 Turbo 4月最新大模型版本的97%水平,而在银行、保险、汽车、电力等多个垂直领域的知识问答任务上,星火大模型长文本总体水平已经超过GPT-4 Turbo。


而为了应对运行效率问题,星火大模型特别进行了剪枝和蒸馏,推出13B版本,效果损失仅3%以内,但响应时间、生成效果等方面的效率都有提升。



话不多说,这就来开始实际评测一番。


首先来看第一题开胃小菜,把费曼物理学讲义第一卷直接扔给他,也不告诉它书名叫啥,直接问书中讲了什么。



嗯~还不错,大致方向是对的。


长图文


接下来,来看第二题,考验它长图文识别的能力。


据刘庆峰介绍,图文识别大模型现在已经覆盖了31个最常见的典型场景,像教育类的书刊、学术论文、专利、报纸、海报、产品白皮书、PPT和菜单、APP截图、演讲照片等等都已经进行了覆盖,以及18种版面要素(包括页眉、页脚、标题、栏目、段落、表格、插图等)



既然如此,那就扔给它一份最新量子位智库出品的《中国AIGC应用全景报告》PPT,并询问相关细节问题。



结果不管是市场规模、商业模式、投融资情况都一一清楚的回答上来。


长语音


最后再来考验一下它的长语音能力。可以看到,讯飞星火可以支持多种音视频格式,只要不超过1GB大小就好。



那么就扔给他这次科大讯飞官方发布长语音能力的演示视频试试。


结果:



甚至还包括像「刘庆峰做了什么」也都精准回答了。



想象一下,在信息获取或知识学习中,拿到的资料无非就是现成长文本、论文书籍,又或者研讨会PPT、笔记截图,以及各种会议录音、发布会、网上教学视频等等。


而此次科大讯飞星火大模型的升级:“长文本、长图文、长语音”的支持,可以说把整个场景全覆盖了。


用上了它,相当于每个人都拥有了个知识助手,这不就是妥妥的学习工作小利器嘛~


多情感超拟人合成&一句话声音复刻


除此之外,还有多情感超拟人合成功能、一句话复刻的功能的首发上新,可直接去星火APP上体验。


年初讯飞星火V3.5发布会上,科大讯飞推出的超拟人对话功能,如今该功能得以进一步升级,不仅更逼真,情绪表达也更为丰富,包括高兴、抱歉、安慰、撒娇、困惑等情绪表达的可感知度达到85%以上。


与此同时还推出了一句话声音复刻,一句话就可以定制你的AI助手声音。这样出差的时候,就还可以给孩子讲故事,又或者给爷爷奶奶读书读报,给世界带来更多温度。


星火智能体平台


办公场景,长期以来一直面临一个痛点——如何高效地获取和学习知识。此次推出的智能体平台正是专门面对企业场景。


在讯飞星火智能体平台上,首先,基于星火大模型,会自动实现用户输入的精准理解和任务规划。解析完了相关的任务和对应的工具之后,讯飞星火已构建形成了包括天气、航班、企查查等成体系的外部信息来源的对接;



同时,星火智能体平台还通过互认证的机制,实现了往往是独立的、隔离的OA系统、CRM系统以及ERP系统的打通,完成相应操作;最后,通过私域知识融入机制,智能体平台很容易实现企业所属行业以及企业私域知识的融入,实现更精准的专业理解和知识问答。


此外,星火智能体平台还可以通过拖拽方式实现新智能体的创建和多智能体的协作。用以上一套组合拳,敏捷触达大模型应用企业落地的最后一公里。


讯飞大模型的技术理念:从解决现实问题出发


可以看到的是,此次星火大模型的升级,更偏落地,更偏解决现实刚需,而非只是性能参数的升级。


一方面,讯飞星火大模型实际体验中,都是企业的刚需场景。


据七麦数据显示,讯飞星火APP在安卓端的下载量已经超过9600万次,在国内工具类通用大模型APP中排名第一。



C端使用场景来看,讯飞星火的用户主要集中在办公领域。具体使用高峰期集中在工作日的上午9点半和下午的3点左右,以互联网、科研、教育、传媒行业为主。


这种用技术解决刚需的逻辑,也体现在科大讯飞的多项业务增长中。


在大模型加持下,开放平台与消费者业务全年营收达到61.9亿元,成为科大讯飞最大的业务板块。智慧汽车、智慧医疗、智慧金融业务板块则分别贡献了7亿元、5.4亿元和2.9亿元的营收,同比分别增长52.2%、14.9%及26.1%。在C端智能硬件领域,搭载讯飞星火的讯飞智能办公本、讯飞智能录音笔、讯飞智能翻译机等消费者硬件GMV同比大增84%。


另一方面,这也是讯飞一直以来所对外传达的技术理念:先进技术持续迭代的同时,也始终致力于去解决现实场景。


典型例子就是大模型的每次升级,讯飞星火都有会新的亮点行业应用,比如今年1月发布首个语音大模型,以及此次首次亮相的图文识别大模型。在底座大模型的加持下,不断突破大模型能力的边界。


但每次升级,同样也都对应了实际场景应用,真正做到现实问题的解决。比如此次刘庆峰就重点介绍了在招投标、合同、教育等场景下的应用。


比如在招投标场景中,科大讯飞和国家能源物资公司在企业采购场景合作了智能无人评审系统,已经在国资委网站上被作为典型案例推荐。


此次该系统还将进一步叠加长文本和长图文能力,可以让评标更便捷、更高效、更准确。



还有合同助手。它可以对合同进行风险审核、合同比对、摘要总结以及合同生成,迅速识别潜在风险和漏洞。除了工作中需要,在日常生活中买卖商品、装修或者购买保险等场景也都完全用得上。


这种解决现实问题的大模型技术理念,也让讯飞星火在业内快速构建起一定的影响力。


自今年1月30日发布以来,讯飞星火V3.5作为首个全国产算力训练的大模型,受到了各行业伙伴和开发者的广泛欢迎。尤其在一些关键行业和重大战略领域,星火大模型以“云、边、端”的整体解决方案赋能到越来越多的行业,比如汽车、比如家电、比如运营商……在实体经济中发挥价值。



从开发者生态上来看,在过去不到3个月的时间里,讯飞新增了55万实名认证的开发者,其中一半以上来自企业。



大模型支撑起新质生产力


今年,毫无疑问的是大模型应用元年。大模型支撑起新质生产力,帮助企业数字化转型。


但企业到底应该怎么用?如何去用?大模型发展到现在,大致可以梳理出这样三种模式来。


一种简言之就是当前大模型加持的通用AI原生APP,功能碎片化每次能调用的工具有限,还依赖于每次大模型公司的模型升级。


还有就是开源大模型或者接入API,但是通用大模型去落地真实应用场景中间还有很长一段距离,这需要技术与行业Know-how协同,对企业来说是个不小的挑战。


再者就是超级APP,各种AI原生碎片化能力集成在一起,实现工作流程中沟通、执行等方面的提效。但如果没有计入内部数据,实现内外知识的打通,那么大模型的提效能力是有限的。


而讯飞星火此次展现了第四种模式——智能体平台。AI Agent作为企业提效手段已经成为确定的趋势。而科大讯飞直接推出产品化的解决方式,并且整个流程低门槛,只需简单拖拽就可实现智能体构建和多智能体的协同,企业可以更容易地直接上手使用,有助于实现智能体的规模化落地,实现大模型普惠价值。


最后可以看到,越来越多大模型升级朝着更落地的方向走去,其实也代表了一种特定的趋势。


那就是大模型已经走向我们日常生活,人工智能朝着解决真实世界的问题的方向不断深入。


—  —


本文来自微信公众号“量子位”




AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md