
Hume AI发布全能语音引擎OCTAVE:文本秒变真人声,克隆人格特征
Hume AI发布全能语音引擎OCTAVE:文本秒变真人声,克隆人格特征Hume AI近日推出了一款名为OCTAVE的全新文本与语音引擎,该引擎能够仅凭简单的文本描述或一段5秒的语音录音,即可生成或克隆出逼真的语音和人格特质,为虚拟角色和人机交互带来了无限可能。
Hume AI近日推出了一款名为OCTAVE的全新文本与语音引擎,该引擎能够仅凭简单的文本描述或一段5秒的语音录音,即可生成或克隆出逼真的语音和人格特质,为虚拟角色和人机交互带来了无限可能。
继去年组建了多个AI团队后,近期在线教育大厂高途的创始人陈向东坦言,“我们可能做得不好,我在反思,可能确实做得没有那么好”。一时间,这番言论也让外界对于AI教育的未来开始抱有疑虑。
用AI写作业、论文的一代人,要毕业了
着实有点Amazing啊。
英伟达新品掀起边缘AI开发板大战,也为中国企业在边缘AI领域的发展提供了机遇。 前几篇文章,我们不断探讨小模型(SLM)在端侧和边缘侧的崛起。现在,边缘侧小模型已然成为不可忽视的发展趋势。
“我每周都有一个AI专项会。”某手机厂商在发布新机后的沟通会上表示,AI功能首先需要符合用户的使用直觉,这也折射出手机厂商对AI越来越重视。
2月初,深港创业基地的一间大会议室里,成一鹏缓缓聊起自己的看法。回想一年前,正是基于这一判断,他在深圳汇聚一个AI创业团队——新旦智能由此成立。
2024 上半年,影石 Insta360 超越了老牌厂商 GoPro,成为了运动相机品类的全球第一。
两年前,ChatGPT横空出世,掀起一场超强的“AI旋风”;最近,OpenAI用连续12天的发布会再次让全球进入“AI狂欢”。但不同于两年前的震惊、兴奋与困惑,今天的学界和产业界对于AGI路线有了更多的“中国思考”。
刚刚,ControlNet作者张吕敏又发布了一个的图像打光新项目LuminaBrush,LuminaBrush 是一个构建交互式工具的项目,用于在图像上绘制光照效果。该框架采用两阶段方法:首先将图像转换为均匀光照的外观;然后通过用户的涂鸦生成光照效果。
大模型赛道是这两年才在国内兴起的,当下已成为人工智能领域的重要分支,并迅速吸引了大量创业者和资本的关注。
PromptWizard (PW) 旨在自动化和简化提示优化。它将 LLM 的迭代反馈与高效的探索和改进技术相结合,在几分钟内创建高效的prompts。
AI缺乏情商,需设计训练数据提高社交认知能力。 当你觉得AI不够好用时,很可能是因为它还不够“懂”你。
剪映成字节探索AI的利器
一家公司因远程招聘了一名看似优秀的计算机工程师,却遭遇了严重的网络安全威胁。
都说国产大模型“通义千问”能打,到底是真强还是智商税?今天就带你看看,这个国产“AI猛将”凭什么火出圈! 2023年4月,阿里巴巴推出通义千问,选择了“全开源”的策略,成为全球开发者关注的焦点。而在2024年的云栖大会上,阿里云进一步发布了Qwen2.5系列,包括多个尺寸的大语言模型、多模态模型、数学模型和代码模型,涵盖从0.5B到72B的完整规模
QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中,QVQ 取得了 70.3 的优异成绩,并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理,QVQ 在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色。
在智能驾驶行业激烈的“端到端”竞赛中,蔚来汽车计划提升“端到端”高阶智驾方案的交付节奏。
斯坦福HAI的研究员Michael Kratsios,被任命为白宫科技政策办公室主任,及特朗普政府的总统科技助理。从马斯克、AI沙皇到HAI研究员,这几轮任命彰显出:美国开始在国家层面推动科技政策发展,大力发展AI。
Hippocratic AI 的使命是打造首个以安全性为核心的医疗领域大语言模型(LLM)。
近年来,日本动漫的全球领导地位正遭遇挑战。有数据显示韩国的Line Manga和Piccoma已经超越Jump+,占据了亚太地区60%以上的数字漫画市场份额。日本动漫这个曾被誉为动漫界“珠穆朗玛峰”的存在,正受到移动端平台和AIGC带来的生产力突破而发生巨大的变化。
随着Sora震撼发布,视频生成技术成为了AI领域新风口。不过,高昂的开发成本是一大瓶颈。国产平台Video Ocean不仅成功登上全球热榜第三,还将视频生成模型开发成本降低50%。而且,模型构建和性能优化方案现已开源,还能免费获得500元GPU算力。
近日,Anthropic开发者关系主管发推表示:万事俱备,2025年将是智能体系统之年!在年终总结的博文中,Anthropic分享了一年来与客户合作构建智能体系统的最佳实践。
OpenAI o3的智商,竟然已经高达157,碾压99%的人类?这张OpenAI模型智商图全网疯转。甚至有人大胆预测:达到陶哲轩智商(225-230)的大模型,应该会很快出现了。
美剧《西部世界》描绘了一个人类与机器人共存的社会图景:在科技高度发达的未来,机器人与人类的外观、行为表现几乎没有差异,人类能在一座乐园中与机器人随意互动。
在大语言模型和 AIGC 的热潮下,科研人员对构建「视觉对话智能体」(Visual Chat Agent)展现出极大兴趣。其中,可实时交互的人像生成技术(Audio-Driven Real-Time Interactive Head Generation)是实现链路中极为关键的一环。
对 AI 研究者来说,数学既是一类难题,也是一个标杆,能够成为衡量 AI 技术的发展重要尺度。近段时间,随着 AI 推理能力的提升,使用 AI 来证明数学问题已经成为一个重要的研究探索方向。
年末岁尾,人们总习惯于在各类App的年度报告中驻足回望,如同在时间的河流中打捞起一枚枚记忆的琥珀。
研究人员对基于Transformer的Re-ID研究进行了全面回顾和深入分析,将现有工作分类为图像/视频Re-ID、数据/标注受限的Re-ID、跨模态Re-ID以及特殊Re-ID场景,提出了Transformer基线UntransReID,设计动物Re-ID的标准化基准测试,为未来Re-ID研究提供新手册。
从开源与闭源的竞争,到多模态AI与自监督学习,再到能效优化和AI伦理的深入探讨,AI技术的演进将继续带来前所未有的创新机会。