AI TNT— 让一部分先用AI实现商业化

斯坦福重磅，突破小规模语料瓶颈，EntiGraph合成数据增强算法让LLM更聪明

如何处理小众数据，如何让这些模型高效地学习专业领域的知识，一直是一个挑战。斯坦福大学的研究团队最近提出了一种名为EntiGraph的合成数据增强算法，为这个问题带来了新的解决思路。

来自主题: AI资讯

5975 点击 2024-09-20 10:31

3类严重程度，6级不确定性！德州大学等首创全新胸部X光数据集，登IEEE TMI

研究人员提出了一个新的胸部X光图像数据集，该数据集包含临床不确定性和严重性感知的标签，并通过多关系图学习方法进行分析，以提高疾病分类的准确性，扩展了现有的疾病标签信息。

来自主题: AI技术研报

6464 点击 2024-09-18 15:48

首次！用合成人脸数据集训练的识别模型，性能高于真实数据集

一个高质量的人脸识别训练集要求身份 (ID) 有高的分离度（Inter-class separability）和类内的变化度（Intra-class variation）。

来自主题: AI技术研报

5247 点击 2024-09-14 16:11

你以为的LLM上下文学习超能力，究竟来自哪里，ICL的内部机制如何 |最新发布

上下文学习(In-Context Learning， ICL)是指LLMs能够仅通过提示中给出的少量样例，就迅速掌握并执行新任务的能力。这种“超能力”让LLMs表现得像是一个"万能学习者"，能够在各种场景下快速适应并产生高质量输出。然而，关于ICL的内部机制，学界一直存在争议。

来自主题: AI资讯

3946 点击 2024-09-11 10:17

AI训练数据之困：垃圾进，垃圾出

所有模型都是通过在来自互联网的海量数据上进行训练来工作的，然而，随着人工智能越来越多地被用来生成充满垃圾信息的网页，这一过程可能会受到威胁。

来自主题: AI资讯

7134 点击 2024-09-09 10:29

突破传统：AI如何应对心电图中的长尾挑战？

近日，上海交通大学、上海人工智能实验室和上海交通大学附属瑞金医院联合团队发布基于异常检测预训练的心电长尾诊断模型。

来自主题: AI技术研报

5514 点击 2024-09-07 17:35

AI+合成生物学，世界最大蛋白质相互作用数据库！

AlphaFold2解决了很大程度上解决了单体蛋白质结构预测问题。

来自主题: AI资讯

9032 点击 2024-09-05 15:16

Unstructured.io：让企业非结构化数据 LLM-Ready

企业要用好 LLM 离不开高质量数据。和传统机器学习模型相比，LLM 对于数据需求量更大、要求更高，尤其是非结构化数据。而传统 ETL 工具并不擅长非结构化数据的处理，因此，企业在部署 LLM 的过程中，数据科学家们往往要耗费大量的时间精力在数据处理环节。这一环节既关系到 LLM 部署的效率和质量，也对数据科学家人力的 ROI 产生影响。

来自主题: AI资讯

7709 点击 2024-09-05 10:02

利好AI大模型，MIT团队推出数据集审查工具DPExplorer，对“不合适”训练数据说no

训练数据的质量优劣，直接影响人工智能（AI）大模型的能力水平。

来自主题: AI资讯

2599 点击 2024-09-05 09:41

AI数据告急，大厂盯上廉价年轻人

说好的AI给人类打工呢？为了拿到新数据、训练AI大模型，字节等互联网大厂正在亲自下场，以单次300元不等的价格招募“AI录音员”，定制语料库。

来自主题: AI资讯

3965 点击 2024-09-04 09:57