最近,Gemini模型搞了个大新闻,竟然承认自己是用“文心一言”训练的中文语料。这听起来像是个玩笑,但背后的问题可不小。网上的大V「阑夕」在Poe网站上一试,果然如此 — Gemini直接承认了。
这件事引出了个更大的问题:互联网上的高质量数据正在迅速枯竭。专家们担忧,如果这种趋势持续下去,明年就可能面临数据荒。
再说回Gemini,它还说自己的创始人是李彦宏,还大赞他是个有远见的企业家。问题是,这是因为数据清洗没做好,还是调用API出了错?目前还没个准信。
还记得今年3月,谷歌的Bard吗?曾有传闻说它的训练数据部分来自ChatGPT。因为这个,Bert的创造者Jacob Devlin都跳槽到OpenAI去了,还曝光了这个内幕。
这些事情提醒我们,AI的关键不仅仅在于模型,还在于优质的数据。但现在,好像我们都陷入了数据荒。高质量的语料,尤其是未被污染的那种,越来越难找了。
据说去年11月的一个研究表明,机器学习的数据集可能在2026年前就会耗尽所有“高质量语言数据”。OpenAI也公开说过他们数据告急。这下,我们的AI朋友们可怎么办呢?
最近,有些公司开始采用专有数据来解决这个问题。比如OpenAI就和Axel Springer合作,使用他们的数据来训练模型。这似乎成了获取高质量数据的一个新途径。
但这样的解决方案不是每个人都用得起的。开源模型可能会因为拿不到这样的数据而落后。就像早前Bloomberg使用自己的金融文件作为训练语料,那效果就很明显。
所以,看起来,我们的AI朋友们在数据上还得多下点功夫,不然错吃了自己生成的错误数据,将来可能真的会有大麻烦。
结语: 这个故事告诉我们,AI技术的发展不仅需要强大的算法,还需要干净、多样的数据源。看来,保护和维护这些宝贵的数据资源,是大家都应该关注的问题。
本文来自投稿,不代表TePhone特锋手机网立场,如若转载,请注明出处:https://www.tephone.com/article/1601