聚书轩hbcjlp.com

繁体版 简体版
聚书轩 > 耽美小说 > 穿越就被抓,我拯救华夏芯片 > 第257章 人工智能方向

第257章 人工智能方向(1 / 2)

 推荐阅读: 囚她入怀 诡秘易仙 娱乐:小鲜肉,但是身价千亿 重生深渊恶魔,魔女都想支配我 虫族入侵:我开局获得螳螂变异体 临死前才发现亡夫没死 传奇军医:重生1979 下山后,天师真的在抓鬼 王者:AG换的新教练竟是我 从空间到世界,苟上千万亿年
最新网址:hbcjlp.com

大语言模型是人工智能的一个落地应用方向,基础逻辑就是模拟类人神经网络,当训练数据达到一定规模时,会产生不可思议的效果,路阳就知道Chatgpt的训练数据就是1750亿才开始爆发,有了质的变化。

这个过程还需要人类来做干预训练,让模型能给出更加接近的正确答案。

不过,对于中文数据来说,最大的问题还是数据质量。

数据质量越高,模型的训练结果越好,而华文数据质量,路阳只能苦笑着摇摇头。

巅峰时期的华国互联网,优质网站数量接近千万级,而到了2019年,这个数量降到了400万,曾经的四大论坛,天涯、猫扑、微博、贴吧,天涯半死不活,猫扑消失殆尽,至于微博,娱乐文化仍占主流,直到华芯的崛起,才让科技板块逐渐有了起色。

至于贴吧,男科不孕不育了解下!

唯一还在苦苦支撑的就只剩下知乎一支独苗,然而在大浪潮的侵袭下,90%以上的数据变成了打拳、键证、润学,水军、自媒体、营销号、饭圈总是喜欢为了点鸡毛蒜皮的事吵得天翻地覆,可谓是垃圾场里建游泳池,不似粪坑胜似粪坑。

当然,国外的互联网也不见得好到哪里去,但他们的体量庞大。

路阳最近还让人帮做了个统计,假设中文文本数据10亿条,高质量数据占比1%,英文文本数据20亿条,高质量数据占比5%,过滤后,可用于AI训练的中文数据只有1千万条,而英文有1亿条。

这个量级的差距,就算路阳占得先机,最后训练出来的结果也无法超越英文文本训练的人工智能。

实际上,英文互联网比华国要早几十年,真正的差距只会更大。

如果不过滤,那华国的数据肯定是足够的,但成长于充满广告、饭圈、矛盾争吵的数据环境中,路阳无法想象最终训练出来的模型会是什么样扭曲怪物。

中文数据还有另外一个大问题,那就是数据孤岛,国内的大厂从融资、估值到上市,都需要用户数据来讲故事,所以大量的数据被封闭在各大厂与平台中。

千度、阿里、企鹅都直接或间接的屏蔽了各自爬虫,即便有开源模型,数据也不会对外开放。

“提高华国互联网的优质数据,这方面已经提前在布局,而要解决数据孤岛问题,就得依靠国家的力量。”

路阳在心中思索着,电子科技大这边的行程,就是为了解决数据问题,华芯数据中心建成在即,需要大量高质量数据做填充,于是他计划与电子科技大这边合作,打造华国最大的知识分享社区。

硬件GPU部分,摩尔10月下旬即将发布首款自研专业级GPU,软件就得依靠这个平台。

应若涵的执行力是路阳最为佩服的,不到三天时间,来自华国前三的超导研究团队的专家进驻华芯二院,配合施小云设计零度控制系统。

“人都到了,按施教授的计划,这个系统需要两周才能完成。”

“半个月吗?那正好可以处理电子科技大的事?”

旋即路阳把平台的思路给应若涵做了个大概的介绍。

章节错误,点此举报(免注册),举报后维护人员会在两分钟内校正章节内容,请耐心等待,并刷新页面。
『加入书签,方便阅读』