of69
您的位置:首页 > 资讯 >

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成

来源:IT之家 2023-06-12 14:03:42   阅读量:12738   

Arxiv 上所有论文转成 Token,加起来不过 14.1GB 而已。

这是最新爆火开源计划亚历山大完成的壮举。

事实上,这还只是第一步。

他们最终是想要将整个互联网变成 Tokens,换言之全都转化成 ChatGPT 等大模型理解这个世界的方式。

一旦这样的数据集诞生,那岂不是为开发出 GPT-4 这样的大模型又新增一大利器,上知天文下知地理指日可待了?!

消息一出,瞬间引发巨大关注。

网友们赞叹,史诗般的。

而这背后仅是四个平均年龄 20 岁的少年发起,目前 Arxiv 所有论文数据集已经发布,他们将于下周发布嵌入搜索平台。

从 Arxiv 上所有论文开始

超过 400 万个项目、6 亿个 token,30.7 亿个向量维度。

这个名为亚历山大的开源计划,首先从 Arxiv 每篇论文上开始。

选择的方式是嵌入,简单来说,就是将现实世界的各种对象具象成计算机所能理解的向量。

最经典的例子就是将原始图像表示为灰度像素。

这种技术最大的特点就是能够表示出人类感知到的语义相似性。

比如,当有 10 个词表示同一事物时,很难通过关键词查找论文。但嵌入就可以完成,因此很适用于搜索、聚类、推荐和分类。

基于实用性和效率的考虑,开发团队只选择嵌入了论文的标题和摘要。

在测试各种模型之后,最终选择使用 InstructorXL 文本嵌入模型,通过简单地提供任务指令,而无需任何微调,适合于多种任务和领域(比如科学、金融、医学等)》

下周他们将发布 Arxiv 搜索。目前为止的流程是,首先对 100 篇最接近的文章进行相似性搜索,然后即时计算这些内容的嵌入,并进行第二次更复杂的搜索。

最终目标是一整个互联网嵌入计划。

20 岁少年的疯狂开源计划

之所以要开展这样一次疯狂的开源计划,主要有两方面的原因。

一方面是嵌入巨大的价值。世界上很多问题只是搜索、 聚类、推荐或分类,而这些事情嵌入都非常擅长。而且也如前所述,可以解决一些复杂的难题。

另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次计算。目前每 1 亿个 Token 只需 1 美元。

但他们并没有找到任何开放的嵌入数据集,因此这样的组织应运而生。

值得一提的是,背后是一群平均年龄仅为 20 岁的少年 team 完成的。

而他们的团队名字同样也很霸气,Macrocosm联盟。

只要你放大到足够远,人类就会成为一个单一的生物。

就官方介绍,他们致力于为 ChatGPT 和其他类似产品构建插件,同时也在开发核心产品,基于大模型的个人研究助理,帮助学习、教学和科研。

感兴趣的旁友可戳下方链接了解~

参考链接:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

每日推荐
戴尔XPS13Plus日本发布:全新设计,可选i5-1240P/i7-1

戴尔XPS13Plus日本发布:全新设计,可选i5-1240P/i7-1

,据PCWatch报道,戴尔在日本发布了全新的XPS13Plus笔记本,但没有公布价格和出...更多

2022-04-19 16:27:00
全球芯片库存不断累积,业界解读出现分歧

全球芯片库存不断累积,业界解读出现分歧

据彭博社报道,全球主要芯片制造商产成品库存正加速累积,这一现象引发业界担忧。尽管几家受访企...更多

2022-04-19 16:10:00
德龙激光明日申购顶格申购需配市值6.50万元

德龙激光明日申购顶格申购需配市值6.50万元

德龙激光明日开启申购,公司本次发行前总股本为7752.00万股,本次拟公开发行股票2584...更多

2022-04-19 16:01:00
SA:2021年全球智能手机批发ASP突破300美元大关

SA:2021年全球智能手机批发ASP突破300美元大关

StrategyAnalytics的WSS服务最新研究指出,2022年全球智能手机批发收益...更多

2022-04-19 15:31:00
第九届“云鼎奖”申报启动,见证行业过往十年辉煌征程!

第九届“云鼎奖”申报启动,见证行业过往十年辉煌征程!

3月1日起,由第十届全球云计算大会middot;中国站主办方英富曼集团牵头组织的第九届ld...更多

2022-04-19 15:16:00
人民币兑日元逼近20大关上热搜:日元贬值势头依然强劲

人民币兑日元逼近20大关上热搜:日元贬值势头依然强劲

4月19日,日元兑人民币,一度低至0.0499!截至18日上午12时,日本东京外汇市场日元...更多

2022-04-19 14:41:00
中国移动Ⅰ类铅酸蓄电池产品公开集采:总规模约8.778亿Ah

中国移动Ⅰ类铅酸蓄电池产品公开集采:总规模约8.778亿Ah

据中国移动发布的集采公告显示,本期集中采购产品为2V、12VⅠ类铅酸蓄电池产品,预估采购规...更多

2022-04-19 12:58:00
CITE2022观众登记全面开启,享VIP观众只需一步!

CITE2022观众登记全面开启,享VIP观众只需一步!

乘风破浪,破局爆发2022年5月17日第十届中国电子信息博览会即将于深圳会展中心惊艳亮相1...更多

2022-04-19 12:53:00