至顶网CIO与应用频道 02月27日 编译:机器学习、人工智能、区块链、预测分析——所有令人惊叹的技术都承诺将革新商业和社会。
但如果没有数据的话,这些技术就一无是处。所幸的是,对于那些没有资源有条不紊收集每一条有用信息的企业和组织而言,他们可以免费从网上得到庞大(并且不断增加)的数据。
我们列出了2018年的30个免费在线大数据来源:
1、 世界银行开放数据(World Bank Open Data),是涵盖了全球人口统计数据、大量经济和发展指标的数据集。
2、 国际货币基金组织数据(IMF Data),国际货币基金组织公布的国际财务状况、债务率、外汇储备、商品价格和投资数据。
3、 美国国家教育统计中心(The US National Center for Education Statistics Data),提供了覆盖美国和世界各地的教育机构和教育人口统计的数据。
4、 英国数据中心(The UK Data Centre)是英国最大的社会、经济和人口的数据集。
5、 FiveThirtyEight,有大量提供政治和体育问题舆论数据的民意调查。
6、 FBI统一犯罪报告(FBI Uniform Crime Reporting),联邦调查局负责编辑和出版国家犯罪统计数据,并在国家、州和县级提供免费数据。
7、 美国司法局(Bureau of Justice),在这里你可以找到关于美国执法机构、监狱、假释和缓刑机构及法院的数据。
8、 Qlick Data Market提供免费包,可访问涵盖世界人口、货币、发展指标和天气数据的数据集。
9、 美国宇航局外行星存档(NASA Exoplanet Archive)的公共数据集涵盖了由美国宇航局空间探索任务收集的行星和恒星数据。
10、 联合国贸易数据库(UN Comtrade Database Statistics)统计是由联合国汇编并出版的资料,包括Comtrade Lab,展示了如何使用尖端分析和工具从数据中提取价值。
11、 金融时报市场数据(Financial Times Market Data)是关于全球金融市场的最新信息,包括股票价格指数、商品和外汇。
12、 谷歌趋势(Google Trends)是检查和分析全球互联网上搜索活动和趋势新闻的数据。
13、 Twitter,Twitter的优势在于大多数对话都是公开的,这意味着大量的数据可以通过其API获得,谁正在谈论什么,何地、何时以及为什么。
14、 谷歌学术(Google Scholar)包括学术论文、期刊、书籍和法律判例法的文本内容。
15、 Instagram,与Twitter一样,Instagram的帖子和对话默认为公开,其API允许对喜欢、提及和商业细节进行分析。
16、 OpenCorporates是全球最大的企业开放数据库。
17、 Glassdoor API提供了有关职位空缺、候选人、薪水和员工满意度的信息,可通过他们的开发者API获得。
18、 IMDB Datasets,是从网络上最大的电影、电视和从业人员中获得的多种格式数据集。
19、 OpenLibrary Data Dumps是关于世界各地图书馆书籍目录的数据集。
20、 Labelled Faces in the Wild整理并标记了13,000个人脸图像,用于开发涉及面部识别的应用。
21、 Microsoft Marco是微软的开放式机器学习数据集,用于阅读理解和问题回答的培训系统。
22、 机器学习数据集知识库(Machine Learning Dataset Repository)由集合了由参与机器学习项目的数据科学家贡献的开放数据集。
23、 易趣市场数据洞察(eBay Market Data Insights)提供了来自eBay的数以百万计的在线销售和拍卖数据。
24、 自然历史博物馆数据门户(Natural History Museum Data Portal)提供了关于伦敦博物馆藏品中近400万个历史标本的信息,以及自然世界的科学录音。
25、 欧洲核子研究中心开放数据(CERN Open Data),欧洲核子研究中心开展的粒子物理实验提供了超过1PB的数据。
26、 One Million Audio Cover Images数据集托管在archive.org上,涵盖世界各地发布的音乐,用于图像处理研究
27、 Complete Public Reddit Comments Corpus,2007年至2015年期间在Reddit上发布的10多亿份公共评论,用于训练语言算法。
28、 Microsoft Azure Data Markets Free Datasets,提供了涵盖从农业到天气所有内容的免费数据集。
29、 Irish Electric Vehicle Charge Point Status收集了这个负责爱尔兰共和国和北爱尔兰电动汽车充电站网络数据机构的数据。
30、 LondonAir提供了来自伦敦各地的污染和空气质量数据。
 0赞
0赞好文章,需要你的鼓励
 推荐文章
                    推荐文章
                  虽然ChatGPT等AI工具正在快速改变世界,但它们并非无所不知的神谕。ChatGPT擅长"令人信服的错误",经常提供有偏见、过时或完全错误的答案。在健康诊断、心理健康、紧急安全决策、个人财务规划、机密数据处理、违法行为、学术作弊、实时信息监控、赌博预测、法律文件起草和艺术创作等11个关键领域,用户应避免完全依赖ChatGPT,而应寻求专业人士帮助。
Meta超级智能实验室联合佐治亚理工学院开发出RECAP训练方法,通过故意给AI模型误导性开头来训练其纠错能力。该方法显著提升了大语言模型的安全性(12.3%)、抗攻击能力(21.0%)和推理质量,同时减少过度拒绝问题。RECAP无需额外计算资源,能让AI模型学会自我反思和批判性思维,为构建更可信的AI系统提供了新思路。
微软重启三里岛核反应堆的协议确认了AI革命与能源现实主义的融合。亚马逊和谷歌也达成类似协议,共同押注核能为AI未来提供最可行的动力路径。到2030年代,数据中心用电量可能媲美大国水平。国际能源署预测全球电力需求到2050年将增长六倍。核电厂90%的容量因子使其独特适合数据中心需求。世界核协会估计,当前全球398GW核能产能必须在2050年前至少增长两倍。
奥地利科学技术研究院团队深入研究微缩浮点数格式NVFP4和MXFP4的实际性能,发现现有量化方法效果不佳。他们开发了微旋转GPTQ算法和QuTLASS计算库,在保持模型精度的同时实现显著加速:B200芯片上达到2.2倍端到端提升,RTX5090上实现4倍加速,为AI推理优化提供了新的解决方案。
 
             
                 
                     
                     
                    