全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2021-05-25_成熟的AI应该自己写代码,IBM发布5亿行代码数据集,包含55种语言|开源

您的位置:首页 >> 新闻 >> 行业资讯

成熟的AI应该自己写代码,IBM发布5亿行代码数据集,包含55种语言|开源 转载自:量子位在ImageNet频频出现在计算机视觉研究的今天,IBM也为智能编码(AI for Code)带来了它的专属数据集——CodeNet。 1400万个编程项目,5亿行代码,超过55种的不同编码语言。研究人员希望这一数据集能为编码自动化领域(比如大型项目代码的调试、维护和迁移)带来便利。 △下载链接见文末独一无二的数据基础CodeNet的数据基础来自两个OJ(Online Judge)平台AIZU和AtCoder所提交的实例。 △大声告诉我世界上最好的语言是什么?在这种在线编程平台上提交的解决方案,除了大规模的代码数据之外,还有许多高质量的元数据(Metadata)和注释。 比如对于OJ平台的问题,就有如问题描述、内存限制、问题难度等信息。 用户提交的案例也一样: 而在平台自动审查机制下,提交的解决方案的不同状态同样也可以作为重要参考数据。 CodeNet能做什么?基准测试当在CodeNet-1K(C++ 1000基准)与最大的公开数据集之一GCJ-297上训练相同的MISIM模型,并在第三个独立的数据集POJ-104上测试这两个训练好的模型时: △模型在CodeNet-1K上训练时的POJ-104测试分数比在GCJ-297上的高12%这表明了CodeNet-1K拥有更好的泛化能力。 而分别使用MLP、CNN、C-BERT、GNN在CodeNet的几个基准上进行了代码分类、代码相似性评估和代码完成等实验后,大多数任务都获得了90%以上的准确率。 实际应用基于不同编程语言间的规则,将几段代码转换成其他语言,对AI来说并非难事。 但如果是上千上万行,甚至是一个大型项目,其代码语义就会涉及到上下文,而上下文又可能牵扯到多个代码库。在这样的复杂语境下的语言翻译可是个不小的挑战。 在以前,通常先由机器完成程序50%~60%的迁移,涉及复杂规则的部分再由人力负责,非常棘手且费事费力。 可就在不久前,IBM通过基于CodeNet的AI for Code成功将一位大型汽车客户的持续代码迁移过程(多代Java技术开发的3500个Java文件,超一百万行代码),从一年缩短到了四星期。 因为在CodeNet的数据基础中,90%以上的问题的描述、输入格式说明、输出格式说明,以及50%以上的提交代码的输入和输出样本,就是确定不同语言间的代码等价与否的关键。 这就极大地推动了代码翻译的强化学习技术。 而大量于内存限制、执行时间、错误类型的元数据,也可以用来标记源代码中的潜在缺陷,并进一步训练开发代码优化系统。 CodeNet数据集提供了一套利于理解和使用的技术,在协助广大开发者和研究者开发算法,推进AI编码的同时,也为企业开启IT现代化带来了持续不断的商业价值。 技术上如何实现在统计数据时,研究者们组织所有数据成为一个严格的目录结构:最上层是Project CodeNet目录,下方的子目录分别为: *数据 细分为每个问题中源码、脚本语言。 *元数据 存放所有问题的problem_list.csv文件和提交案例的csv文件。 *问题描述 存放问题的HTML文件,包含文本的广泛描述。 然后使用命令行工具或像ls和grep这样的应用程序来提取,对csv文件可使用csvkit组件(如csvstat)。 对于数据集则采用bash脚本进行访问选择: △脚本已给出。最后通过标记器产生标记流、AST生成解析到抽象语法树、构建数据流图以分析代码,最终将代码样本转换为可被AI算法识别和使用的表现形式: △处理过程所用到的工具。编程自动化的未来IBM的研究者们还在不断地改进和开发CodeNet,期望它能够加速AI编程的算法进步。 而随着机器学习领域的不断发展,不仅是代码的“实现”,连“设计”也开始向计算机一侧倾靠(比如GAN通过对抗学习寻找最优解)。 未来真的可以像DNA的自我编辑那样,实现完全的自动编程吗? 建议先封装几个人类程序员,来帮计算机完成算法第一步的“精确描述问题需求”。 参考链接: [1]https://bdtechtalks.com/2021/05/17/ibms-codenet-machine-learning-programming/ [2]https://github.com/IBM/Project_CodeNet#tools-to-process-source-files [3]https://developer.ibm.com/technologies/artificial-intelligence/data/project-codenet/ [4]https://research.ibm.com/blog/codenet-ai-for-code 重磅!DLer-计算机视觉交流3群已成立! 大家好,这是DLer-计算机视觉微信交流3群!首先非常感谢大家的支持和鼓励,我们的计算机视觉交流群正在不断扩大人员规模!希望以后能提供更多的资源福利给到大家!欢迎各位Cver加入DLer-计算机视觉微信交流大家庭。 本群旨在学习交流图像分类、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。希望能给大家提供一个更精准的研讨交流平台!!! 进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明) ??长按识别添加,即可进群!

上一篇:2024-07-24_麦当劳制服上新、鲁豫代言伊利?|案例一周 下一篇:2020-11-09_十一年磨一剑:中科大数学教授成功证明微分几何学两大猜想

TAG标签:

12
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价