免费数据薅不到了!又有网站向AI公司开口要钱


免费数据薅不到了!又有网站向AI公司开口要钱

文章插图
【免费数据薅不到了!又有网站向AI公司开口要钱】IT问答网站Stack Overflow日前宣布,计划从今年年中起,向大型AI开发商收取数据访问费用,付费后才可以获取该平台上的5000万个问题与答案 。
Stack Overflow是一个程序设计领域的问答网站,隶属Stack Exchange Network 。网站上最常见的问答主题包括JavaScript、Java、C#、PHP、Android、Python、jQuery和HTML等 。如今其注册用户已超过2000万 。
其首席执行官Prashanth Chandrasekar表示,“社区平台推动了大语言模型(LLM)发展,所作出的贡献也必须得到补偿 。”
同样也是在本周,美国新闻媒体联盟(The News/Media Alliance,前美国报业协会)公布多项原则 , 呼吁AIGC开发公司就数据使用展开谈判,并要求这些开发公司尊重新闻媒体获得公平补偿的权利 。
环球音乐集团(Universal Music Group)近日也发出警告,阻止AI服务从其受版权保护的歌曲中抓取旋律和歌词 。
▌科技巨头或成主要收费对象 马斯克已作出“价格示范”
实际上,OpenAI、谷歌、Meta等多家科技公司在建立大规模AI项目时,历来不会为大部分训练数据付费,而是选择从网络直接“搜刮”,数据来源便囊括上文提到的Stack Overflow和Reddit 。当然,在美国此举通常被看作合法行为,但仍存在一些版权与网站条款争议 。
但即便在这种情况下,ChatGPT等一系列AI大模型/聊天机器人的开发费用也已高达数亿美元 。随着Reddit、Stack Overflow等网站开始“开口要钱”,这些科技巨头的AI开发费用未来很可能“再上一层楼” , 而技术开发时间或也将进一步延长 。
至于具体如何收费?不论是Stack Overflow还是Reddit都暂未发布价格信息 。
Reddit透露,“我们正在处理这个问题,将在未来几周内与合作伙伴分享更多信息 。”Stack Overflow则表示,公司将借鉴研究Reddit的策略,并与潜在客户展开协商,目前已与部分客户就数据访问进行接触 。
这两家公司的收费方案或许都将针对大型科技公司:Stack Overflow称希望收费对象仅限于以商用为目的开发LLM的大型公司;Reddit也有类似表态 。而其余用户与公司则有望继续免费使用数据 。
而马斯克或许也为这两家公司提供可供借鉴的定价方案——本月马斯克已提高推特数据访问价格,起价为每月4.2万美元,可访问5000万条推文 。而就在本周三 , 马斯克刚刚指控微软非法使用推特数据来训练其AI模型,还直言“诉讼时间到”,警告要起诉微软 。