本文由 發(fā)布,轉(zhuǎn)載請注明出處,如有問題請聯(lián)系我們! 發(fā)布時間: 2022-10-22Copilot 要攤官司了,工作 20 年老程序員重新激活律師證,發(fā)起集體訴訟,還喊網(wǎng)友加入
加載中距離正式發(fā)布才剛 4 個月,GitHub Copilot 即將迎來一場集體訴訟!
發(fā)起人是一位干了 20 多年的程序員,來自美國的馬修?巴特里克(Matthew Butterick)。
他早在今年 6 月就“捶”了 Copilot 的開源許可證問題。
現(xiàn)在,馬修終于決定邁出實質(zhì)性的一步,在迅速激活自己的律師資格證后,和其他幾位律師一起合作“聲討”Copilot。
(這位老哥身兼數(shù)職,除了這倆身份還是設(shè)計師)
他在一篇專門的個人博客中細究了 Copilot 涉及的兩大法律問題,并指出 Copilot 不僅是“偷代碼”那么簡單,還會對整個開源社區(qū)造成諸多不良影響:
或許你不介意它未經(jīng)許可就用了你的開源代碼,但如果它也將由此抹去你和開源社區(qū)之間的聯(lián)結(jié)呢?
(若不明白這句話具體何義,請接著往下看~)
目前,這篇博客已在推特上得到了不少關(guān)注和轉(zhuǎn)發(fā)。
相關(guān)消息還引爆了 Hacker News 社區(qū)。
Copilot 有哪些問題?
先給不熟悉的朋友簡單介紹一下 Copilot。
它是內(nèi)嵌在 Visual Studio 等 IDE 中的一個代碼自動補全工具,支持多種主流編程語言。
根據(jù)已寫的內(nèi)容,它可以給出后續(xù)代碼建議 —— 不過和我們見到的普通自動補全功能不同,它可以生成諸如整個函數(shù)體這樣的大段代碼。
今年 6 月,Copilot 在經(jīng)過一年的免費試用后正式轉(zhuǎn)為付費工具,定價為 10 美元 / 月(人民幣約 67 元),年付則是 100 美元 / 年(人民幣約 669 元)。
它的到來,讓很多人都感嘆入門級別的程序員沒有用了。
不過問題也隨之而來。
Copilot 強大的編碼能力來自于一個叫做 Codex 的 AI,由 OpenAI 開發(fā)并授權(quán)給微軟。
Codex 是怎么訓練的呢?
盡管微軟含糊其辭,表示它的訓練源是數(shù)億行公共代碼;但 Copilot 的研究員還是道出了實情,都是出自于 Github 上的公共倉庫。
好了,馬修要狀告 Copilot 的第一個問題,也就跟 Copilot 的訓練過程有關(guān)。
馬修表示,微軟和 OpenAI 要想用 Github 上的開源倉庫進行訓練,要么遵守它們的開源許可證協(xié)議,要么「合理使用」。
如果是前者,微軟和 OpenAI 應(yīng)該至少發(fā)布大量的 attri-bu-tion 來獲得許可,但是大家沒有看到。
他們將自己歸到了后者,如 GitHub 前 CEO Nat Fried-man 在 Copilot 的技術(shù)預(yù)覽會所說:
在公開數(shù)據(jù)上訓練(機器學習)系統(tǒng)屬于合理使用。
不過,軟件自由保護組織(Software Freedom Conservancy,SFC)不同意這一“空口無憑”的說辭,要求他們提供法律依據(jù)來支撐自己的立場。
但是遲遲沒有得到答案。
馬修表示,這就是因為微軟和 OpenAI 給不出來啊。
第二個可能違法的問題,則是關(guān)于 Copilot 的使用。
馬修指出,微軟在面對 Copilot 用戶時對自己進行了免責。
微軟將 Copilot 給的代碼稱為“建議”,稱自己不從中主張任何權(quán)力,也不對它生成的代碼作任何關(guān)于正確性、安全性和產(chǎn)權(quán)相關(guān)的保證。
一旦你接受了 Copilot 給出的“建議”,如果出了問題都由你自己負責。
乍一聽還好,可是不止一人發(fā)現(xiàn) Copilot 一字不差地把原作者的代碼當成“建議”丟給用戶,連注釋都一并奉送的那種。
這要是直接采納可就要涉及許可問題了,可是 Copilot 根本不會注明這些代碼的來源,又該讓用戶如何遵守協(xié)議呢?
以上,便是馬修要控訴的兩大問題。
除此之外,他還表達了對開源社區(qū)文化的擔憂。
他認為,Copilot 的所作所為直接在程序員和開源社區(qū)之間砌起了一堵墻,讓程序員只管任意享用現(xiàn)成代碼,遠離源代碼本身,失去與源項目的問題討論、bug 跟蹤等互動和貢獻。
而這對開源社區(qū)將是一個永久的、痛苦的損失。
另一邊,對于“無故”奉獻了訓練代碼的開源作者來說,他們儼然被當作了資源的生產(chǎn)者。
馬修將這類人比喻成奶牛,由于 Copilot 對他們的項目沒有任何貢獻,他表示這奶牛是只出奶卻不被提供食物和住所的奶牛。
因此,他也將 Copilot 的本質(zhì),比喻為寄生蟲。
此外,你可能聽聞有人出于憤怒將自己的代碼搬出了 GitHub。
馬修告訴大家:其實微軟通過聲稱訓練 AI 是合理使用,正在搜索網(wǎng)上任何可以使用的公共代碼進行訓練。
可以說是“逃無可逃”。
于是在避免傷害變得無法彌補之前,馬修聲稱必須弄清 Copilot 的合法性。
他呼吁以下幾類人群加入他們的調(diào)查和訴訟隊列:
當然在博客最后,馬修還是特別聲明:
我本身并不反對 AI 輔助編程工具。
他提到,Copilot 本可以也很容易變得“友好”,比如讓作者自愿參與,或者有償征用。
質(zhì)疑聲從未停止
這次,看到有人帶頭牽起對 Copilot 的集體訴訟,許多程序員以及計算機相關(guān)領(lǐng)域的大佬們紛紛表示:
“附議!”
消息出來之后,德克薩斯 A&M 大學的一位計算機科學教授,并兼任 ACM、IEEE 和 SIAM 會員的 Tim Davis 順勢發(fā)推分享了自己的“遭遇”:
Copilot 沒有拿到 LGPL 許可證(函數(shù)庫公共許可證),就擅自發(fā)出了大段我的版權(quán)代碼。
并附上了證據(jù):
△ 左為 Copilot 給出的代碼,右為他自己的代碼
有網(wǎng)友表示:
Copilot 的這種行為屬于是完全不尊重開源社區(qū)。
還有網(wǎng)友犀利地指出,在模型訓練過程中,所謂的 AI“學習”,本身就是一種被勉強挪用過來的概念:
因為據(jù)現(xiàn)有法律,人類閱覽受版權(quán)保護的資料用于自己學習,是合法的;然后各大科技公司說,AI 也會“學習”,所以 AI 也沒有違反版權(quán)法。
但是 AI 并不像人類那樣自主(盡管很多公司稱 AI 很自主),這些模型其實都被背后的組織或公司等操控著,所以用“學習”來描述 AI 做的事并不太準確。
而且真人其實也經(jīng)常出現(xiàn)會違反版權(quán)法等問題……
所以,要定義 AI 在“學習”過程中到底是否“抄襲”了,以及存在具體哪種侵權(quán)行為,是一個非常棘手的問題,還需要更多的討論和明確規(guī)定。
誠然,Copilot 從去年的內(nèi)測階段起,其出色的編程能力確實驚艷了不少人。
而且這個 AI 后來還學會了“反向輸出”:
用“人話”來講解某一段代碼有什么用,幫助屏幕前的人看懂代碼。
但另一方面,不只現(xiàn)在,其實從 Copilot 剛出來開始,一直就有眾多質(zhì)疑和反對的聲音,核心都不外乎馬修在前文舉證的那兩點。(即這個 AI 的訓練和使用)
也正如前文所說,除了個人,還有 SFC 等組織也在聲討 Copilot。
而在今年 6 月份,GitHub 宣布 Copilot 結(jié)束內(nèi)測,開啟收費模式后,更是將大家的不滿情緒拔到了最高點。
除了免費引流再收費的商業(yè)模式讓人反感外,大家一致認為這的 AI 用開發(fā)者寫的代碼來訓練,不應(yīng)該回過頭向再開發(fā)者收費:
每一個曾向 GitHub 提交過代碼的人都應(yīng)免費使用!
于是,Copilot 正式版立刻遭到了抵制 ——
SFC 不僅自己要退出 GitHub,而且還號召其他軟件開發(fā)商同樣照做。
在 VS Code 插件市場上,Copilot 原本一直是 5 星好評,也一下子涌入了不少一星差評。
One More Thing
本次事件還讓人把目光延伸到了 AI 繪畫領(lǐng)域,有網(wǎng)友認為:
這種工具同樣也涉及侵權(quán)等問題。
最后,對于“大伙兒現(xiàn)在聯(lián)合把 Copilot 告上法庭”這件事,你覺得贏的勝算大嗎?
參考鏈接:
[1]https://githubcopilotinvestigation.com/
[2]https://Twitter.com/DocSparse/status/1581461734665367554
[3]https://news.ycombinator.com/item?id=33240341