OpenAI 再惹禍?個人信息合規成“鎖喉”難題?

訪客 1年前 (2024-02-20) 閱讀數 217 #區塊鏈
文章標簽 前沿文章

來源:肖颯lawyer

OpenAI 再惹禍?個人信息合規成“鎖喉”難題?

上個月,意大利隱私監管機構Garante出具的調查結果認為,OpenAI公司存在一項或多項違反歐盟法規的行為,ChatGPT用于收集用戶數據的技術已經違反了該國的隱私法。掀起生成式人工智能熱潮的ChatGPT再次陷入數據合規風波。

數據和算力是生成式人工智能的核心。數據安全是生成式人工智能合規的核心問題,在人工智能對數據日益增長的依賴性的背后,生成式人工智能秘密收集數據,對“知情同意”原則和“最小必要”原則帶來了嚴重挑戰。與此同時,生成式人工智能在運行階段包含著巨大的數據泄露風險。這對個人信息的保護帶來了嚴重威脅。颯姐團隊今日就談談生成式人工智能對個人信息安全帶來的挑戰與合規要求。

01?語料庫數據的收集與使用

根據數據來源,大致可將涉個人信息的數據分為涉及個人信息的語料庫數據以及涉個人信息數據的用戶上傳的數據。

生成式人工智能對數據具有高依賴性,需要大量的數據滿足訓練要求。這決定了,生成式人工智能往往會主動收集、處理公開和非公開的數據,預訓練數據的規模通常可以達到數十億甚至上百億個參數量。若其中存在個人信息,根據《個人信息保護法》第27條的規定,“個人信息處理者可以在合理的范圍內處理個人自行公開或者其他已經合法公開的個人信息;個人明確拒絕的除外。個人信息處理者處理已公開的個人信息,對個人權益有重大影響的,應當依照本法規定取得個人同意?!薄渡墒饺斯ぶ悄軙盒泄芾磙k法》第7條也強調,“生成式人工智能服務提供者(以下稱提供者)應當依法開展預訓練、優化訓練等訓練數據處理活動,遵守以下規定:……(三)涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形?!比欢?,由于數據庫數據規模過于龐大,逐一獲得信息主體的同意這一要求難以實現。

既然獲取信息主體的同意這一條路難以走通,那直接把數據庫中的個人信息刪掉可以嗎?這也存在困難。一方面,當前缺乏行之有效的個人信息清洗算法,存在一定的技術悖論;另一方面,數據庫規模之巨大導致人工清洗數據的成本極高,且存在個人信息二次泄露的風險。有研究指出,基于命名實體識別的數據清理技術,對臨床健康數據的召回率為97%(姓名)和80%(護理單元編號)。換言之,在語料庫、數據庫中存在個人信息的情況下,在訓練階段,個人信息的清洗效果較差,科技公司存在合規風險。颯姐團隊提醒,科技公司在使用語料庫數據進行訓練時,應當盡量選擇不包含個人信息的數據集,同時盡可能提高識別算法的準確性,對識別的個人信息進行匿名或裁剪。在審核端采取機器過濾機制加人工審核機制,也是利大于弊的合規措施。

02?用戶上傳信息的收集與使用

用戶上傳數據可分為“用戶積極投喂的數據”和“用戶消極投喂的數據”。所謂用戶積極投喂的數據,系指用戶為獲得生成式人工智能的反饋而上傳的特定數據。所謂用戶消極投喂的數據,系指用戶為使用含生成式人工智能算法的應用程序或設備的其他功能而上傳的數據。

生成式人工智能的運行通常需要用戶主動“投喂”一定的數據,再基于算法進行分析、反饋。在這一過程中,人機交互數據將被加以記錄、存儲和分析,并可能成為模型算法更迭訓練的數據。但在服務提供者未盡提示義務、用戶缺乏安全意識等語境下,用戶投喂的數據中很可能包含用戶個人外貌、住址、聯系方式等個人信息。生成式人工智能復雜的服務模式與多元的應用場景加劇了這一風險。隨著數字技術的發展,用戶的身份與其聯系方式、人臉數據、指紋等深度綁定,而生成式人工智能常會收集到大量個人信息。例如,某AI公司的知名聊天機器人程序應用范圍涵蓋教學、科研、金融、傳媒和娛樂等眾多領域,用戶與其進行的聊天記錄中包含大量敏感信息,如個人身份、偏好、習慣等。這些數據若落入不法之手,將導致個人隱私遭到侵犯、身份盜用、金融欺詐等風險,對用戶造成直接損害。

此外,生成式人工智能的使用場景廣泛,常被嵌入各大應用程序乃至設備中。例如,今年1月,某瀏覽器已宣布引入3大生成式AI能力,某公司已推出全球首款搭載生成式人工智能技術的智能手機。即使未使用生成式人工智能技術,用戶在使用相關應用程序乃至設備時,不可避免地會將產生、上傳數據,而數據中很可能存在涉嫌個人信息的內容。

《生成式人工智能暫行管理辦法》第十一條規定,“提供者對使用者的輸入信息和使用記錄應當依法履行保護義務,不得收集非必要個人信息,不得非法留存能夠識別使用者身份的輸入信息和使用記錄,不得非法向他人提供使用者的輸入信息和使用記錄。提供者應當依法及時受理和處理個人關于查閱、復制、更正、補充、刪除其個人信息等的請求?!?《個人信息保護法》《兒童個人信息網絡保護規定》等法律法規對數據存儲的期限制定了強制性規定。基于此,用戶主動投喂的涉嫌個人信息的這類信息是否可以被服務提供者記錄、存儲以及存儲的期限是有待商榷的。

同時,這類信息是否能被用于訓練算法也存在一定爭議?!渡墒饺斯ぶ悄軙盒泄芾磙k法》第7條強調,“生成式人工智能服務提供者(以下稱提供者)應當依法開展預訓練、優化訓練等訓練數據處理活動,遵守以下規定:……(三)涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形。”初次使用獲得的用戶授權不足以覆蓋算法訓練階段數據使用的要求,科技企業必須有更明確的使用授權,或在符合法律法規的規定的其他情形的情況下,才能利用這類數據,否則可能會觸犯民法、行政法甚至刑法的相關規定。但是,即使獲得了用戶的明確授權,生成式人工智能的運行階段存在巨大的數據泄露風險,科技公司只有在確保數據的安全性的情況下,才可對涉個人信息數據加以利用。

為了提高生成質量,許多科技公司會想盡辦法豐富數據保有量,提高數據聚集度。例如,某AI公司的《隱私政策》第2條標明,“我們可能會對個人信息進行匯總或去標識化處理,使其不再用于識別您的身份,并使用此類信息來分析我們服務的有效性、改進和添加我們服務的功能、進行研究和其他類似目的。”這是一種可行的方案,但是,根據“知情同意”原則,服務提供者承擔告知義務,即服務提供者需將被收集的數據對象、數據用途和可能存在的風險等提前向信息主體說明,并在取得信息主體同意后才能實施收集行為。同時,科技公司應當為用戶提供拒絕使用其個人信息的選項,而不應當將該條款變為僵硬的、強制性的通知條款。此外,根據“最小必要”原則,科技公司收集的涉個人信息應當采取與實現目標相關的、影響最小的方式,明確、具體地收集用戶的個人信息。

03?寫在最后

與傳統人工智能相比,生成式人工智能往往有更強的信息收集主動性與更高的數據濫用風險。生成式人工智能需要持續地通過大規模的語料庫、數據集來強化上下文理解能力,以不斷升級和優化自身,在包括數據收集、數據存儲、數據處理和數據生成的生成式人工智能運行各階段內,不可避免地會涉及諸多個人信息、產生諸多法律與合規風險。而大數據時代個人信息的內涵與邊界的模糊化、法律法規的滯后性與對技術成果的追求,也導致部分科技公司忽視了此類風險。颯姐團隊提醒,合規是行業健康發展的前提與保障,追求成功的同時切勿對法律紅線掉以輕心。

熱門
主站蜘蛛池模板: 80s国产成年女人毛片| 久久精品国产99国产精品| 精品亚洲成a人在线观看| 国产好爽…又高潮了毛片| 91蜜桃传媒一二三区| 性中国videossex古装片| 久久最近最新中文字幕大全 | 国産精品久久久久久久| 一级性生活免费| 日本一道本在线| 乱人伦人妻中文字幕无码| 欧美日韩一区二区三区四区在线观看| 免费一级毛片在线播放| 老司机67194精品线观看| 国产又黄又爽又刺激的免费网址 | 日韩免费中文字幕| 亚洲人成日本在线观看| 欧美综合自拍亚洲综合图片区| 免费看男阳茎进女阳道动态图| 色噜噜狠狠狠狠色综合久不| 国产成人免费在线| 天堂在线最新资源| 欧美成人免费全部| 人人妻人人做人人爽| 精品无人区无码乱码毛片国产| 国产精品成在线观看| 9自拍视频在线观看| 最新电影天堂快影eeuss| 亚洲欧美日本另类激情| 狠狠色狠狠色综合日日不卡| 北美伦理电线在2019| 脱裙打光屁股打红动态图| 国产午夜无码精品免费看动漫| 欧美色图五月天| 国产精品久久久久久影视| 911色主站性欧美| 国语对白一区二区三区| chinese乱子伦xxxx视频播放 | 视频一区视频二区在线观看| 国产成人免费手机在线观看视频 | 99re66热这里都是精品|