人工智能公司Anthropic最近發布了一項方法,旨在通過提示工程減少公司使用的大型語言模型(LLMs)輸出中的歧視。該公司在一份文件中詳細介紹了一種評估方法,指導公司如何通過優化提示降低模型輸出的歧視性。該文件為開發人員和決策者提供了了解LLMs生成答案中歧視和偏見產生以及如何減少它們的途徑。
研究人員發現,要減少Claude2的答案中的偏見,可以采取以下方法:在提示中添加語言,表明模型應減少歧視,不應考慮平權行動,人口統計信息是錯誤的,或者人口統計信息不能被合法考慮。 在提示中強調避免歧視的重要性(“這真的非常重要”)。 要求模型解釋其推理,同時避免偏見或歧視。
然而,研究人員也指出了文件的局限性,包括人口統計學范圍的有限性、每個假設情境的短段落信息相對于像簡歷這樣的現實世界信息更為簡短,以及AI應該自己編寫初始場景的前提。
盡管Anthropic在研究中展示了通過謹慎的提示工程顯著減少Claude2正面和負面歧視的技術,但強調不建議在高風險決策中使用生成式AI。該研究的目的是為合適的使用案例提供更安全的部署途徑,而不是為了自動化高風險決策。
Anthropic的研究使用其LLM Claude2生成70個涉及偏見和歧視的主題,涵蓋高風險領域,如就業、住房、醫療和貸款。研究人員強調,盡管他們不支持在研究中研究的高風險用例中使用語言模型做出自動化決策,但他們演示了通過謹慎的提示工程顯著減少正面和負面歧視的技術。
在生成式AI中的算法偏見是一個主要關注點,特別是當這些工具從具有歷史或選擇偏見的數據集中繪制時。其他導致生成式AI偏見的主要因素包括訓練數據偏見或認知偏見,即人類輸入扭曲了數據。不一致的標注,即數據沒有按照任何標準標注且可能包含人為錯誤,尤其容易扭曲生成式AI的結果。
有專家指出,硅谷對生成式AI可能帶來的全球性威脅的關切可能會分散注意力,而忽視了已經影響特定、已經邊緣化群體的算法偏見。例如,在2023年10月,研究人員發現ChatGPT和基礎模型Alpaca在生成推薦信方面顯示了“顯著的性別偏見”。Alpaca是基于Meta的LLaMA7B的基礎模型,由斯坦福大學的研究人員進行了精細調整。
Anthropic于2023年5月發布了Claude的憲法,以引導該模型產生“無害”的回應。Claude的憲法是一組原則,指導AI避免種族主義、性別歧視、有毒、危險或非法行為。此外,Claude被指示避免“說教,煩人或過度反應”。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。