[筆記] ChatGPT 是網上所有文字的模糊 JPEG 圖像

2023年3月19日 • 7 min read

姜峯楠（Ted Chiang）是華裔美國科幻小說作家，畢業於布朗大學計算機系。曾獲四項星雲獎、四項雨果獎、約翰·W·坎貝爾最佳新作家獎、四項軌跡獎等獎項。他的短篇小說《你一生的故事》在2016年被改編成電影《異星入境》

技術和科幻的雙重背景，讓其對 ChatGPT 具有了獨特見解，強烈推薦姜峯楠這篇極具洞察的原文《
ChatGPT Is a Blurry JPEG of the Web | The New Yorker》。

ChatGPT 是網上所有文字的有損壓縮

如果將網際網路上的所有文字看做是原件，考慮到處理速度和準確度，ChatGPT 實際上是這些文字的有損壓縮後一個自然語言交互介面。既然是有損壓縮，就會拋棄一些細節，甚至關鍵訊息。

關於有損壓縮可能會導致的問題，作者舉了一個形象的例子：

2013 年德國一家建築公司複印了一張房子平面圖，三個房間都有一個標籤來說明其面積：14.13，21.11 和 17.42 平方米。然後在複印件中，所有三個房間都被標記為 14.13 平方米。

經過調查發現，這台施樂複印機的工作原理是，先把文件掃描為數字圖像，然後再進行打印。為了節省空間，掃描為數位圖像時使用了一種被稱為 jbig2 的有損壓縮格式。複印機判斷 3 個房間的面積標籤非常相似，所以它只儲存了其中一個，然後在打印時對所有 3 個房間都重復使用了這一個標籤。

施樂複印機使用有損壓縮格式而不是無損格式，這本身並不是一個問題。問題是如果只是打印出模糊的照片，每個人都會知道這不是原件的準確複製品，但複印機打印出了清晰但不準確的圖片，可能會對使用者產生誤導。

在我們使用 OpenAI 的 ChatGPT 和其他類似大語言模型時，需要對這個例子銘記於心。ChatGPT 保留了萬維網上的大部分訊息，就像 JPEG 保留了高解析度圖像的大部分訊息一樣。但是，如果你要尋找精確的比特序列，你無法找到它，你得到的只是一個近似值。

可以看到，在 OpenAI 論文的最新真實性評估中，雖然 GPT-4 比過往模型高很多，但仍然有不低的概率生成錯誤答案（特別是在科技、程式碼和商業領域），我們需要小心。

我們對世界的認知，本質上也是對訊息的接收和壓縮。我們識別和拋棄不重要的訊息，留下重要的訊息，同時在這個過程中鍛鍊和使用了決策能力

我們對訊息的壓縮，是建立在對事實的理解上，最後留下的是「模糊的正確」
ChatGPT 並沒有真正的「理解」訊息，建立在統計規律上輸出「美麗的模糊」。

再看 2 個具體的例子：

(1) 如果讓 ChatGPT 計算 3457 * 43216，會給出錯誤答案 149299312（正確答案 149397712）。

最後一位正確是因為有很多以 6 和 7 結尾數字的乘法讓 ChatGPT 學習，但因為其並沒有真正理解算術原理，所以最後給出是錯誤答案。

(2) 對文字的任何分析都會揭示，「供應不足」這樣的短語經常出現在「價格上漲」這樣的短語附近。

當被問及有關供應不足的問題時， AI 可能會給出包含價格上漲的回答。如果 AI 已經編譯了大量經濟術語之間的相關性，多到可以對各種各樣的問題提供合理的回答，我們是否應該說它實理解了經濟理論？顯然沒有。

ChatGPT 擅長產生美麗的答案，但 美麗 ≠ 正確。

我們必須時刻銘記這一點，ChatGPT 輸出的結果可能會漂亮清晰但不準確，要識別它們就需要將它們與原件進行比較，否則就有可能基於瞎編的內容進行錯誤的決策。

有一種觀點，讓 ChatGPT 生成的文字作為作家在創作原創作品時的起點，讓作者把注意力集中在真正有創意的部分，這樣可行嗎？

作者認為，以一份模糊的非原創作品作為起點，並不是創作原創作品的好辦法，如果你是一個作家，在你寫原創作品之前，你會寫很多非原創的作品，花在非原創工作上的時間和精力不會被浪費。相反，正是它讓你最終能夠創作出原創的作品，花在選擇正確的詞彙和重新排列句子上的時間，教會了你如何透過文章傳達想要表達的意思。

讓學生寫論文不僅僅是一種測試他們對材料掌握程度的方法，這給了他們表達自己想法的經驗。如果學生從來不用寫我們都讀過的文章，他們就永遠不會獲得寫我們從未讀過的東西所需的技能。

那是不是脫離學生身份後，就可以安全地使用 ChatGPT 等大語言模型提供的樣板了呢？

然而並不是。想要表達自己想法的掙扎並不會在你畢業後消失。每當你開始起草一篇新文章時，這種掙扎就會出現。有時候，只有在寫作的過程中，你才能發現自己最初的想法，這點非常關鍵。

有些人可能會說，大語言模型的輸出看起來與人類作家的初稿沒有太大不同，但這只是表面上的相似，你的初稿不是「清晰表達的非原創想法」；它是「原創想法的拙劣表達」，它伴隨著你無定形的不滿，你意識到它所說的和你想說的之間的距離，這是在重寫時能夠指導你的東西，這是當你開始使用人工智慧生成的文字時所缺乏的東西。

基於「清晰表達的非原創想法」，會很容易讓人失去想法；而從「原創想法的拙劣表達」開始，逐步打磨，最終會收穫「原創想法的精確表達」，原創可能會成為玉石，非原創只會流於泛濫。

我們人類應該訓練想像力、決策和溝通能力，打造機器無法擁有的競爭力。