回顧最初 7 天的公開測試,微軟必應團隊表示,他們沒有“完全預計到”,人們會使用聊天界面來進行“社交娛樂”,或是將其作為一種“全面發現世界”的工具。該團隊發現,如果聊天會話持續 15 個或更多的問題,新版必應的模型會感到困惑。這些較長的聊天也會讓必應“變得翻來覆去,或者受到刺激,做出不一定有幫助,或是與設計語氣一致的回應”。
微軟暗示,盡管文本輸入框旁邊有一個“新話題”按鈕,可以用于清除聊天的歷史記錄,重新開始,但接下來還可能增加“一個工具,幫助用戶更方便地刷新”聊天會話的上下文。
更大的問題在于,在這些提問較多的聊天中,必應經常會以不正確的語氣回應,或是像微軟所說的,以“我們不想要的方式”做出回應。微軟表示,對大多數必應用戶來說,只有長時間對話才會遇到這方面問題。不過,微軟也在探索更多的“微調控制”,以避免必應對用戶說,用戶是錯的,以及表現得粗魯或試圖操縱用戶。在一些測試中可以看到,在關于必應本身的對話中,只要幾個問題,必應就會以負面或存在敵意的語氣來回復。
微軟仍在努力優化必應做出回復的語氣,而必應團隊也在考慮更多的控制選項,用于設定人工智能的創造性和精確度。這種控制選項可能有助于避免目前的問題,例如必應會聲稱正通過筆記本攝像頭來刺探微軟員工,或是出現基礎性的數學錯誤。
微軟目前正在超過 169 個國家對新版必應展開測試,有數百萬人正排隊注冊。微軟表示,對答案的反饋有 71% 是正面的,一些用戶甚至與新版必應進行了長達兩個小時的對話,以測試服務的極限情況。
新版必應目前每天都在得到優化,一些技術問題在微軟的日常版本發布中得到修復,還有一些問題則在每周發布的大版本中得到修復。微軟正在嘗試優化搜索和回答,尤其是圍繞體育賽事比分數據,以及必應最近出現的一些財務數據錯誤。必應團隊表示:“對于那些需要更直接、事實性更強的答案的問題,例如財報數字,我們計劃將發給模型的基礎數據增加 4 倍。”
微軟還在觀察對新功能的反饋,這些功能包括預訂機票、發送電子郵件,以及分享搜索和答案等。目前尚不清楚,這些新功能最終是否會被加入到產品中,但必應團隊表示,正在研究在未來的版本中包含這些功能。
文章來源:http://www.codekj.com/html/news/xwdt/2023_02/17/3022117.html