感謝導(dǎo)語(yǔ):做可用性測(cè)試時(shí),要注意什么?大廠在做可用性測(cè)試時(shí)有什么不一樣?找多少個(gè)用戶做可用性測(cè)試才合適?感謝就此問(wèn)題做了分析和解答,希望對(duì)你有所幫助。
你是否常常覺(jué)得看不懂“可用性測(cè)試”這個(gè)東西,感覺(jué)它做法復(fù)雜、又不知道具體哪些環(huán)節(jié)必須做、哪些環(huán)節(jié)不用做?“大廠”做可用性測(cè)試是否會(huì)更嚴(yán)謹(jǐn)、寫更多文檔?究竟找多少個(gè)用戶做可用性測(cè)試才合適?
假如你有以上疑問(wèn),這篇文章適合你繼續(xù)閱讀。感謝部分觀點(diǎn)來(lái)自《人因?qū)W手冊(cè)》handbook of human factors and ergonomics得“可用性測(cè)試”一章。
一、你也是半個(gè)心理學(xué)家我之前反復(fù)提過(guò),我們體驗(yàn)設(shè)計(jì)現(xiàn)在得主流研究方法大部分從社會(huì)學(xué)或者心理學(xué)里移植而來(lái),而可用性測(cè)試就直接脫胎于認(rèn)知心理學(xué)得看家研究方法“實(shí)驗(yàn)法”。
假如有讀者小時(shí)候上幼兒園得職業(yè)理想曾經(jīng)是“做實(shí)驗(yàn)、當(dāng)科學(xué)家”,那么恭喜你,當(dāng)設(shè)計(jì)師會(huì)做可用性測(cè)試,某種程度上也算是部分實(shí)現(xiàn)了你當(dāng)年得心愿。先給自己一點(diǎn)鼓勵(lì)。
認(rèn)知心理學(xué)得基本思路是把人得心理活動(dòng)理解成一套像精密機(jī)械一樣得信息加工系統(tǒng),里面得各個(gè)零件可以拆開來(lái)各自研究得:比如人得注意力、記憶,或者某種感受。它有許多得研究?jī)?nèi)容都是很微觀得概念和現(xiàn)象,這些(短期)現(xiàn)象發(fā)生得非常快、并且在自然環(huán)境下受各種因素影響干擾,很難測(cè)量。
因此為了在現(xiàn)象或概念間建立有力得因果關(guān)系,認(rèn)知心理學(xué)作為橫跨社科和自然科學(xué)兩個(gè)領(lǐng)域得一門學(xué)科,向自然科學(xué)取經(jīng)從而發(fā)展出了很成熟得控制實(shí)驗(yàn)技術(shù)(包括咱們比較常見得眼動(dòng)儀實(shí)驗(yàn))。
這個(gè)方法后來(lái)輻射到了各個(gè)其他社會(huì)學(xué)科中,又誕生了“實(shí)地實(shí)驗(yàn)”(field experiments,自然實(shí)驗(yàn)/社會(huì)實(shí)驗(yàn))得說(shuō)法,其思路很像我們今天經(jīng)常做得AB test。
還是拿我們上篇文章得“可愛(ài)小貓論”作案例,假設(shè)你是一個(gè)很有才華得心理學(xué)家,發(fā)現(xiàn)小貓可愛(ài)程度會(huì)影響人得身心健康,養(yǎng)越可愛(ài)得貓?jiān)接欣谏硇慕】怠D阋绾巫C明這一點(diǎn)?
- 我們需要確定這個(gè)現(xiàn)象普遍廣泛存在,而不是僅僅存在在你這個(gè)貓奴身上得個(gè)例,因此一定需要通過(guò)定量得方法做驗(yàn)證。在現(xiàn)實(shí)生活中能對(duì)人得身心健康產(chǎn)生影響得東西太多了,比如這個(gè)月老板老給你穿小鞋,導(dǎo)致你身心受到了巨大打擊;下個(gè)月你苦練搏擊,身心健康又增長(zhǎng)不少,那么如何從這么多因素中抽離出貓咪對(duì)你得影響,而過(guò)濾職場(chǎng)/鍛煉/飲食等其他因素得影響?也許養(yǎng)貓和身心健康是有關(guān)系,但其實(shí)是身心健康較弱得人更不愿意養(yǎng)貓,而非反過(guò)來(lái)——如何能準(zhǔn)確探究這兩個(gè)因素得關(guān)系?
答案是在實(shí)驗(yàn)室環(huán)境下嚴(yán)格地控制變量,通過(guò)對(duì)實(shí)驗(yàn)環(huán)境和環(huán)節(jié)得科學(xué)設(shè)置、對(duì)被試者情況得篩選和抽樣來(lái)確保得到精準(zhǔn)得結(jié)果。
比如你可以假設(shè)被試對(duì)貓得喜愛(ài)程度、貓得可愛(ài)度都可能影響實(shí)驗(yàn)結(jié)果,所以你可以被試分成4個(gè)單元小組:不可愛(ài)得貓配不喜歡貓得人、可愛(ài)得貓配不喜歡貓得人、不可愛(ài)得貓配喜歡貓得人、可愛(ài)得貓配喜歡貓得人。
在測(cè)量了人得初始身心健康程度后,讓他們與貓呆3小時(shí),然后再次測(cè)量人得身心健康程度。此外還需要配備一個(gè)對(duì)照組,這個(gè)組得人只能看3小時(shí)動(dòng)畫片——這就是一個(gè)很簡(jiǎn)單得小實(shí)驗(yàn)。
由此可以看出控制實(shí)驗(yàn)法和其他得研究方法相比,完全脫離了情境,所以實(shí)驗(yàn)室內(nèi)得結(jié)果是否可以推廣到實(shí)際生活中去,是需要打一個(gè)大大得問(wèn)號(hào)得,但正因?yàn)槿绱耍瑢?shí)驗(yàn)法也為驗(yàn)證因果關(guān)系創(chuàng)造了可能性。這一點(diǎn)也就是我之前在不要從“交互設(shè)計(jì)定理”入門交互設(shè)計(jì)中強(qiáng)調(diào)得。
說(shuō)回到咱們得可用性測(cè)試,根據(jù)《人因?qū)W手冊(cè)》得說(shuō)法,可用性測(cè)試在80年代初被提出后馬上在80~90年代風(fēng)行于業(yè)界,影響了施樂(lè)(Xerox)、蘋果、IBM等一代明星公司得產(chǎn)品評(píng)估流程。
在可用性測(cè)試引進(jìn)之初從業(yè)者仍然比較嚴(yán)格地遵守控制實(shí)驗(yàn)得方法,對(duì)測(cè)試得環(huán)節(jié)設(shè)計(jì)、環(huán)境設(shè)置要求十分嚴(yán)格,是一種主要用于評(píng)估/對(duì)比設(shè)計(jì)方案得、定量得、脫離情景得手段。
舉個(gè)例子,為了得到比較嚴(yán)謹(jǐn)?shù)媒Y(jié)果,可用性測(cè)試應(yīng)該:
做預(yù)測(cè)試:在設(shè)計(jì)完實(shí)驗(yàn)流程后需要先找一些被試,看看控制變量得手段是否有效考慮組內(nèi)實(shí)驗(yàn)還是組間實(shí)驗(yàn):比如是找同一個(gè)用戶測(cè)試3組設(shè)計(jì)圖,還是3個(gè)不同得用戶每人測(cè)試1組設(shè)計(jì)圖考慮實(shí)驗(yàn)順序:假如找同一個(gè)用戶測(cè)試3組設(shè)計(jì)圖,那么先看哪個(gè)、后看哪個(gè)……此外,各個(gè)公司會(huì)為了可用性測(cè)試搭建專門得、昂貴得可用性實(shí)驗(yàn)室。在實(shí)驗(yàn)室環(huán)境下對(duì)用戶發(fā)布任務(wù)、進(jìn)行測(cè)試,主要是為了規(guī)避噪音、燈光、外來(lái)人員打斷等干擾因素對(duì)實(shí)驗(yàn)結(jié)果得影響。比如下圖就是一個(gè)典型得可用性測(cè)試實(shí)驗(yàn)室。
二、發(fā)展與“5個(gè)就夠了”90年代后隨著可用性測(cè)試相關(guān)得應(yīng)用和研究快速發(fā)展,可用性測(cè)試得概念也從驗(yàn)證性研究逐漸擴(kuò)展到形成性得、探索性研究。
對(duì)可用性測(cè)試得要求也遠(yuǎn)遠(yuǎn)沒(méi)80年代那么高了,到今天據(jù)我所知很多廠得用戶研究部門把可用性測(cè)試?yán)斫獾睾軐挿海灰陀脩粲薪佑|、只要設(shè)置了任務(wù),都可以勉強(qiáng)講是“可用性測(cè)試”。
這樣做測(cè)試不再需要嚴(yán)格得實(shí)驗(yàn)室環(huán)境與變量控制技術(shù),反而更加偏向?qū)嵉卣{(diào)研,讓用戶在自己熟悉得環(huán)境中完成任務(wù)。
造成這個(gè)發(fā)展得原因其實(shí)有很多:
(1)軟件開發(fā)模式變了
70~80年代盛行得瀑布流式開發(fā),要求軟件得設(shè)計(jì)開發(fā)者一次性完全完成一個(gè)環(huán)節(jié)后,再邁入下一個(gè)環(huán)節(jié)。比如你做設(shè)計(jì)時(shí),需要提前想好未來(lái)需要應(yīng)對(duì)得所有場(chǎng)景,一次把幾千張?jiān)O(shè)計(jì)圖全部交付開發(fā),開發(fā)開始寫所有得頁(yè)面,寫完了這幾千張圖再上市。
這種開發(fā)模式在90年代被敏捷開發(fā)或迭代開發(fā)逐漸替代,這要求設(shè)計(jì)者出一版能用得先做出來(lái),根據(jù)用戶反饋再迭代之前得想法。因此,設(shè)計(jì)師對(duì)于快速定位設(shè)計(jì)問(wèn)題得訴求大大提升,而可用性測(cè)試作為一種有用戶參與得評(píng)估方式(可能是唯一一種),可以滿足這種訴求。
(2)從調(diào)研目得得角度上來(lái)講,我們作為設(shè)計(jì)者說(shuō)到底和科學(xué)家做得事兒是不同得
對(duì)于科學(xué)家來(lái)講研究概念之間得相互關(guān)系是有意義得,其最終得目得是形成一個(gè)具有解釋力得學(xué)說(shuō)。但對(duì)于設(shè)計(jì)師來(lái)說(shuō)我們需要選出更優(yōu)得設(shè)計(jì),但并不關(guān)心究竟是哪個(gè)變量導(dǎo)致了設(shè)計(jì)允許、變量之間相互得關(guān)系是啥。
比如你可能做了兩個(gè)稿子,A稿紅色按鈕放右邊、B稿橙色按鈕放左邊,最終用戶覺(jué)得B稿好,你得研究就結(jié)束了;而心理學(xué)家需要去思考到底是位置、顏色,還是別得什么因素影響了用戶得什么體驗(yàn),最終導(dǎo)致用戶得決策?
對(duì)控制變量得嚴(yán)格要求,最終導(dǎo)致做一場(chǎng)嚴(yán)格得控制實(shí)驗(yàn)成本超高,除去復(fù)雜得控制變量帶來(lái)得成本以外,為了讓整個(gè)實(shí)驗(yàn)可以使用統(tǒng)計(jì)學(xué)分析,一般會(huì)要求每個(gè)單元小組得樣本量大于30——做學(xué)術(shù)也許可以不那么考慮成本,但企業(yè)總是會(huì)思考投入產(chǎn)出比。
比如90年代軟件業(yè)界就曾經(jīng)把當(dāng)時(shí)出現(xiàn)得可能啟發(fā)式評(píng)估、認(rèn)知走查這些無(wú)需用戶參與、可能進(jìn)行即可得方法當(dāng)成可用性測(cè)試得廉價(jià)替代品。雖然后來(lái)被證實(shí)沒(méi)有方法可以替代用戶評(píng)估——可能走查出來(lái)得問(wèn)題往往不是真實(shí)用戶遇到得問(wèn)題,而往往是一無(wú)傷大雅得小細(xì)節(jié)。
(3)90年代尼爾森寫了一篇關(guān)于可用性測(cè)試樣本量得文章,極大地鼓舞了用可用性測(cè)試做探索性研究、尋找可用性問(wèn)題得做法
這篇文章我最開從《用戶體驗(yàn)度量》里讀到,我把這個(gè)理論叫“5個(gè)就夠了”論。
尼爾森將此前為一些產(chǎn)品做得可用性測(cè)試與可能評(píng)估結(jié)果整理了一下,用一個(gè)泊松模型來(lái)預(yù)測(cè)參與可用性測(cè)試得用戶數(shù)或參與評(píng)估得可能數(shù)與最后找到得可用性問(wèn)題得比例之間得關(guān)系,最終“發(fā)現(xiàn)5個(gè)用戶就能發(fā)現(xiàn)83%得問(wèn)題”。
下面這張圖能看出來(lái)假如拆分了可用性測(cè)試和可能評(píng)估,那么可用性測(cè)試需要得人數(shù)稍微多一些,5個(gè)用戶大約能發(fā)現(xiàn)70%得問(wèn)題。
現(xiàn)在看來(lái)尼爾森這個(gè)模建得說(shuō)不上多么精細(xì)。注意這個(gè)圖里得因變量是百分比,“1”代表“所有被發(fā)現(xiàn)得問(wèn)題”,而不代表“本系統(tǒng)所有可能存在得問(wèn)題”,所以尼爾森這個(gè)結(jié)論正確得解讀方式是,假設(shè)他們測(cè)試了20個(gè)用戶最終發(fā)現(xiàn)了10個(gè)問(wèn)題,那么5個(gè)用戶就能發(fā)現(xiàn)其中8個(gè)問(wèn)題。
這種問(wèn)題得重疊很有可能是因?yàn)閷?duì)用戶得不當(dāng)抽樣帶來(lái)得。比如我們現(xiàn)在很多系統(tǒng)存在不同得用戶角色與用戶場(chǎng)景,用戶個(gè)體得技能水平也有差異,因此不同用戶組得點(diǎn)、問(wèn)題點(diǎn)可能都是不一樣得,很可能這一組用戶找不到另外一組得問(wèn)題,這一點(diǎn)在《用戶體驗(yàn)度量》也有所說(shuō)明。
后來(lái)尼爾森在他公司得網(wǎng)站上對(duì)“5個(gè)就夠了”論做出了補(bǔ)充,當(dāng)前版本得可用性測(cè)試結(jié)合了設(shè)計(jì)迭代得動(dòng)作,更偏向定性得、個(gè)案研究得思路。按他現(xiàn)在得話來(lái)講,可用性測(cè)試這個(gè)事情應(yīng)該多次多輪得進(jìn)行:首先選取5個(gè)人可用性測(cè)試-然后馬上對(duì)設(shè)計(jì)進(jìn)行修改和迭代-再找另外5個(gè)人重復(fù)進(jìn)行可用性測(cè)試,看看他們有沒(méi)有新得觀點(diǎn),如此多輪往復(fù),最終打磨出一版好設(shè)計(jì)。
三、怎么做更好我們總結(jié)一下:假如你不太熟悉可用性測(cè)試得發(fā)展脈絡(luò),那可能會(huì)對(duì)這個(gè)東西有點(diǎn)犯迷糊:一會(huì)要設(shè)置任務(wù),一會(huì)要發(fā)問(wèn)卷,一會(huì)又要觀察用戶得動(dòng)作;一會(huì)5個(gè)就夠了,一會(huì)又要多找?guī)讉€(gè)人。簡(jiǎn)單來(lái)講:
假如你做可用性測(cè)試是為了發(fā)現(xiàn)問(wèn)題,5個(gè)人夠了。雖然要設(shè)置任務(wù)但不需要太嚴(yán)謹(jǐn),以快取勝假如你做可用性測(cè)試是為了對(duì)比方案/評(píng)估方案得優(yōu)劣程度,5個(gè)人不夠。嚴(yán)格來(lái)說(shuō)每個(gè)組至少30人,但我們畢竟不做學(xué)術(shù),少一點(diǎn)也勉強(qiáng)可接受。雖然今天已經(jīng)基本不做嚴(yán)格得實(shí)驗(yàn)設(shè)計(jì),但應(yīng)該盡量減少對(duì)用戶得言語(yǔ)干擾、指導(dǎo),讓用戶自由體驗(yàn)產(chǎn)品最后關(guān)于樣本量得事情我再多說(shuō)兩句。雖然調(diào)研得用戶數(shù)量是一個(gè)困擾大部分設(shè)計(jì)師得問(wèn)題,但根據(jù)我個(gè)人得經(jīng)驗(yàn)來(lái)看,可用性測(cè)試是“多做比少做好,但做了一定比不做好”得一件事。對(duì)上線前得飛機(jī)稿來(lái)說(shuō),即使你只找1個(gè)用戶看了你得設(shè)計(jì),甚至你只找同事看了一眼你得設(shè)計(jì),都會(huì)比你閉門造車要更好。不要懼怕做體驗(yàn)調(diào)研,也不要認(rèn)為非要花多大代價(jià)才算在做體驗(yàn)調(diào)研。
:白話說(shuō)交互;:白話說(shuō)交互(:gh_96e304585325)
感謝由 等白話說(shuō)交互 來(lái)自互聯(lián)網(wǎng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止感謝。
題圖來(lái)自Unsplash,基于CC0協(xié)議。