ترجمه کتاب: Designing for Behavior Change
Applying Psychology and Behavioral Economics
Stephen Wendel
حلما بهبود
بخش پنجم
پالایش محصول
شما محصول فوقالعادهای ساختهاید. ظاهر خوبی دارد، جذاب است و بهترین اصول علم رفتار را در خود جای داده است. پس از انجام تست و جمعآوری بازخورد روی وایرفریمها و نمونههای اولیه و ساخت نسخههای اولیهی محصول واقعی، اکنون آمادهی انتشار آن هستید. فصلهای بعدی به مرحلهی بعدی میپردازند: اینکه بفهمید محصول چه میزان تأثیر واقعی دارد و چگونه میتوان ایدههایی برای بهبود آن تولید کرد (به شکل “بخش پنجم-۱” مراجعه کنید).
در چارچوب فرآیند توسعهی محصول به صورت تکرارشونده که در پیشگفتار هم ارائه شده است، این فصلها دربارهی تأثیر، بینش و سنجش تغییرات در محصول هستند. فصل ۱۲ اطلاعاتی را در مورد تأثیر فعلی محصول جمعآوری میکند و معیاری برای تغییرات آیندهی محصول تعیین مینماید. فصل ۱۳ اطلاعات بیشتری دربارهی رفتار کاربران گردآوری میکند تا نقاطی از برنامه را که کاربران در آن به مشکل میخورند و گیر میافتند شناسایی کند و راهحلهای احتمالی ارائه دهد. فصل ۱۴ راهحلهای احتمالی را بیشتر توسعه میدهد و آنها را در دور بعدی چرخهی توسعهی محصول ادغام میکند. این تغییرات و پارامترهای قابلاندازهگیری میتوانند شامل تغییرات اساسی در پیامد، عامل یا عمل باشند و به طرح رفتاری یا داستانهای کاربردر فهرست اقدامات وکاربردهای محصول افزوده میشوند.

شکل بخش پنجم – ۱
بخش پنجم شامل ارزیابی تأثیرات، بینش، ایدهها و ورود عمیقتر به چرخه مارپیچی با ایجاد تغییراتی در محصول و سنجش هر یک از این تغییرات در روندهای تکرار پذیر بعدی است.
فصل 12
اندازهگیری اثربخشی
اوپاور (Opower) که یک شرکت فعال در زمینه بهرهوری انرژی مستقر در آرلینگتونِ ویرجینیا است و آزمایشهای وسیعی را در جهان در زمینه اینکه چگونه محصولات میتوانند رفتار را تغییر دهند، انجام داده است و اطلاعات بسیاری را از این طریق گردآوری کرده است. میلیونها نفر تنها با باز کردن یک نامه از شرکت خدمات برق یا دستکاری دمای ترموستات، در مطالعات آنها شرکت کردهاند.
اوپاور بیشتر به خاطر ارسال گزارشهای ماهانه به مشتریان و شرکتهای خدماتی شهرت دارد؛ گزارشهایی که به آنها نشان میدهد میزان مصرف انرژیشان چگونه با همسایگانشان (به صورت ناشناس) مقایسه میشود. این یک تکنیک شناختهشده در روانشناسی اجتماعی به نام مقایسه با همتا (peer comparisons) است که کمی در فصل ۱۰ دربارهاش صحبت کردیم. شکل ۱۲-۱ نمونهای از یکی از این مقایسهها را نشان میدهد.
مجموعهای از موسسات دولتی، خصوصی و دانشگاهی تاکید داشتهاند که آزمایشها و مقایسههای ساده اوپاور به مصرفکنندگان کمک میکند تا به طور میانگین حدود ۲ درصد از هزینههای انرژی خود را کاهش دهند (Alcott 2011). شاید این مقدار در نگاه اول کم به نظر برسد، اما مجموع آن بیش از ۲٫۶ تراوات/ساعت برق است که معادل تأمین برق ۳۰۰٬۰۰۰ خانه در طول یک سال یا صرفهجویی تقریبی ۳۰۰ میلیون دلار در قبوض انرژی مصرفکنندگان است (Opower 2013).
اوپاور به طور مداوم آزمایشهایی برای اندازهگیری اثربخش برنامههای خود اجرا میکند و به دنبال راههایی برای بهبود و آزمایش بیشتر آنهاست، در این میان اندازهگیری و آزمایش دقیق یکی از عوامل کلیدی در موفقیت آنها بوده است.
این فصل و دو فصل بعدی ابزارهایی را در اختیار شما قرار میدهند تا بتوانید اثربخشی فعلی محصول خود را اندازهگیری کنید و آن را در آینده بهبود ببخشید.

شکل ۱۲-۱ گزارش انرژی اوپاور، مقایسهی میزان مصرف گرمایش خانهی کاربر با مصرف همسایگانش
هر کسی میتواند اثربخشی را اندازهگیری کند
وقتی عنوان این فصل را میخوانید، آیا نمادهای عجیب و فرمولهای غیرقابلفهم به ذهنتان میرسد؟ اینجا خبری از آنها نیست. در عوض، توضیحاتی ساده و منطقی خواهید یافت درباره اینکه چگونه میتوانید تأثیر محصولتان را بسنجید.
برای محصولات نرمافزاری، ابزارهای قدرتمند و کاربرپسند زیادی وجود دارد که محاسبات و آمارهای زیرساختی را برایتان انجام میدهند. برای بیشتر آزمایشهای مربوط به اثربخشی، همین ابزارها کافی هستند. معمولاً نیازی به استخدام یک اقتصاددان نیست تا بفهمید آیا محصولتان کار میکند یا نه، و اینکه چطور میتوانید آن را بهبود ببخشید.
البته برخی تکنیکها پیشرفتهترند؛ از همین ابتدا به آنها اشاره میکنم و سپس با اصطلاحات غیرتخصصی توضیح میدهم که چه اتفاقی میافتد. اگر پیشزمینه آماری ندارید و به این نتیجه رسیدید که به چنین تکنیکهایی نیاز دارید، در این مرحله لازم است از یک متخصص کمک بگیرید. برای خوانندگانی که زمینهی آماری دارند، این بخشها به سرعت مشخص میکنند که کدام ابزار را از جعبهابزارشان بیرون بکشند و دستبهکار شوند.
چرا باید اثربخشی را اندازهگیری کرد؟
هدف نهایی این کتاب این است که به شما کمک کند محصولاتی طراحی کنید که به تغییر رفتار کاربران کمک کنند. این فصل درباره اندازهگیری میزان اثربخشی واقعی محصول در زمان حال است. طبیعتاً، در این مراحل شاید هم من و هم شما بدانیم که محصول بینقص است. اما با این حال، دلایل خوبی وجود دارد که چرا باید با دقت و به صورت دقیق تأثیر آن را اندازهگیری کرد:
ارائه (گزارش) به واحد مالی
اندازهگیری دقیق اثربخشی محصول به شرکت این امکان را میدهد که نرخ بازگشت سرمایه (ROI) را تعیین کند. این موضوع برای بخش مالی داخلی شرکت اهمیت دارد (برای توجیه طرح و پروژههای مهندسی شده آینده) و همچنین برای سرمایهگذاران خارجی (از نهادهای اعطاکننده کمکهزینه گرفته تا سرمایهگذاران جسورانه).
اشتراکگذاری با تیم
یکی از لذتبخشترین تجربههای کاری من این است که پیامهایی درباره نتایج مثبت تحقیقات برای کارکنان ارسال میکنم و نشان میدهم که چگونه به طور محسوس و قابل اندازهگیری در حال کمک به مردم هستیم. پیامهای تشکری که دریافت میکنم عمیق و صمیمیاند. دیدن تأثیر واقعی محصول بر کاربران به افرادی که هر روز درگیر توسعه محصول هستند کمک میکند تا ارزش کارشان را بهتر درک کنند.
به اشتراکگذاری با جهان
وقتی چیزی دارید که واقعاً کار میکند، آن را به نمایش بگذارید. در هر صورت، خودتان هم دوست دارید این کار را بکنید. فقط گفتن اینکه محصولتان کار میکند، خبر خاصی نیست؛ کسی دلیلی ندارد که حرفتان را باور کند. اما اگر بتوانید تأثیر محصولتان را نشان دهید، به ویژه از طریق یک آزمایش مستقل و بیطرف، به حرفتان ارزش خبری میدهد.
بهبود اثربخشی
با داشتن یک نقطه شروع برای بررسی تأثیر فعلی محصول، تیم میتواند تغییراتی را (چه به صورت رسمی یا غیررسمی) مبتنی بر بهبود اثر بخشی امتحان کند. سپس میتوان بررسی کرد که آیا این تغییرات مفید بودهاند یا نه و از دل همین فرایند، ایدههای بیشتری برای پیشبرد محصول حاصل میشود.
برای فهم موانع اثربخشی
اگر به درستی انجام شود، اندازهگیری تأثیر میتواند به تیم محصول کمک کند تا دقیقاً متوجه شود کاربران در کدام بخشها با چالشهای رفتاری مواجه هستند و محصول در کجاها به وعدههایش عمل نمیکند.
برای پایان دادن به بحثها
به جای اینکه تصمیمات بر اساس صدای بلندتر یا نظر گرانترین عضو تیم (HiPPO: Highest Paid Person’s Opinion) گرفته شود، اندازهگیری اثر بخشی مباحث درباره اینکه محصول چه باید بکند و چه شکلی باید داشته باشد آن را به مقولهای بیطرف برای بررسی دادهها تبدیل میکند. بهجای جدل بر سر اینکه چه چیزی شاید جواب بدهد، میتوان با آزمونهای سریع دید که چه چیزی واقعاً جواب میدهد. دانشمند کامپیوتر و دریاسالار، گریس هاپر، این موضوع را به خوبی بیان کرده است: “یک اندازهگیری دقیق، ارزشمندتر از هزار نظر کارشناسی است.”حالا که به اندازه کافی متقاعد شدید، بیایید ببینیم چطور باید این کار را انجام دهیم.
از کجا شروع کنیم: نتایج و شاخصها
مطمئن شوید که نتیجه مورد نظر مشخص است
اولین قدم در اندازهگیری تأثیر محصول این است که دقیقاً مشخص کنید چه تأثیری برایتان اهمیت دارد (یعنی همان نتیجه مورد انتظار از محصول). در فصلهای ۴ و ۵، نتیجه هدف، کنشگر و عامل(actor) و کنشی را که موفقیت محصول را تعیین میکردند، شناسایی کردیم. در اینجا یادآوری کوتاهی از نحوه تعریف نتیجه آوردهایم:
- نتیجه چیزی است که وقتی محصولی موفق باشد در دنیای واقعی تغییر میکند.
- نتیجه باید ملموس باشد، نه صرفاً چیزی در ذهن کاربر. اغلب ذهن کاربر فقط واسطهای برای چیزی است که واقعاً برای شرکت اهمیت دارد و یک نتیجه ملموس که به دلیل تغییر در دانش یا احساسات کاربر قابل اعتماد است، مثل کاهش شاخص توده بدنیBMI یا مدت زمانی که در هفته ورزش انجام میشود، (به جای صرفاً دانستن اهمیت ورزش و کنترل وزن).
- نتیجه باید به وضوح قابل اندازهگیری باشد.
مثلاً فرض کنید محصول شما قرار است باعث کاهش فساد دولتی شود. اما «فساد» دقیقاً چیست؟
- نتیجه باید بتواند موفقیت را نشان دهد.
اگر بتوان گفت: «خب، اگر X اتفاق نیفتاد هم محصول باز موفق است»، پس X نتیجه مورد نظر ما نیست.
- نتیجه باید بتواند شکست را هم نشان دهد.
باید بتوانید یک سناریوی منطقی تصور کنید که در آن نتیجه نشان دهد محصول در حال شکست خوردن است.
شاخصهای خودنمایانه (Vanity Metrics)) شاخصهایی که شرکت را خوشحال میکنند اما در واقع نشان نمیدهند که آیا محصول یا شرکت در مسیر درستی قرار دارد یا نه ( در این معیارها مردود میشوند. برای مثال، در نظر بگیرید “تعداد بازدید صفحات” را که یکی از شاخصهای خودنمایانه کلیشهای است. فرض کنید یک شرکت از محصول مصرفی اصلی خود هیچ درآمدی ندارد، اما بازدید زیادی از وبسایت محصول دارد. در بیشتر موارد، این موفقیت تلقی نمیشود. برعکس: اگر محصول درآمد زیادی داشته باشد ولی به دلایلی بازدید کمی از صفحات وبسایت داشته باشد، باز هم این موفقیت تلقی میشود.
تعریف شاخصها برای نتیجه و کنش
با در نظر داشتن یک نتیجه مشخص، شما باید دو شاخص تعریف کنید: یکی برای نتیجه و یکی برای کنش و اقدام. شما باید بدون ابهام بدانید که آیا نتیجهی هدف اتفاق افتاده است (و در چه سطحی) و آیا کاربر اقدامی را انجام داده که قرار است باعث به وجود آمدن آن نتیجه شود یا نه.
شاخص نتیجه باید مستقیماً از خود نتیجه هدف ناشی شود و این همان راهی است که از طریق آن مشخص میشود آیا نتیجه حاصل شده یا نه. شما باید یک فرمول تعریف کرده و آن را بنویسید، حتی اگر خیلی ساده باشد، که نشان دهد چگونه نتیجه اندازهگیری بشود. در اینجا چند نمونه ساده آورده شده است:
- درآمد شرکت = پول دریافتی از مشتریان در طول یک ماه
- وزن کاربر = وزن بدن بدون کفش، اندازهگیریشده در صبح بعد از صبحانه
و این یکی کمی پیچیدهتر است:
- ارتباطپذیری در سطح محلی = تعداد دفعاتی که کاربران در طول یک ماه در گردهماییهای اجتماعی با همسایگان خود شرکت میکنند.
شاخصها باید به وضوح نشان دهند چه چیزی اندازهگیری میشود، چگونه اندازهگیری میشود و در چه مدت زمانی اندازهگیری انجام میگیرد. برای مثال، یکی از راههای تعریف درآمد شرکت برای یک محصول خاص این است: پول دریافتشده (نه صرفاً ثبتشده) به خاطر فروش محصول (نه درآمد حاصل از سرمایهگذاری یا فروش داراییهای ثابت شرکت)، در یک بازه زمانی ۳۰ روزه بررسی بشود.
حالاچرا اینقدر دقیق؟ چون اگر مقدار شاخص در طول زمان تغییر کند، باید مطمئن باشیم که این تغییر به دلیل محصول شما بوده، نه بهخاطر اینکه تعریف شاخص واضح نبوده و روش متفاوتی برای اندازهگیری آن در طول زمان باعث تغییر غیرواقعی در داده شده است.
در حالت ایدهآل، شاخص باید دارای ویژگیهای زیر باشد:
دقیق (Accurate)
واقعاً همان نتیجهای را اندازهگیری کند که میخواهید اندازهگیری کنید.
قابلاعتماد (Reliable)
اگر دقیقاً همان چیز را بیش از یک بار اندازهگیری کنید، دقیقاً همان نتیجه را بهدست بیاورید.
سریع (Rapid)
بتوانید به سرعت مقدار شاخص را مشخص کنید. سرعت باعث میشود اندازهگیری بهطور مکرر انجام شود و بررسی اینکه آیا تغییر در محصول مؤثر بوده یا نه، آسانتر گردد.
پاسخگو (Responsive)
شاخص باید تغییرات رفتار کاربر را سریع منعکس کند. اگر مجبور باشید یک ماه صبر کنید تا بتوانید تأثیر یک تغییر را اندازهگیری کنید (حتی اگر اندازهگیری خودش فقط یک دقیقه طول بکشد؛ یعنی حتی اگر سریع باشد) آن وقت ۲۹ روز زمان را از دست دادهاید که میتوانستید صرف یادگیری و بهبود محصول کنید.
حساس (Sensitive)
بتوانید تشخیص دهید که تغییرات کوچک در نتیجه یا رفتار رخ دادهاند. برای برنامهنویسان: مقادیر اعشاری (floating-point) عالیاند و نه مقادیر بولینی (Boolean).
ارزان (Cheap)
اندازهگیری مکرر نتیجه نباید برای سازمان هزینهبر باشد وگرنه سازمان از اندازهگیری تأثیر تغییرات منفرد در محصول اجتناب میکند و در بهبود آن با مشکل روبرو میشود.
این شاخصهها زیاد به نظر میرسد، نه؟
بله، ولی این به این معنا نیست که باید وسواس پیدا کنید تا به یک شاخص کامل برسید. آنچه واقعاً به دنبالش هستیم، یک بررسی سریع برای بررسی کفایت شاخص است. با این لیست مثل یک چکلیست رفتار کنید و برای هر شاخص نتیجه، این سوالات را بپرسید:
- آیا به اندازهای مشخص هست که هنگام اندازهگیری، اختلاف نظر زیادی ایجاد نکند؟
- آیا به اندازهای قابلاعتماد هست که تیم را فریب ندهد و باعث نشود فکر کنند محصول کار نمیکند، در حالی که در واقع کار میکند؟
تعریف شاخص برای کنش و اقدام (Action Metric) نیز مشابه است. شاخص کنش به شما میگوید که آیا (و تا چه حد) کاربر در حال انجام دادن کنش هدف است و کنشی که قرار است منجر به نتیجه مطلوب شود شناسایی شود. اگر نتیجه مطلوب، یک سطح خاص از شاخص توده بدنی (BMI) است و کنش، ورزش کردن است، یک نمونه از شاخص کنش میتواند این باشد که کاربر چقدر و چند وقت یکبار ورزش میکند؟
یک شاخص کنش خوب نیز باید همان آزمونهای شاخص نتیجه را پاس کند: دقیق، قابلاعتماد، سریع، پاسخگو و غیره.
در ادامه، مثالهایی از شاخصهای خوب و بد برای کنش آورده میشود:
بررسی نمونه موردیهای شاخص کنش و اقدام کاربر
کنش: ورزش کردن کاربر
شاخص بد ورزش کاربر = مقدار راه رفتنی که کاربر گزارش میدهد هر روز انجام میدهد. این شاخص بدی است،
چون:
الف) کاربر ممکن است بدون کمک گامشمار یا ابزار ردیاب دیگر نداند که چقدر راه رفته
ب) کاربر ممکن است واقعیت را کمی کش بدهد (صادقانه گزارش نکند).
شاخص خوب ورزش کاربر = مقدار راه رفتنی که یک گامشمار به صورت روزانه و خودکار از کاربر ثبت میکند.
کنش: یادگیری زبان
شاخص بد مطالعه کاربر = ارزیابی تخصصی مهارت زبان در یک آزمون کتبی طولانی.
این شاخص مشکل دارد، چون تمرکزش بر نتیجه موردنظر است نه فعالیتی که فرض میکنیم (درست یا نادرست) منجر به آن نتیجه میشود. همچنین، زمان زیادی برای اندازهگیری میطلبد و نمیتوان آن را به طور مکرر اندازهگیری کرد (بدون اینکه کاربران را اذیت کند!).
شاخص خوب مطالعه کاربر = مدت زمانی که کاربر درون برنامه صرف میکند، یا تعداد تمرینهایی که با حداقل دقت مشخصی تکمیل میکند.
کاملاً واضح است که در ایجاد شاخصهای نتیجه و کنش، مصالحههایی وجود دارد. دقیقترین شاخص ممکن است بیشازحد زمانبر باشد، یا ارزانترین شاخص ممکن است قابلاعتماد نباشد، نیازی نیست وسواس به خرج دهید. ما بهدنبال شاخصی از کنش هستیم که بهاندازه کافی حساس باشد تا مشکلات را نشان دهد و بهاندازه کافی دقیق باشد که تیم را گمراه نکند.
تعیین آستانههای موفقیت و شکست
همیشه فرصتهایی برای محصولات جدید، مشکلات تازه برای حلکردن و بازارهای جدید برای ورود وجود دارد و شرکت به نقطهای میرسد که باید تعیین کند آیا محصول بهاندازهای «خوب هست» که به سراغ مرحله دیگری برود، یا آنقدر بد عمل کرده که باید کنار گذاشته شود و یا نیاز به اصلاحات اساسی دارد.
برای یک شرکت، محصول، یا بازار جدید، ممکن است سخت باشد که بدانیم چه چیزی باید «موفقیت» یا «شکست» نامیده شود.
شرکت میتواند:
- به درون خود نگاه کند و بگوید: این چیزی است که برای حفظ کسبوکار لازم داریم وگرنه باید به سراغ محصول بعدی برویم.
- یا به بیرون نگاه کند و بگوید: این چیزی است که محصولات مشابه ما به آن دست مییابند؛ اگر ما به آن نرسیم، در بازار جایگاهی پیدا نمیکنیم.
من هیچ قانون قطعی و مشخصی در این زمینه ندیدهام و تصمیم با شرکت است که مشخص کند که محصول باید چه چیزی را به دست آورد.
آستانههای موفقیت و شکست باید قبل از اندازهگیری تعیین شوند (و ترجیحاً، همانطور که در فصل ۵ و به طور مختصر گفتیم، حتی پیش از ساخت محصول مشخص بشوند). بسیاری از ما در شرکتهایی بودهایم که ماهها (یا حتی سالها!) برای توسعه محصول وقت گذاشتهایم، آن را وارد بازار کردهایم و با واکنشی ضعیف روبهرو شدهایم. در همین زمان است که تغییر آغاز میشود: به دنبال نکات مثبت میگردیم، به دنبال چیزهایی میگردیم که نشان دهد «شاید» اوضاع بهتر شود اگر چند ماه دیگر هم روی محصول وقت بگذاریم. این یک لحظه حیاتی است و یک تحلیل بیطرف و بدون تعصب لازم است. شاید واقعاً محصول مناسبی نباشد، یا شاید به اندازه کافی خوب هست و تیم دارد با خودش زیادی سختگیرانه برخورد میکند. تعیین تکلیف و تعریف واضحی از موفقیت و شکست از ابتدا، کمک میکند تا در آینده در دام تحریف اطلاعات نیفتیم. البته، تعیین موفقیت و شکست از قبل به این معنا نیست که نمیتوانیم اهداف را تغییر دهیم. با شناخت بیشتر بازار، محصول و فرصتهای دیگر شرکت، درک ما از «به اندازه کافی خوب» بودن تغییر میکند. اما حتماً مطمئن شوید که تیم از این تغییر باخبر است و دلیل آن را درک میکند. هیچکس از اهداف در حال تغییر خوشش نمیآید بهویژه زمانی که:
- استانداردها بدون توضیح بیشتر میشود (سختتر کردن کار برای تیم)،
یا
- پایین آورده میشود (که تلقی پذیرش شکست است).
چگونه این شاخصها را اندازهگیری کنیم
اکنون که میدانید چه چیزی را میخواهید اندازهگیری کنید، باید اندازهگیری را شروع کنید که این امر با ابزارسازی در محصول یا استفاده از روشهای متنوعی برای گردآوری داده درباره رفتار کاربران و نتیجه مورد نظرهمراه است. اینکه چگونه این داده را گردآوری میکنید، به نوع محصول و تغییر رفتاری که روی آن کار میکنید بستگی دارد: اینکه رفتار هدف درون محصول است یا بیرون از آن.
اندازهگیری رفتارهایی که در محصول تعریف شدند
اگر رفتاری که محصول در تلاش برای تغییر آن است، بخشی از خود محصول باشد، خوششانس هستید. چون ابزارهایی برای کمک به شما در گردآوری داده وجود دارد. برای مثال، فرض کنیم که برنامه شما کاربران را برای تعامل در یک جا جمع میکند و به او کمک میکند تا بهطور منظم با آنها در ارتباط باشد، مانند برنامهContactually مسئله تغییر رفتار در این برنامه شامل کمک به کاربران برای بهترین سازماندهی ممکن برای مخاطبانشان در برنامه است.
شما میتوانید محصول خود را طوری برنامهنویسی کنید که سازماندهی مخاطبان را به طور خودکار ثبت کند و ببینید آیا آنها موفق هستند یا نه. در این حالت، میتوانید محصول خود را طوری برنامهنویسی کنید که عمل و نتیجه را به طور خودکار ثبت کند یا رویدادها را به یک پلتفرم شخص ثالث مانند KISS Metrics یا Mixpanel بفرستد (کاری که Contactually انجام میدهد). این یک حالت ایدهآل است و وقتی محصول شما آنلاین باشد، حتی میتوانید دادهها را بهصورت بلادرنگ گردآوری کنید و بلافاصله ببینید چه اتفاقی در حال رخ دادن است.
اندازهگیری رفتارهایی که بیرون از محصول هستند
اگر مسئله تغییر رفتار بیرون از محصول باشد، کار بسیار چالشبرانگیزتر میشود. اول، بایستی به دنبال راههایی برای وارد کردن دادههای موجود از دنیای واقعی بگردید. در HelloWallet، یکی از اهداف اصلی ما کمک به افراد برای پسانداز پول برای آیندهشان بود. اما آنها نمیتوانستند این کار را در درون برنامه ما انجام دهند. آنها پول را از طریق بانک خود به حساب پسانداز منتقل میکردند. اوایل توسعه محصول، متوجه شدیم که باید از کاربران خود برای دسترسی به اطلاعات حساب بانکیشان درخواست کنیم و با دسترسی به اطلاعات حساب بانکی، میتوانستیم راهنمایی بهتری ارائه دهیم و بسیار مهمتر، میتوانستیم بفهمیم آیا راهنمایی ما واقعاً اثربخش است یا نه.
باید خلاق باشید و دنبال مجموعهدادههایی بگردید که بتوانید آنها را وارد کنید.
محصول اصلی Opower، که در ابتدای این فصل توضیح داده شد، یک تکه کاغذ است، یک نامه فیزیکی که برای مشتریان شرکتهای خدماتی ارسال میشود. هیچ راهی برای اندازهگیری دقیق رفتار افراد در دنیای واقعی با استفاده از نامه وجود ندارد اما آنها با شرکتهای خدماتی ارتباط برقرار کردهاند تا به سوابق مصرف انرژی دسترسی پیدا کنند و با این دادهها، میتوانند با اطمینان بفهمند که آیا نامههای آنها بر رفتار مصرف انرژی تأثیر داشتهاند یا نه.
ابزارهایی برای گردآوری داده درون محصول
برای اندازهگیری اثربخشی محصول، باید فراتر از ابزارهای پایهای که بازدید صفحات و تبدیلها را دنبال میکنند بروید. اغلب، تأثیری که به دنبال آن هستید فقط یک رویداد ساده در برنامه، مانند بازدید یک صفحه نیست.
برای مثال، اگر محصول شما به کاربران کمک میکند تا عادت بهروزرسانی ماهانه بودجهشان را ایجاد کنند، اندازهگیری این عادت شامل چیزی فراتر از صفحاتی که آنها دیدهاند، است.
در مرحله دوم، شما به اطلاعاتی خام و در سطح فردی برای مدلسازی آماری نیاز دارید.
و در مرحله سوم، برای ارزیابی تغییرات در تأثیر، احتمالاً نیاز به اجرای آزمایشهای A/B دارید.
اگر با آنها آشنا نیستید، آزمایشهای A/B گروهی از کاربران را به صورت تصادفی انتخاب میکنند و نسخهای از محصول) نسخه (A را به آنها نشان میدهند، و به گروهی دیگر نسخه متفاوت (نسخه B ) را. ابزارهایی که از آزمایشهای A/B یا نوع مشابه آن پشتیبانی میکنند، از تست چندمتغیره (Multivariate Testing)، استفاده میکنند این قابلیت را در مشخصات خود ذکر میکنند؛ سازوکار این آزمایشها در بخش «تعیین تأثیر و اجرای آزمایشها» چگونه پبش رفته. ابزارهای متنوعی وجود دارند که میتوانند این تستها را برای شما اجرا کنند.
برای مثال، Google Analyticsبسته اطلاعاتی قدیمیGoogle Website Optimization) که از تستهای A/B پشتیبانی میکرد (را میتواند دریافت کند و آن را به رابط Google Analytics Content Experiments تبدیل کند.
دریافت دادههای سطح فردی (یعنی اینکه هر فرد در سیستم چه کاری انجام میدهد) نیاز به قدرت پردازشی بیشتری دارد؛ چیزی که Google Analytics ارائه نمیدهد. یک نسخه متنباز از Google Analytics وجود دارد که موارد مشابه با آن پیش میبرند (اگرچه چند نسخه عقبتر است)، و دادههای سطح فردی ارائه میدهد:Piwik این ابزار ممکن است کمی دستوپاگیر باشد، اما اگر بدانید چطور رکورد خام پایگاهداده را تحلیل کنید، کار شما را راه میاندازد.
ابزارهای دیگر، مانند KISS Metrics، امکان ردیابی اطلاعات را درسطح فردی را فراهم میکنند و همچنین یک رابط گرافیکی مناسب برای انجام برخی تحلیلهایی که نیاز دارید ارائه میدهند. برای تحلیل جزئیتر باید به دادههای خام (که از طریق سرویس Amazon’s3 S در دسترس است) پیش بروید. شرکتها همچنین میتوانند سیستم ردیابی خود را، با فرستادن و اتصال رویدادهایی که در سیستم رخ میدهند به یک پایگاهداده برای تحلیل در آینده پیادهسازی کنند.
شرکت شما ممکن است نیاز داشته باشد که برای اندازهگیری در دنیای واقعی، قابلیتهایی را به اپلیکیشن اضافه کند. فرض کنیم اپلیکیشنی دارید که به مردم کمک میکند سالمتر غذا بخورند. این اپلیکیشن برنامههای غذایی برای پختوپز خانگی آسان و سالم ارائه میدهد، بنابراین کاربران دیگر مجبور نیستند زیاد بیرون غذا بخورند. این عالی است، اما از کجا میدانید که محصول موفق بوده؟ فقط ارائه برنامه غذایی کافی نیست. شما باید بدانید آیا افراد واقعاً به آن توصیهها عمل میکنند یا نه.
یکی از روشهای اندازهگیری رفتار خارج از محصول (استفاده واقعی از برنامه غذایی) این است که قابلیتی اضافه کنید تا کاربر بتواند کارت وفاداری فروشگاه مواد غذایی خود را به اپلیکیشن متصل کند. فروشگاه مواد غذایی میداند که کاربر چه چیزی خریداری میکند و انگیزه مالی را نشان میدهد و مشخص میکند که مشتریان بیشتر از آنجا خرید کنند تا اینکه بیرون غذا بخورند. کاربران میتوانند برای پیروی از برنامه غذایی پاداش بگیرند و درک بیشتری در مورد آنچه میخورند به دست آورند. در این حالت، کاربر، فروشگاه و شما همگی سود میبرید، چون میتوانید میزان اثربخشی محصول را اندازهگیری کنید.
با این حال، گاهی اوقات هیچ مجموعه اطلاعاتی به سادگی و در دسترس برای شما وجود ندارد که بتوان از آن استفاده کرد، یا اطلاعات بسیار ناقص یا با فاصلههای زمانی زیاد گردآوری شده و قابل استفاده نیست. برای مثال، فرض کنید اپلیکیشن شما افراد را تشویق به رأی دادن میکند. عمل رأی دادن خارج از محصول اتفاق میافتد و ماهها طول میکشد تا داده رسمی درباره اینکه آیا کسی رأی داده یا نه، منتشر شود.
در چنین مواردی که واقعاً راهی برای گردآوری منظم دادههای دنیای واقعی ندارید، یک استراتژی سه مرحلهای برای سنجش میزان اثربخشی محصولتان وجود دارد:
- تأثیر محصول خود را بر یک رفتار میانی کاربر اندازهگیری کنید، رفتاری که بتوان بهطور منظم اندازهگیری کرد، حتی اگر آن رفتار، کاملاً منطبق با نتیجه واقعی در دنیای واقعی که به آن اهمیت میدهید نباشد.
- یاد بگیرید چگونه میتوان نتیجه واقعی را حداقل یکبار بهطور دقیق اندازهگیری کرد.
- یک پل ارتباطی بین رفتار میانی که میتوانید آن را به طور منظم اندازهگیری میکنید و نتیجه واقعی که برایتان مهم است ایجاد کنید.
ارتباط اطلاعات در اصل نوعی معیار مرجع دوم است، یک اتصال بین رفتار منظم و درونبرنامهای (که مکرراً اندازهگیری میشود) و نتیجه دنیای واقعی (که بهندرت اندازهگیری میشود). برای واضحتر شدن توضیح، بیایید با بررسی معیار مرجع اول شروع کنیم: ارتباط بین محصول شما و رفتارهای درونبرنامهای که بهطور منظم اندازهگیری میشوند. پس از یادگیری روش معیارگذاری پایه در این مورد، دوباره به «ارتباط اطلاعات» بازخواهیم گشت.
تعیین اثر بخشی: اجرای آزمایشها
- شما میدانید که چه چیزی را میخواهید اندازهگیری کنید و میتوانید آن را اندازهگیری کنید. حال باید تعیین کنیم که محصول شما در حال حاضر چه تأثیری میگذارد. استاندارد طلایی برای سنجش تأثیر یک محصول، انجام آزمایشهای کنترلشده تصادفی است، که با نامهای تست A/B یا تست تقسیمشده (Split Test) نیز شناخته میشود. شما یک نمونه تصادفی از کاربران بالقوه را انتخاب کرده و این نمونه را به صورت تصادفی به دو گروه تقسیم میکنید: گروه کنترل و گروه آزمایش.
- گروه کنترل محصول را دریافت نمیکند (یا اگر تیم در حال توسعه یک ویژگی جدید است، این گروه آن ویژگی را دریافت نمیکند).
- گروه آزمایش نسخه جدید اپلیکیشن (یا ویژگی جدید) را دریافت میکند.
سپس، شما نتیجه نهایی را برای هر گروه اندازهگیری میکنید و محاسبه اثربخشی محصول، پس از اطمینان از کیفیت دادهها، بسیار ساده است: میانگین نتیجه در گروه آزمایش − میانگین نتیجه در گروه کنترل و بله، همین است. آزمایشهای پایه بسیار ساده و سرراست هستند، البته اگر به درستی طراحی شده باشند. زیبایی این آزمایشها در سادگی و قدرت آنها است و به شما اجازه میدهند روی چیزی که واقعاً اهمیت دارد تمرکز کنید (اثربخشی واقعی) و نگران عوامل جانبی یا بحثهای بیپایان بر سر تفسیر دادهها نباشید. برای مثال:
- آیا کسانی که به نظر میرسد از محصول شما سود بردهاند، همانهایی نیستند که به هرحال خودشان خوب عمل میکردند؟ آزمایش اثر بخشی نشان میدهد که چه اتفاقی فراتر از رفتار طبیعی افراد میافتد؛ شما رفتار طبیعی را در گروه کنترل اندازهگیری کرده و آن را از نتیجه کم میکنید.
- آیا نتایج خوبی که میبینید ممکن است ناشی از عامل دیگری باشد؟ آزمایش اثربخشی، تأثیر خالص محصول شما را جدا از تأثیر عوامل خارجی (مثلاً رخدادهای همزمان) بررسی میکند تا تفاوت بین گروه آزمایش (تأثیر خارجی + تأثیر محصول) و گروه کنترل (فقط تأثیر خارجی)، با بررسی اثربخشی ویژه محصول مشخص شود.
این نوع آزمایشها در شناسایی اینکه چه تأثیری دارید عالی هستند، اما نمیتوانند بهطور مستقیم به شما بگویند چرا محصول چنین تأثیری داشته است. در فصل ۱۳ درباره این موضوع صحبت خواهیم کرد.
برای موفقیت در آزمایش، باید به چند نکته توجه کنید:
مطمئن شوید که بهاندازه کافی شرکتکننده دارید
چطور بدانید که «چند نفر» کافی است؟ کتابهایی در این مورد وجود دارد، ولی برای اغلب افراد، یک ماشینحساب آنلاین ساده کفایت میکند.
دو نوع محاسبه وجود دارد:
- قبل از شروع آزمایش → تخمین اینکه چه تعداد نفر نیاز دارید (محاسبه حجم نمونه / توان آماری)
- بعد از آزمایش → تعیین اینکه آیا تفاوت بین دو گروه قابل تشخیص است یا نه(آزمون معناداری آماری)
در سناریوهای رایج، این محاسبهها را بیشتر توضیح خواهیم داد.
از تصادفیبودن واقعی در تخصیص اطمینان حاصل کنید
مطمئن شوید که تخصیص افراد به گروه آزمایش و کنترل واقعاً تصادفی است. از یک دستگاه قرعهکشی اعداد تصادفی استفاده کنید، و برای هر نفر یک عدد را در نظر بگیرید. حتی اگر یک فهرست موجود از کاربران دارید که به نظر تصادفی میرسد، تقریباً هیچگاه واقعاً تصادفی نیستند و نوعی ترتیب در آن وجود دارد که نمیتوانید به واسطه آنها بدانید این ترتیب چطور بر نتایج اثر میگذارد. برای بررسی صحتسنجی کار، میتوانید میانگین متغیرهایی را که محصول نمیتواند روی آنها تأثیر بگذارد (مثلاً سن یا جنسیت) در دو گروه مقایسه کنید. اگر متغیرها مشابه بودند، عالی است، اگر نه، تخصیص تصادفی نبوده است.
فقط یک چیز را تغییر دهید
تنها تفاوت بین دو گروه باید «خودِ محصول» باشد. رفتار متفاوت یا روشهای اندازهگیری مختلف برای هر گروه نداشته باشید. شما میتوانید چند نسخه مختلف از محصول را همزمان تست کنید (تنها متغیرِ مورد آزمایش، نسخههای متفاوت محصول است) که به آن تست A/B/C یا تست چندمتغیره (Multivariate Test) میگویند که در بخش «اجرای چند نسخه همزمان» بیشتر به آن میپردازیم.
نتایج را برای «همه» مقایسه و بررسی کنید
زمانی که دو گروه را با هم مقایسه میکنید، باید همه افراد هر گروه را مقایسه کنید. در گروه آزمایش، ممکن است برخی افراد محصول را دریافت کرده باشند اما از آن استفاده نکرده باشند. این افراد را هم باید حساب کنید؛ در غیر این صورت، نتایج شما میزان اثربخشی محصول را با تاثیرات کسانی که تصمیم به استفاده گرفتهاند، ترکیب میکند که باعث تحریف نتیجه میشود.
بدانید با چه کسانی کار میکنید
بررسی کنید که آیا کاربران قبلاً با نسخهای از محصول آشنا بودهاند یا نه. برای مثال، اگر در حال آزمایش یک ویژگی جدید روی جمعیتی هستید که پیش از این نسخهای از محصول را استفاده کردهاند، آزمایش همچنان معتبر است، اما میزان تعمیمپذیری نتایج به کاربران کاملاً جدید را کاهش میدهد.
برای هر دو گروه، همان چیز را اندازهگیری کنید.
اگر اثربخشی محصول (نه فقط یک ویژگی) را آزمایش میکنید و محصول شما خودش خروجی را اندازهگیری میکند، چگونه میخواهید نتیجه را برای گروه کنترل (که محصول را ندارد) اندازهگیری کنید؟
دو گزینه اصلی وجود دارد:
- روشی بیابید که بتوانید خارج از محصول، خروجی را اندازهگیری کنید و همان روش را برای هر دو گروه استفاده کنید.
- از یک نسخه «ناقص» از محصول برای گروه کنترل استفاده کنید که فقط اطلاعات را جمعآوری کند، بدون آنکه ویژگی اصلی ارائه شود.
اگر هیچکدام ممکن نبود، به ناچار از مدلهای آماری برای تخمین تأثیر علیتی استفاده کنید (که در ادامه همین فصل دربارهاش صحبت خواهیم کرد).