لکچر 18: کتاب طراحی برای تغییر رفتار

فهرست مطالب

ترجمه کتاب: Designing for Behavior Change

Applying Psychology and Behavioral Economics

Stephen Wendel

حلما بهبود

بخش پنجم

پالایش محصول

شما محصول فوق‌العاده‌ای ساخته‌اید. ظاهر خوبی دارد، جذاب است و بهترین اصول علم رفتار را در خود جای داده است. پس از انجام تست و جمع‌آوری بازخورد روی وایرفریم‌ها و نمونه‌های اولیه و ساخت نسخه‌های اولیه‌ی محصول واقعی، اکنون آماده‌ی انتشار آن هستید. فصل‌های بعدی به مرحله‌ی بعدی می‌پردازند: اینکه بفهمید محصول چه میزان تأثیر واقعی دارد و چگونه می‌توان ایده‌هایی برای بهبود آن تولید کرد (به شکل “بخش پنجم-۱” مراجعه کنید).

در چارچوب فرآیند توسعه‌ی محصول به صورت تکرارشونده که در پیش‌گفتار هم ارائه شده است، این فصل‌ها درباره‌ی تأثیر، بینش و سنجش تغییرات در محصول هستند. فصل ۱۲ اطلاعاتی را در مورد تأثیر فعلی محصول جمع‌آوری می‌کند و معیاری برای تغییرات آینده‌ی محصول تعیین می‌نماید. فصل ۱۳ اطلاعات بیشتری درباره‌ی رفتار کاربران گردآوری می‌کند تا نقاطی از برنامه را که کاربران در آن به مشکل می‌خورند و گیر می‌افتند شناسایی کند و راه‌حل‌های احتمالی ارائه دهد. فصل ۱۴ راه‌حل‌های احتمالی را بیشتر توسعه می‌دهد و آن‌ها را در دور بعدی چرخه‌ی توسعه‌ی محصول ادغام می‌کند. این تغییرات و پارامترهای قابل‌اندازه‌گیری می‌توانند شامل تغییرات اساسی در پیامد، عامل یا عمل باشند و به طرح رفتاری یا داستان‌های کاربردر فهرست اقدامات وکاربردهای محصول افزوده می‌شوند.

شکل بخش پنجم – ۱

بخش پنجم شامل ارزیابی تأثیرات، بینش، ایده‌ها و ورود عمیق‌تر به چرخه مارپیچی با ایجاد تغییراتی در محصول و سنجش هر یک از این تغییرات در روندهای تکرار پذیر بعدی است.

فصل 12

اندازه‌گیری اثربخشی

اوپاور (Opower) که یک شرکت فعال در زمینه بهره‌وری انرژی مستقر در آرلینگتونِ ویرجینیا است و آزمایش‌های وسیعی را در جهان در زمینه اینکه چگونه محصولات می‌توانند رفتار را تغییر دهند، انجام داده است و اطلاعات بسیاری را از این طریق گردآوری کرده است. میلیون‌ها نفر تنها با باز کردن یک نامه از شرکت خدمات برق یا دست‌کاری دمای ترموستات، در مطالعات آن‌ها شرکت کرده‌اند.

اوپاور بیشتر به خاطر ارسال گزارش‌های ماهانه به مشتریان و شرکت‌های خدماتی شهرت دارد؛ گزارش‌هایی که به آن‌ها نشان می‌دهد میزان مصرف انرژی‌شان چگونه با همسایگانشان (به صورت ناشناس) مقایسه می‌شود. این یک تکنیک شناخته‌شده در روان‌شناسی اجتماعی به نام مقایسه با همتا (peer comparisons) است که کمی در فصل ۱۰ درباره‌اش صحبت کردیم. شکل ۱۲-۱ نمونه‌ای از یکی از این مقایسه‌ها را نشان می‌دهد.

مجموعه‌ای از موسسات دولتی، خصوصی و دانشگاهی تاکید داشته‌اند که آزمایش‌ها و مقایسه‌های ساده اوپاور به مصرف‌کنندگان کمک می‌کند تا به طور میانگین حدود ۲ درصد از هزینه‌های انرژی خود را کاهش دهند (Alcott 2011). شاید این مقدار در نگاه اول کم به نظر برسد، اما مجموع آن بیش از ۲٫۶ تراوات/ساعت برق است که معادل تأمین برق ۳۰۰٬۰۰۰ خانه در طول یک سال یا صرفه‌جویی تقریبی ۳۰۰ میلیون دلار در قبوض انرژی مصرف‌کنندگان است (Opower 2013).

اوپاور به طور مداوم آزمایش‌هایی برای اندازه‌گیری اثربخش برنامه‌های خود اجرا می‌کند و به دنبال راه‌هایی برای بهبود و آزمایش بیشتر آن‌هاست، در این میان اندازه‌گیری و آزمایش دقیق یکی از عوامل کلیدی در موفقیت آن‌ها بوده است.

این فصل و دو فصل بعدی ابزارهایی را در اختیار شما قرار می‌دهند تا بتوانید اثربخشی فعلی محصول خود را اندازه‌گیری کنید و آن را در آینده بهبود ببخشید.

شکل ۱۲-۱ گزارش انرژی اوپاور، مقایسه‌ی میزان مصرف گرمایش خانه‌ی کاربر با مصرف همسایگانش

هر کسی می‌تواند اثربخشی را اندازه‌گیری کند

وقتی عنوان این فصل را می‌خوانید، آیا نمادهای عجیب و فرمول‌های غیرقابل‌فهم به ذهنتان می‌رسد؟ اینجا خبری از آن‌ها نیست. در عوض، توضیحاتی ساده و منطقی خواهید یافت درباره اینکه چگونه می‌توانید تأثیر محصولتان را بسنجید.

برای محصولات نرم‌افزاری، ابزارهای قدرتمند و کاربرپسند زیادی وجود دارد که محاسبات و آمارهای زیرساختی را برای‌تان انجام می‌دهند. برای بیشتر آزمایش‌های مربوط به اثربخشی، همین ابزارها کافی هستند. معمولاً نیازی به استخدام یک اقتصاددان نیست تا بفهمید آیا محصولتان کار می‌کند یا نه، و اینکه چطور می‌توانید آن را بهبود ببخشید.

البته برخی تکنیک‌ها پیشرفته‌ترند؛ از همین ابتدا به آن‌ها اشاره می‌کنم و سپس با اصطلاحات غیرتخصصی توضیح می‌دهم که چه اتفاقی می‌افتد. اگر پیش‌زمینه آماری ندارید و به این نتیجه رسیدید که به چنین تکنیک‌هایی نیاز دارید، در این مرحله لازم است از یک متخصص کمک بگیرید. برای خوانندگانی که زمینه‌ی آماری دارند، این بخش‌ها به سرعت مشخص می‌کنند که کدام ابزار را از جعبه‌ابزارشان بیرون بکشند و دست‌به‌کار شوند.

چرا باید اثربخشی را اندازه‌گیری کرد؟

هدف نهایی این کتاب این است که به شما کمک کند محصولاتی طراحی کنید که به تغییر رفتار کاربران کمک کنند. این فصل درباره اندازه‌گیری میزان اثربخشی واقعی محصول در زمان حال است. طبیعتاً، در این مراحل شاید هم من و هم شما بدانیم که محصول بی‌نقص است. اما با این حال، دلایل خوبی وجود دارد که چرا باید با دقت و به صورت دقیق تأثیر آن را اندازه‌گیری کرد:

ارائه (گزارش) به واحد مالی

اندازه‌گیری دقیق اثربخشی محصول به شرکت این امکان را می‌دهد که نرخ بازگشت سرمایه (ROI)  را تعیین کند. این موضوع برای بخش مالی داخلی شرکت اهمیت دارد (برای توجیه طرح و پروژه‌های مهندسی شده آینده) و همچنین برای سرمایه‌گذاران خارجی (از نهادهای اعطاکننده کمک‌هزینه گرفته تا سرمایه‌گذاران جسورانه).

اشتراک‌گذاری با تیم

یکی از لذت‌بخش‌ترین تجربه‌های کاری من این است که پیام‌هایی درباره نتایج مثبت تحقیقات برای کارکنان ارسال می‌کنم و نشان می‌دهم که چگونه به طور محسوس و قابل اندازه‌گیری در حال کمک به مردم هستیم. پیام‌های تشکری که دریافت می‌کنم عمیق و صمیمی‌اند. دیدن تأثیر واقعی محصول بر کاربران به افرادی که هر روز درگیر توسعه محصول هستند کمک می‌کند تا ارزش کارشان را بهتر درک کنند.

به اشتراک‌گذاری با جهان

وقتی چیزی دارید که واقعاً کار می‌کند، آن را به نمایش بگذارید. در هر صورت، خودتان هم دوست دارید این کار را بکنید. فقط گفتن اینکه محصولتان کار می‌کند، خبر خاصی نیست؛ کسی دلیلی ندارد که حرفتان را باور کند. اما اگر بتوانید تأثیر محصولتان را نشان دهید، به ویژه از طریق یک آزمایش مستقل و بی‌طرف، به حرفتان ارزش خبری می‌دهد.

بهبود اثربخشی

با داشتن یک نقطه شروع برای بررسی تأثیر فعلی محصول، تیم می‌تواند تغییراتی را (چه به صورت رسمی یا غیررسمی) مبتنی بر بهبود اثر بخشی امتحان کند. سپس می‌توان بررسی کرد که آیا این تغییرات مفید بوده‌اند یا نه و از دل همین فرایند، ایده‌های بیشتری برای پیشبرد محصول حاصل می‌شود.

برای فهم موانع اثربخشی

اگر به درستی انجام شود، اندازه‌گیری تأثیر می‌تواند به تیم محصول کمک کند تا دقیقاً متوجه شود کاربران در کدام بخش‌ها با چالش‌های رفتاری مواجه هستند و محصول در کجاها به وعده‌هایش عمل نمی‌کند.

برای پایان دادن به بحث‌ها

به جای اینکه تصمیمات بر اساس صدای بلندتر یا نظر گران‌ترین عضو تیم (HiPPO: Highest Paid Person’s Opinion) گرفته شود، اندازه‌گیری اثر بخشی مباحث درباره اینکه محصول چه باید بکند و چه شکلی باید داشته باشد آن را به مقوله‌ای بی‌طرف برای بررسی داده‌ها تبدیل می‌کند. به‌جای جدل بر سر اینکه چه چیزی شاید جواب بدهد، می‌توان با آزمون‌های سریع دید که چه چیزی واقعاً جواب می‌دهد. دانشمند کامپیوتر و دریاسالار، گریس هاپر، این موضوع را به خوبی بیان کرده است: “یک اندازه‌گیری دقیق، ارزشمندتر از هزار نظر کارشناسی است.”حالا که به اندازه کافی متقاعد شدید، بیایید ببینیم چطور باید این کار را انجام دهیم.

از کجا شروع کنیم: نتایج و شاخص‌ها

مطمئن شوید که نتیجه مورد نظر مشخص است

اولین قدم در اندازه‌گیری تأثیر محصول این است که دقیقاً مشخص کنید چه تأثیری برایتان اهمیت دارد (یعنی همان نتیجه مورد انتظار از محصول). در فصل‌های ۴ و ۵، نتیجه هدف، کنشگر و عامل(actor)  و کنشی را که موفقیت محصول را تعیین می‌کردند، شناسایی کردیم. در این‌جا یادآوری کوتاهی از نحوه تعریف نتیجه آورده‌ایم:

  • نتیجه چیزی است که وقتی محصولی موفق باشد در دنیای واقعی تغییر می‌کند.
  • نتیجه باید ملموس باشد، نه صرفاً چیزی در ذهن کاربر. اغلب ذهن کاربر فقط واسطه‌ای برای چیزی است که واقعاً برای شرکت اهمیت دارد و یک نتیجه ملموس که به دلیل تغییر در دانش یا احساسات کاربر قابل اعتماد است، مثل کاهش شاخص توده بدنیBMI یا مدت زمانی که در هفته ورزش انجام می‌شود، (به جای صرفاً دانستن اهمیت ورزش و کنترل وزن).
  • نتیجه باید به وضوح قابل اندازه‌گیری باشد.

مثلاً فرض کنید محصول شما قرار است باعث کاهش فساد دولتی شود. اما «فساد» دقیقاً چیست؟

  • نتیجه باید بتواند موفقیت را نشان دهد.

اگر بتوان گفت: «خب، اگر X اتفاق نیفتاد هم محصول باز موفق است»، پس X نتیجه مورد نظر ما نیست.

  • نتیجه باید بتواند شکست را هم نشان دهد.

باید بتوانید یک سناریوی منطقی تصور کنید که در آن نتیجه نشان دهد محصول در حال شکست خوردن است.

شاخص‌های خودنمایانه (Vanity Metrics)) شاخص‌هایی که شرکت را خوشحال می‌کنند اما در واقع نشان نمی‌دهند که آیا محصول یا شرکت در مسیر درستی قرار دارد یا نه ( در این معیارها مردود می‌شوند. برای مثال، در نظر بگیرید “تعداد بازدید صفحات” را که یکی از شاخص‌های خودنمایانه کلیشه‌ای است. فرض کنید یک شرکت از محصول مصرفی اصلی خود هیچ درآمدی ندارد، اما بازدید زیادی از وب‌سایت محصول دارد. در بیشتر موارد، این موفقیت تلقی نمی‌شود. برعکس: اگر محصول درآمد زیادی داشته باشد ولی به دلایلی بازدید کمی از صفحات وب‌سایت داشته باشد، باز هم این موفقیت تلقی می‌شود.

تعریف شاخص‌ها برای نتیجه و کنش

با در نظر داشتن یک نتیجه مشخص، شما باید دو شاخص تعریف کنید: یکی برای نتیجه و یکی برای کنش و اقدام. شما باید بدون ابهام بدانید که آیا نتیجه‌ی هدف اتفاق افتاده است (و در چه سطحی) و آیا کاربر اقدامی را انجام داده که قرار است باعث به وجود آمدن آن نتیجه شود یا نه.

شاخص نتیجه باید مستقیماً از خود نتیجه هدف ناشی شود و این همان راهی است که از طریق آن مشخص می‌شود آیا نتیجه حاصل شده یا نه. شما باید یک فرمول تعریف کرده و آن را بنویسید، حتی اگر خیلی ساده باشد، که نشان دهد چگونه نتیجه اندازه‌گیری بشود. در این‌جا چند نمونه ساده آورده شده است:

  • درآمد شرکت = پول دریافتی از مشتریان در طول یک ماه
  • وزن کاربر = وزن بدن بدون کفش، اندازه‌گیری‌شده در صبح بعد از صبحانه

و این یکی کمی پیچیده‌تر است:

  • ارتباط‌پذیری در سطح محلی = تعداد دفعاتی که کاربران در طول یک ماه در گردهمایی‌های اجتماعی با همسایگان خود شرکت می‌کنند.

شاخص‌ها باید به وضوح نشان دهند چه چیزی اندازه‌گیری می‌شود، چگونه اندازه‌گیری می‌شود و در چه مدت زمانی اندازه‌گیری انجام می‌گیرد. برای مثال، یکی از راه‌های تعریف درآمد شرکت برای یک محصول خاص این است: پول دریافت‌شده (نه صرفاً ثبت‌شده) به خاطر فروش محصول (نه درآمد حاصل از سرمایه‌گذاری یا فروش دارایی‌های ثابت شرکت)، در یک بازه زمانی ۳۰ روزه بررسی بشود.

حالاچرا این‌قدر دقیق؟ چون اگر مقدار شاخص در طول زمان تغییر کند، باید مطمئن باشیم که این تغییر به دلیل محصول شما بوده، نه به‌خاطر این‌که تعریف شاخص واضح نبوده و روش متفاوتی برای اندازه‌گیری آن در طول زمان باعث تغییر غیرواقعی در داده شده است.

در حالت ایده‌آل، شاخص باید دارای ویژگی‌های زیر باشد:

دقیق (Accurate)
واقعاً همان نتیجه‌ای را اندازه‌گیری کند که می‌خواهید اندازه‌گیری کنید.

قابل‌اعتماد (Reliable)
اگر دقیقاً همان چیز را بیش از یک بار اندازه‌گیری کنید، دقیقاً همان نتیجه را به‌دست بیاورید.

سریع (Rapid)
بتوانید به سرعت مقدار شاخص را مشخص کنید. سرعت باعث می‌شود اندازه‌گیری به‌طور مکرر انجام شود و بررسی این‌که آیا تغییر در محصول مؤثر بوده یا نه، آسان‌تر گردد.

پاسخ‌گو (Responsive)
شاخص باید تغییرات رفتار کاربر را سریع منعکس کند. اگر مجبور باشید یک ماه صبر کنید تا بتوانید تأثیر یک تغییر را اندازه‌گیری کنید (حتی اگر اندازه‌گیری خودش فقط یک دقیقه طول بکشد؛ یعنی حتی اگر سریع باشد) آن وقت ۲۹ روز زمان را از دست داده‌اید که می‌توانستید صرف یادگیری و بهبود محصول کنید.

حساس (Sensitive)
بتوانید تشخیص دهید که تغییرات کوچک در نتیجه یا رفتار رخ داده‌اند. برای برنامه‌نویسان: مقادیر اعشاری (floating-point) عالی‌اند و نه مقادیر بولینی (Boolean).

ارزان (Cheap)
اندازه‌گیری مکرر نتیجه نباید برای سازمان هزینه‌بر باشد وگرنه سازمان از اندازه‌گیری تأثیر تغییرات منفرد در محصول اجتناب می‌کند و در بهبود آن با مشکل روبرو می‌شود.

این شاخصه‌ها زیاد به نظر می‌رسد، نه؟

بله، ولی این به این معنا نیست که باید وسواس پیدا کنید تا به یک شاخص کامل برسید. آن‌چه واقعاً به دنبالش هستیم، یک بررسی سریع برای بررسی کفایت شاخص است. با این لیست مثل یک چک‌لیست رفتار کنید و برای هر شاخص نتیجه، این سوالات را بپرسید:

  • آیا به اندازه‌ای مشخص هست که هنگام اندازه‌گیری، اختلاف نظر زیادی ایجاد نکند؟
  • آیا به اندازه‌ای قابل‌اعتماد هست که تیم را فریب ندهد و باعث نشود فکر کنند محصول کار نمی‌کند، در حالی که در واقع کار می‌کند؟

تعریف شاخص برای کنش و اقدام (Action Metric) نیز مشابه است. شاخص کنش به شما می‌گوید که آیا (و تا چه حد) کاربر در حال انجام دادن کنش هدف است و کنشی که قرار است منجر به نتیجه مطلوب شود شناسایی شود. اگر نتیجه مطلوب، یک سطح خاص از شاخص توده بدنی (BMI) است و کنش، ورزش کردن است، یک نمونه از شاخص کنش می‌تواند این باشد که کاربر چقدر و چند وقت یک‌بار ورزش می‌کند؟

یک شاخص کنش خوب نیز باید همان آزمون‌های شاخص نتیجه را پاس کند: دقیق، قابل‌اعتماد، سریع، پاسخ‌گو و غیره.

در ادامه، مثال‌هایی از شاخص‌های خوب و بد برای کنش آورده می‌شود:

بررسی نمونه موردی‌های شاخص کنش و اقدام کاربر

کنش: ورزش کردن کاربر

شاخص بد ورزش کاربر = مقدار راه رفتنی که کاربر گزارش می‌دهد هر روز انجام می‌دهد. این شاخص بدی است،

چون:
الف) کاربر ممکن است بدون کمک گام‌شمار یا ابزار ردیاب دیگر نداند که چقدر راه رفته
ب) کاربر ممکن است واقعیت را کمی کش بدهد (صادقانه گزارش نکند).

شاخص خوب ورزش کاربر = مقدار راه رفتنی که یک گام‌شمار به صورت روزانه و  خودکار از کاربر ثبت می‌کند.

کنش: یادگیری زبان

شاخص بد مطالعه کاربر =  ارزیابی تخصصی مهارت زبان در یک آزمون کتبی طولانی.

این شاخص مشکل دارد، چون تمرکزش بر نتیجه موردنظر است نه فعالیتی که فرض می‌کنیم (درست یا نادرست) منجر به آن نتیجه می‌شود. همچنین، زمان زیادی برای اندازه‌گیری می‌طلبد و نمی‌توان آن را به طور مکرر اندازه‌گیری کرد (بدون این‌که کاربران را اذیت کند!).

شاخص خوب مطالعه کاربر = مدت زمانی که کاربر درون برنامه صرف می‌کند، یا تعداد تمرین‌هایی که با حداقل دقت مشخصی تکمیل می‌کند.

کاملاً واضح است که در ایجاد شاخص‌های نتیجه و کنش، مصالحه‌هایی وجود دارد. دقیق‌ترین شاخص ممکن است بیش‌ازحد زمان‌بر باشد، یا ارزان‌ترین شاخص ممکن است قابل‌اعتماد نباشد، نیازی نیست وسواس به خرج دهید. ما به‌دنبال شاخصی از کنش هستیم که به‌اندازه کافی حساس باشد تا مشکلات را نشان دهد و به‌اندازه کافی دقیق باشد که تیم را گمراه نکند.

تعیین آستانه‌های موفقیت و شکست

همیشه فرصت‌هایی برای محصولات جدید، مشکلات تازه برای حل‌کردن و بازارهای جدید برای ورود وجود دارد و شرکت به نقطه‌ای می‌رسد که باید تعیین کند آیا محصول به‌اندازه‌ای «خوب هست» که به سراغ مرحله دیگری برود، یا آن‌قدر بد عمل کرده که باید کنار گذاشته شود و یا نیاز به اصلاحات اساسی دارد.

برای یک شرکت، محصول، یا بازار جدید، ممکن است سخت باشد که بدانیم چه چیزی باید «موفقیت» یا «شکست» نامیده شود.

شرکت می‌تواند:

  • به درون خود نگاه کند و بگوید: این چیزی است که برای حفظ کسب‌وکار لازم داریم وگرنه باید به سراغ محصول بعدی برویم.
  • یا به بیرون نگاه کند و بگوید: این چیزی است که محصولات مشابه ما به آن دست می‌یابند؛ اگر ما به آن نرسیم، در بازار جایگاهی پیدا نمی‌کنیم.

من هیچ قانون قطعی و مشخصی در این زمینه ندیده‌ام و تصمیم با شرکت است که مشخص کند که محصول باید چه چیزی را به دست آورد.

آستانه‌های موفقیت و شکست باید قبل از اندازه‌گیری تعیین شوند (و ترجیحاً، همان‌طور که در فصل ۵ و به طور مختصر گفتیم، حتی پیش از ساخت محصول مشخص بشوند). بسیاری از ما در شرکت‌هایی بوده‌ایم که ماه‌ها (یا حتی سال‌ها!) برای توسعه محصول وقت گذاشته‌ایم، آن را وارد بازار کرده‌ایم و با واکنشی ضعیف روبه‌رو شده‌ایم. در همین زمان است که تغییر آغاز می‌شود: به دنبال نکات مثبت می‌گردیم، به دنبال چیزهایی می‌گردیم که نشان دهد «شاید» اوضاع بهتر شود اگر چند ماه دیگر هم روی محصول وقت بگذاریم. این یک لحظه حیاتی است و یک تحلیل بی‌طرف و بدون تعصب لازم است. شاید واقعاً محصول مناسبی نباشد، یا شاید به اندازه کافی خوب هست و تیم دارد با خودش زیادی سخت‌گیرانه برخورد می‌کند. تعیین تکلیف و تعریف واضحی از موفقیت و شکست از ابتدا، کمک می‌کند تا در آینده در دام تحریف اطلاعات نیفتیم. البته، تعیین موفقیت و شکست از قبل به این معنا نیست که نمی‌توانیم اهداف را تغییر دهیم. با شناخت بیشتر بازار، محصول و فرصت‌های دیگر شرکت، درک ما از «به اندازه کافی خوب» بودن تغییر می‌کند. اما حتماً مطمئن شوید که تیم از این تغییر باخبر است و دلیل آن را درک می‌کند. هیچ‌کس از اهداف در حال تغییر خوشش نمی‌آید به‌ویژه زمانی که:

  • استانداردها بدون توضیح بیشتر می‌شود (سخت‌تر کردن کار برای تیم)،

یا

  • پایین آورده می‌شود (که تلقی پذیرش شکست است).

چگونه این شاخص‌ها را اندازه‌گیری کنیم

اکنون که می‌دانید چه چیزی را می‌خواهید اندازه‌گیری کنید، باید اندازه‌گیری را شروع کنید که این امر با ابزارسازی در محصول یا استفاده از روش‌های متنوعی برای گردآوری داده درباره رفتار کاربران و نتیجه مورد نظرهمراه است. این‌که چگونه این داده را گردآوری می‌کنید، به نوع محصول و تغییر رفتاری که روی آن کار می‌کنید بستگی دارد: این‌که رفتار هدف درون محصول است یا بیرون از آن.

اندازه‌گیری رفتارهایی که در محصول تعریف شدند

اگر رفتاری که محصول در تلاش برای تغییر آن است، بخشی از خود محصول باشد، خوش‌شانس هستید. چون ابزارهایی برای کمک به شما در گردآوری داده وجود دارد. برای مثال، فرض کنیم که برنامه شما کاربران را برای تعامل در یک جا جمع می‌کند و به او کمک می‌کند تا به‌طور منظم با آن‌ها در ارتباط باشد، مانند برنامهContactually مسئله تغییر رفتار در این برنامه شامل کمک به کاربران برای بهترین سازماندهی ممکن برای مخاطبانشان در برنامه است.

شما می‌توانید محصول خود را طوری برنامه‌نویسی کنید که سازماندهی مخاطبان را به طور خودکار ثبت کند و ببینید آیا آن‌ها موفق هستند یا نه. در این حالت، می‌توانید محصول خود را طوری برنامه‌نویسی کنید که عمل و نتیجه را به طور خودکار ثبت کند یا رویدادها را به یک پلتفرم شخص ثالث مانند KISS Metrics یا Mixpanel بفرستد (کاری که Contactually انجام می‌دهد). این یک حالت ایده‌آل است و وقتی محصول شما آنلاین باشد، حتی می‌توانید داده‌ها را به‌صورت بلادرنگ گردآوری کنید و بلافاصله ببینید چه اتفاقی در حال رخ دادن است.

اندازه‌گیری رفتارهایی که بیرون از محصول هستند

اگر مسئله تغییر رفتار بیرون از محصول باشد، کار بسیار چالش‌برانگیزتر می‌شود. اول، بایستی به دنبال راه‌هایی برای وارد کردن داده‌های موجود از دنیای واقعی بگردید. در HelloWallet، یکی از اهداف اصلی ما کمک به افراد برای پس‌انداز پول برای آینده‌شان  بود. اما آن‌ها نمی‌توانستند این کار را در درون برنامه ما انجام دهند. آن‌ها پول را از طریق بانک خود به حساب پس‌انداز منتقل می‌کردند. اوایل توسعه محصول، متوجه شدیم که باید از کاربران خود برای دسترسی به اطلاعات حساب بانکی‌شان درخواست کنیم و با دسترسی به اطلاعات حساب بانکی، می‌توانستیم راهنمایی بهتری ارائه دهیم و بسیار مهم‌تر، می‌توانستیم بفهمیم آیا راهنمایی ما واقعاً اثربخش است یا نه.

باید خلاق باشید و دنبال مجموعه‌داده‌هایی بگردید که بتوانید آن‌ها را وارد کنید.

محصول اصلی Opower، که در ابتدای این فصل توضیح داده شد، یک تکه کاغذ است، یک نامه فیزیکی که برای مشتریان شرکت‌های خدماتی ارسال می‌شود. هیچ راهی برای اندازه‌گیری دقیق رفتار افراد در دنیای واقعی با استفاده از نامه وجود ندارد اما آن‌ها با شرکت‌های خدماتی ارتباط برقرار کرده‌اند تا به سوابق مصرف انرژی دسترسی پیدا کنند و با این داده‌ها، می‌توانند با اطمینان بفهمند که آیا نامه‌های آن‌ها بر رفتار مصرف انرژی تأثیر داشته‌اند یا نه.

ابزارهایی برای گردآوری داده درون محصول

برای اندازه‌گیری اثربخشی محصول، باید فراتر از ابزارهای پایه‌ای که بازدید صفحات و تبدیل‌ها را دنبال می‌کنند بروید. اغلب، تأثیری که به دنبال آن هستید فقط یک رویداد ساده در برنامه، مانند بازدید یک صفحه نیست.

برای مثال، اگر محصول شما به کاربران کمک می‌کند تا عادت به‌روزرسانی ماهانه بودجه‌شان را ایجاد کنند، اندازه‌گیری این عادت شامل چیزی فراتر از صفحاتی که آن‌ها دیده‌اند، است.

در مرحله دوم، شما به اطلاعاتی خام و در سطح فردی برای مدل‌سازی آماری نیاز دارید.

و در مرحله سوم، برای ارزیابی تغییرات در تأثیر، احتمالاً نیاز به اجرای آزمایش‌های A/B دارید.

اگر با آن‌ها آشنا نیستید، آزمایش‌های A/B گروهی از کاربران را به صورت تصادفی انتخاب می‌کنند و نسخه‌ای از محصول) نسخه (A  را به آن‌ها نشان می‌دهند، و به گروهی دیگر نسخه متفاوت (نسخه B ) را. ابزارهایی که از آزمایش‌های A/B یا نوع مشابه آن پشتیبانی می‌کنند، از تست چندمتغیره (Multivariate Testing)، استفاده می‌کنند این قابلیت را در مشخصات خود ذکر می‌کنند؛ سازوکار این آزمایش‌ها در بخش «تعیین تأثیر و اجرای آزمایش‌ها» چگونه پبش رفته. ابزارهای متنوعی وجود دارند که می‌توانند این تست‌ها را برای شما اجرا کنند.

برای مثال،  Google Analyticsبسته اطلاعاتی قدیمیGoogle Website Optimization) که از تست‌های A/B پشتیبانی می‌کرد (را می‌تواند دریافت کند و آن را به رابط Google Analytics Content Experiments تبدیل کند.

دریافت داده‌های سطح فردی (یعنی این‌که هر فرد در سیستم چه کاری انجام می‌دهد) نیاز به قدرت پردازشی بیشتری دارد؛ چیزی که Google Analytics ارائه نمی‌دهد. یک نسخه متن‌باز از Google Analytics وجود دارد که موارد  مشابه با آن پیش می‌برند (اگرچه چند نسخه عقب‌تر است)، و داده‌های سطح فردی ارائه می‌دهد:Piwik این ابزار ممکن است کمی دست‌وپاگیر باشد، اما اگر بدانید چطور رکورد خام پایگاه‌داده را تحلیل کنید، کار شما را راه می‌اندازد.

ابزارهای دیگر، مانند KISS Metrics، امکان ردیابی اطلاعات را درسطح فردی را فراهم می‌کنند و همچنین یک رابط گرافیکی مناسب برای انجام برخی تحلیل‌هایی که نیاز دارید ارائه می‌دهند. برای تحلیل جزئی‌تر باید به داده‌های خام (که از طریق سرویس Amazon’s3 S در دسترس است) پیش بروید. شرکت‌ها همچنین می‌توانند سیستم ردیابی خود را، با فرستادن و اتصال رویدادهایی که در سیستم رخ می‌دهند به یک پایگاه‌داده برای تحلیل در آینده پیاده‌سازی کنند.

شرکت شما ممکن است نیاز داشته باشد که برای اندازه‌گیری در دنیای واقعی، قابلیت‌هایی را به اپلیکیشن اضافه کند. فرض کنیم اپلیکیشنی دارید که به مردم کمک می‌کند سالم‌تر غذا بخورند. این اپلیکیشن برنامه‌های غذایی برای پخت‌وپز خانگی آسان و سالم ارائه می‌دهد، بنابراین کاربران دیگر مجبور نیستند زیاد بیرون غذا بخورند. این عالی است، اما از کجا می‌دانید که محصول موفق بوده؟ فقط ارائه برنامه غذایی کافی نیست. شما باید بدانید آیا افراد واقعاً به آن توصیه‌ها عمل می‌کنند یا نه.

یکی از روش‌های اندازه‌گیری رفتار خارج از محصول (استفاده واقعی از برنامه غذایی) این است که قابلیتی اضافه کنید تا کاربر بتواند کارت وفاداری فروشگاه مواد غذایی خود را به اپلیکیشن متصل کند. فروشگاه مواد غذایی می‌داند که کاربر چه چیزی خریداری می‌کند و انگیزه مالی را نشان می‌دهد و مشخص می‌کند که مشتریان بیشتر از آن‌جا خرید کنند تا این‌که بیرون غذا بخورند. کاربران می‌توانند برای پیروی از برنامه غذایی پاداش بگیرند و درک بیشتری در مورد آن‌چه می‌خورند به دست آورند. در این حالت، کاربر، فروشگاه و شما همگی سود می‌برید، چون می‌توانید میزان اثربخشی محصول را اندازه‌گیری کنید.

با این حال، گاهی اوقات هیچ مجموعه اطلاعاتی به سادگی و در دسترس برای شما وجود ندارد که بتوان از آن استفاده کرد، یا اطلاعات بسیار ناقص یا با فاصله‌های زمانی زیاد گردآوری شده و قابل استفاده نیست. برای مثال، فرض کنید اپلیکیشن شما افراد را تشویق به رأی دادن می‌کند. عمل رأی دادن خارج از محصول اتفاق می‌افتد و ماه‌ها طول می‌کشد تا داده رسمی درباره این‌که آیا کسی رأی داده یا نه، منتشر شود.

در چنین مواردی که واقعاً راهی برای گردآوری منظم داده‌های دنیای واقعی ندارید، یک استراتژی سه مرحله‌ای برای سنجش میزان اثربخشی محصولتان وجود دارد:

  • تأثیر محصول خود را بر یک رفتار میانی کاربر اندازه‌گیری کنید، رفتاری که بتوان به‌طور منظم اندازه‌گیری کرد، حتی اگر آن رفتار، کاملاً منطبق با نتیجه واقعی در دنیای واقعی که به آن اهمیت می‌دهید نباشد.
  • یاد بگیرید چگونه می‌توان نتیجه واقعی را حداقل یک‌بار به‌طور دقیق اندازه‌گیری کرد.
  • یک پل ارتباطی بین رفتار میانی که می‌توانید آن را به طور منظم اندازه‌گیری می‌کنید و نتیجه واقعی که برایتان مهم است ایجاد کنید.

ارتباط اطلاعات در اصل نوعی معیار مرجع دوم است، یک اتصال بین رفتار منظم و درون‌برنامه‌ای (که مکرراً اندازه‌گیری می‌شود) و نتیجه دنیای واقعی (که به‌ندرت اندازه‌گیری می‌شود). برای واضح‌تر شدن توضیح، بیایید با بررسی معیار مرجع اول شروع کنیم: ارتباط بین محصول شما و رفتارهای درون‌برنامه‌ای که به‌طور منظم اندازه‌گیری می‌شوند. پس از یادگیری روش معیارگذاری پایه در این مورد، دوباره به «ارتباط اطلاعات» بازخواهیم گشت.

تعیین اثر بخشی: اجرای آزمایش‌ها

  • شما می‌دانید که چه چیزی را می‌خواهید اندازه‌گیری کنید و می‌توانید آن را اندازه‌گیری کنید. حال باید تعیین کنیم که محصول شما در حال حاضر چه تأثیری می‌گذارد. استاندارد طلایی برای سنجش تأثیر یک محصول، انجام آزمایش‌های کنترل‌شده تصادفی است، که با نام‌های تست A/B یا تست تقسیم‌شده (Split Test) نیز شناخته می‌شود. شما یک نمونه تصادفی از کاربران بالقوه را انتخاب کرده و این نمونه را به صورت تصادفی به دو گروه تقسیم می‌کنید: گروه کنترل و گروه آزمایش.
  • گروه کنترل محصول را دریافت نمی‌کند (یا اگر تیم در حال توسعه یک ویژگی جدید است، این گروه آن ویژگی را دریافت نمی‌کند).
  • گروه آزمایش نسخه جدید اپلیکیشن (یا ویژگی جدید) را دریافت می‌کند.

سپس، شما نتیجه نهایی را برای هر گروه اندازه‌گیری می‌کنید و محاسبه اثربخشی محصول، پس از اطمینان از کیفیت داده‌ها، بسیار ساده است: میانگین نتیجه در گروه آزمایش − میانگین نتیجه در گروه کنترل و بله، همین است. آزمایش‌های پایه بسیار ساده و سرراست هستند، البته اگر به درستی طراحی شده باشند. زیبایی این آزمایش‌ها در سادگی و قدرت آن‌ها است و به شما اجازه می‌دهند روی چیزی که واقعاً اهمیت دارد تمرکز کنید (اثربخشی واقعی) و نگران عوامل جانبی یا بحث‌های بی‌پایان بر سر تفسیر داده‌ها نباشید. برای مثال:

  • آیا کسانی که به نظر می‌رسد از محصول شما سود برده‌اند، همان‌هایی نیستند که به هرحال خودشان خوب عمل می‌کردند؟ آزمایش اثر بخشی نشان می‌دهد که چه اتفاقی فراتر از رفتار طبیعی افراد می‌افتد؛ شما رفتار طبیعی را در گروه کنترل اندازه‌گیری کرده و آن را از نتیجه کم می‌کنید.
  • آیا نتایج خوبی که می‌بینید ممکن است ناشی از عامل دیگری باشد؟ آزمایش اثربخشی، تأثیر خالص محصول شما را جدا از تأثیر عوامل خارجی (مثلاً رخدادهای همزمان) بررسی می‌کند تا تفاوت بین گروه آزمایش (تأثیر خارجی + تأثیر محصول) و گروه کنترل (فقط تأثیر خارجی)، با بررسی اثربخشی ویژه محصول مشخص شود.

این نوع آزمایش‌ها در شناسایی این‌که چه تأثیری دارید عالی هستند، اما نمی‌توانند به‌طور مستقیم به شما بگویند چرا محصول چنین تأثیری داشته است. در فصل ۱۳ درباره این موضوع صحبت خواهیم کرد.

برای موفقیت در آزمایش، باید به چند نکته توجه کنید:

مطمئن شوید که به‌اندازه کافی شرکت‌کننده دارید

چطور بدانید که «چند نفر» کافی است؟ کتاب‌هایی در این مورد وجود دارد، ولی برای اغلب افراد، یک ماشین‌حساب آنلاین ساده کفایت می‌کند.

دو نوع محاسبه وجود دارد:

  1. قبل از شروع آزمایش  تخمین این‌که چه تعداد نفر نیاز دارید (محاسبه حجم نمونه / توان آماری)
  2. بعد از آزمایش  تعیین این‌که آیا تفاوت بین دو گروه قابل تشخیص است یا نه(آزمون معناداری آماری)

در سناریوهای رایج، این محاسبه‌ها را بیشتر توضیح خواهیم داد.

از تصادفی‌بودن واقعی در تخصیص اطمینان حاصل کنید

مطمئن شوید که تخصیص افراد به گروه آزمایش و کنترل واقعاً تصادفی است. از یک دستگاه قرعه‌کشی اعداد تصادفی استفاده کنید، و برای هر نفر یک عدد را در نظر بگیرید. حتی اگر یک فهرست موجود از کاربران دارید که به نظر تصادفی می‌رسد، تقریباً هیچ‌گاه واقعاً تصادفی نیستند و نوعی ترتیب در آن وجود دارد که نمی‌توانید به واسطه آن‌ها بدانید این ترتیب چطور بر نتایج اثر می‌گذارد. برای بررسی صحت‌سنجی کار، می‌توانید میانگین متغیرهایی را که محصول نمی‌تواند روی آن‌ها تأثیر بگذارد (مثلاً سن یا جنسیت) در دو گروه مقایسه کنید. اگر متغیرها مشابه بودند، عالی است، اگر نه، تخصیص تصادفی نبوده است.

فقط یک چیز را تغییر دهید

تنها تفاوت بین دو گروه باید «خودِ محصول» باشد. رفتار متفاوت یا روش‌های اندازه‌گیری مختلف برای هر گروه نداشته باشید. شما می‌توانید چند نسخه مختلف از محصول را همزمان تست کنید (تنها متغیرِ مورد آزمایش، نسخه‌های متفاوت محصول است) که به آن تست A/B/C یا تست چندمتغیره (Multivariate Test) می‌گویند که در بخش «اجرای چند نسخه همزمان» بیشتر به آن می‌پردازیم.

نتایج را برای «همه» مقایسه و بررسی کنید

زمانی که دو گروه را با هم مقایسه می‌کنید، باید همه افراد هر گروه را مقایسه کنید. در گروه آزمایش، ممکن است برخی افراد محصول را دریافت کرده باشند اما از آن استفاده نکرده باشند. این افراد را هم باید حساب کنید؛ در غیر این صورت، نتایج شما میزان اثربخشی محصول را با تاثیرات کسانی که تصمیم به استفاده گرفته‌اند، ترکیب می‌کند که باعث تحریف نتیجه می‌شود.

بدانید با چه کسانی کار می‌کنید

بررسی کنید که آیا کاربران قبلاً با نسخه‌ای از محصول آشنا بوده‌اند یا نه. برای مثال، اگر در حال آزمایش یک ویژگی جدید روی جمعیتی هستید که پیش از این نسخه‌ای از محصول را استفاده کرده‌اند، آزمایش همچنان معتبر است، اما میزان تعمیم‌پذیری نتایج به کاربران کاملاً جدید را کاهش می‌دهد.

برای هر دو گروه، همان چیز را اندازه‌گیری کنید.

اگر اثربخشی محصول (نه فقط یک ویژگی) را آزمایش می‌کنید و محصول شما خودش خروجی را اندازه‌گیری می‌کند، چگونه می‌خواهید نتیجه را برای گروه کنترل (که محصول را ندارد) اندازه‌گیری کنید؟

دو گزینه اصلی وجود دارد:

  1. روشی بیابید که بتوانید خارج از محصول، خروجی را اندازه‌گیری کنید و همان روش را برای هر دو گروه استفاده کنید.
  2. از یک نسخه «ناقص» از محصول برای گروه کنترل استفاده کنید که فقط اطلاعات را جمع‌آوری کند، بدون آن‌که ویژگی اصلی ارائه شود.

اگر هیچ‌کدام ممکن نبود، به ناچار از مدل‌های آماری برای تخمین تأثیر علیتی استفاده کنید (که در ادامه همین فصل درباره‌اش صحبت خواهیم کرد).