نسل آینده وب برای ماشینهاست نه آدمها

در سال ۱۹۹۹، یک دهه پس از اختراع شبکه جهانی وب، سر تیم برنرز-لی، دانشمند کامپیوتر بریتانیایی، نسخهای هوشمند از این اختراع را تصور کرد. در آن چشمانداز، بخش عمدهای از امور روزمره مانند یافتن اطلاعات، برنامهریزی و انجام کارهای عادی، نه توسط انسانها بلکه توسط «عاملهای هوشمند» انجام میشد؛ ماشینهایی که قادر به خواندن، تفسیر و انجام اقدامات بودند. با وجود تحولات چشمگیر وب از زمان اختراع آن، تجربه کاربری همچنان دستی باقی مانده است؛ یعنی کاربران هنوز باید تایپ کنند، کلیک کنند و مرور کنند تا بتوانند خرید، مطالعه یا تماشا کنند.
هوش مصنوعی (AI) اکنون میتواند این رؤیای تیم برنرز-لی را به واقعیت نزدیک کند. مدلهای زبانی بزرگ (LLM) امروزی قادر به خلاصهسازی اسناد، پاسخ به سوالات و استدلال هستند، اما در حال حاضر توانایی انجام اقدامات را ندارند. این محدودیت با ظهور «عاملها» در حال تغییر است؛ نرمافزارهایی که به مدلهای زبانی ابزارهایی میدهند تا نه تنها متن تولید کنند، بلکه وظایف را نیز اجرا کنند.
این تغییر از سال ۲۰۲۲ با معرفی ChatGPT آغاز شد؛ زمانی که کاربران به جای جستجوی کلمات کلیدی در موتورهای جستجو، سوالات خود را از چتباتها میپرسیدند تا اطلاعات پراکنده در وب را جمعآوری کنند. با این حال، این «موتورهای پاسخ» تنها نوک کوه یخ پتانسیل هوش مصنوعی هستند. کوین اسکات، مدیر فناوری مایکروسافت، معتقد است عاملهایی که قادر به انجام وظایف پیچیدهتر باشند، «فاصله چندانی ندارند». اما برای آنکه این عاملها بتوانند بخش بیشتری از کارها را به عهده بگیرند، زیرساختهای وب باید تغییر کند.
یکی از موانع اصلی، زبان ارتباطی است؛ باید روشی به عاملها داده شود که بتوانند با سرویسهای آنلاین و یکدیگر صحبت کنند. وبسایتها و سرویسهای آنلاین معمولاً از طریق رابطهای برنامهنویسی کاربردی (API) با دنیای خارج ارتباط برقرار میکنند. APIها به کاربران میگویند چه کاری میتوانند انجام دهند؛ مثلاً رزرو وقت پزشک یا ارائه مکان روی نقشه. با این حال، APIها برای انسانها نوشته شدهاند و هرکدام ویژگیها و مستندات خاص خود را دارند. این وضعیت برای عاملهای هوش مصنوعی دشوار است چون آنها در زبان طبیعی استدلال میکنند و یادگیری تکتک APIها نیازمند یادگیری لهجه و ساختار هرکدام است. بنابراین، برای فعالیت مستقل در وب، عاملها به یک زبان استاندارد برای ارتباط نیاز دارند.
هدف از پروتکل مدل کانتکست (MCP) که توسط آزمایشگاه هوش مصنوعی Anthropic توسعه یافته، همین است. مایک کریگر، مدیر محصول این شرکت، میگوید ایده این پروتکل زمانی شکل گرفت که میخواستند چتبات Claude را به سرویسهایی مانند Gmail و GitHub متصل کنند. به جای اتصال هر برنامه به صورت جداگانه، این شرکت خواستار مجموعهای از قوانین مشترک شد تا عاملها بتوانند مستقیماً به ایمیلها یا فایلهای کاربران دسترسی یابند. به جای مطالعه راهنماهای فنی، عامل میتواند از سرور MCP بپرسد یک سیستم چه کاری انجام میدهد — مانند رزرو پرواز، لغو اشتراک یا صدور بازپرداخت — و سپس بدون کد اختصاصی، عملی را به نمایندگی از کاربر انجام دهد.
برای مثال، اگر بخواهید سفری از لندن به نیویورک رزرو کنید، ابتدا برنامه سفر خود را به یک «عامل سفر» میدهید. این عامل، کار را به چند عامل تخصصی تقسیم میکند که پروازها، هتلها و خودروها را جستجو میکنند. این عاملها با سرورهای MCP شرکتهای هواپیمایی، هتلها و شرکتهای کرایه خودرو تماس میگیرند، اطلاعات جمعآوری و مقایسه میکنند و فهرستی از برنامههای احتمالی سفر تهیه میکنند. پس از انتخاب شما، عامل سفر کل رزرو را انجام میدهد.
این نوع هماهنگی میان عاملهای هوشمند نیازمند قواعدی است که تعیین کند چگونه هر عامل یکدیگر را شناسایی، با هم گفتگو و به هم اعتماد کنند. راهکار پیشنهادی گوگل در این زمینه، پروتکل A2A (agent-to-agent) است که به عاملها امکان میدهد قابلیتهای خود را به یکدیگر معرفی کرده و درباره تقسیم وظایف مذاکره کنند. لوری وُس، مدیرعامل شرکت نوپای Arize AI، این وضعیت را «شکار زمین» (landrush) برای تعریف استانداردهای غالب وب عاملمحور میداند؛ استانداردی که بیشترین پذیرش را داشته باشد، ابزارهای پشتیبان آن سریعتر، بهتر و گستردهتر عمل خواهند کرد. در ۹ دسامبر، شرکتهای Anthropic، OpenAI، گوگل، مایکروسافت و دیگران «بنیاد هوش مصنوعی عاملمحور» (Agentic AI Foundation) را برای توسعه استانداردهای متنباز عاملهای هوش مصنوعی تأسیس کردند. MCP از Anthropic نیز بخشی از این استانداردها خواهد بود که نشاندهنده پذیرش گستردهتر آن در صنعت است.
با این حال، بخش عمده وبی که این عاملها روی آن فعالیت میکنند، هنوز برای دید انسانها طراحی شده است؛ یافتن محصول یا اطلاعات معمولاً نیازمند کلیک کردن روی منوهای متعدد است. برای تسهیل دسترسی مدلهای زبانی به سایتها، مایکروسافت ابزار Natural Language Web (NLWeb) را توسعه داده که اجازه میدهد کاربران به هر صفحه وب به زبان طبیعی «چت» کنند. به عنوان مثال، کاربر میتواند از طریق رابط NLWeb یک سایت سفر بپرسد که بهترین مکان برای تعطیلات با سه کودک کجاست یا بهترین فروشگاههای شراب در یک منطقه مشخص کدامند. در حالی که جستجوی سنتی نیازمند عبور از چندین منو و فیلتر است، NLWeb قادر است تمام هدف سؤال را در یک جمله طبیعی درک و پاسخ مناسب ارائه دهد. همچنین هر سایت NLWeb میتواند به عنوان سرور MCP عمل کند و محتوای خود را برای عاملها قابل دسترس نماید. به این ترتیب NLWeb پلی میان اینترنت بصری مدرن و اینترنت قابل استفاده توسط عاملها است.
با رشد توانایی عاملها، رقابت جدیدی بر سر پلتفرمها شکل گرفته که این بار محور آن خود عاملها هستند؛ رقابتی مشابه جنگ مرورگرهای دهه ۱۹۹۰ که شرکتها برای کنترل دسترسی به وب رقابت میکردند. اکنون مرورگرها بازتعریف شدهاند تا عاملها در هسته آنها باشند. OpenAI و Perplexity، استارتاپی در زمینه هوش مصنوعی تولیدی، مرورگرهایی با عاملهای هوشمند عرضه کردهاند که میتوانند پروازها را دنبال کنند، اسناد را بازیابی و ایمیلها را مدیریت کنند. اهداف آنها فراتر از اینهاست؛ در سپتامبر OpenAI امکان خرید مستقیم از سایتهای منتخب را درون ChatGPT فعال کرد و همچنین با سرویسهایی مانند Spotify و Figma ادغام شد تا کاربران بدون جابجایی بین اپلیکیشنها موسیقی گوش داده یا طرحها را ویرایش کنند.
این تحولات نگرانیهایی را در میان بازیگران قدیمی ایجاد کرده است. به عنوان نمونه، آمازون در نوامبر از Perplexity شکایت کرد و مدعی شد این استارتاپ قوانین خدمات خود را با پنهانکردن اینکه مرورگر آن در حال خرید کردن به جای یک انسان است، نقض کرده است. همچنین Airbnb ترجیح داد با ChatGPT ادغام نشود، با این استدلال که این ویژگی «هنوز آماده نیست».
تبلیغات نیز باید خود را با این تحول تطبیق دهد. وب امروزی مبتنی بر جذب توجه انسانها و درآمدزایی از طریق تبلیغات جستجو و شبکههای اجتماعی است. شرکتهای بزرگی چون آلفابت و متا بیش از ۸۰ درصد درآمد خود را از این طریق کسب میکنند که به رقمی نزدیک به نیم تریلیون دلار در سال میرسد. دانشمند کامپیوتر دانشگاه کالیفرنیا، برکلی، داون سانگ، معتقد است بازاریابان ممکن است نیاز پیدا کنند تا به جای انسانها، «توجه عاملها» را هدف قرار دهند. به طور مثال سایتهای گردشگری دیگر مستقیماً مسافران را متقاعد نمیکنند بلکه نماینده دیجیتال آنها را مخاطب قرار میدهند. تاکتیکها ممکن است مشابه بمانند—بهینهسازی رتبهبندی، هدفگیری ترجیحات، پرداخت برای جایگاه تبلیغاتی—اما مخاطب در واقع الگوریتمها خواهند بود.
مرورگرهای مبتنی بر عامل میتوانند فعالیت آنلاین را به طرز چشمگیری گسترش دهند. پراگ آگراوال، بنیانگذار استارتاپ Parallel Web Systems، اشاره میکند وب برای انسانهایی طراحی شده که با سرعت انسانی میخوانند، اما عاملها چنین محدودیتی ندارند. آنها میتوانند هزاران صفحه را در چند ثانیه اسکن کنند، لینکهایی که انسانها از آنها غفلت میکنند دنبال کنند و همزمان چندین کار را مدیریت کنند، بخش عمدهای از این فعالیتها هرگز روی صفحه نمایش ظاهر نمیشود. او پیشبینی میکند میزان استفاده عاملها از وب «صدها یا هزاران برابر» بیش از انسانها خواهد بود.
عاملها ممکن است خطا هم داشته باشند. یک عامل هوش مصنوعی ممکن است رفتاری داشته باشد که کاربرش کاملاً آن را درک نکند، اشتباه کند و سپس توضیحاتی ساختگی ارائه دهد.
نگرانی بزرگتر، دستکاریهای خارجی است؛ مانند «تزریق فرمان» (prompt injection) که در آن دستورات مخرب در صفحات وب یا فایلها پنهان میشود و میتواند عاملها را به افشای دادهها، دور زدن چکهای ایمنی یا انجام اقدامات غیرمجاز وادار کند.
اقدامات حفاظتی میتوانند خطرات را کاهش دهند؛ مثلاً محدود کردن عاملها به سرویسهای قابل اعتماد یا اعطای قدرتهای محدود به آنها. برخی عاملها ممکن است فقط «خواندنی» باشند و تنها اجازه واکشی داده را داشته باشند، بدون اینکه توان ارسال یا تغییر دادهها را داشته باشند. برخی دیگر ممکن است فقط با تأیید انسان عمل کنند و برای حساسترین کارها، نیاز به نظارت مستقیم انسان باشد.
با وجود این ریسکها، توسعهدهندگان نرمافزار نسبت به آینده خوشبین هستند. آقای آگراوال پیشبینی میکند که اینترنت از مدل «کشیدن» (pull) که در آن انسانها اقدام میکنند، به مدل «فشار دادن» (push) تغییر خواهد کرد، جایی که عاملها بدون نیاز به فرمان مستقیم، وظایف را انجام میدهند؛ مانند برنامهریزی جلسات، پیگیری تحقیقات یا مدیریت امور کوچک. این تحول میتواند پایهگذار نسخهای نوین و بسیار متفاوت از وب باشد.



