این سیستم ادعا می‌کند که با دقت بسیا بالایی می‌تواند صدای انسان را تقلید کند. این سیستم، دومین نسل از این تکنولوژی است که توسط گوگل عرضه می‌شود و متشکل از ۲ شبکه عصبی عمیق است- deep neural networks اولین شبکه‌ای است که قادر است متن را به اسپتوگرام(پی دی اف) تبدیل کند- یک راه بصری برای نشان دادن فرکانس‌های صوتی در طول زمان. در مرحله بعد اسپتوگرام با WaveNet تغذیه می‌شود. WaveNet سیستمی است که توسط مرکز آزمایشی هوش مصنوعی شرکت آلفابت شکل گرفته است، این سیستم می‌تواند جداول ارائه شده را خوانده و اِلمان‌های صوتی مورد نظر را بر اساس آن تولید کند.

محققان گوگل همچنین ثابت کردند که Tacotron ۲ می‌تواند کلمات و اسامی سخت تلفظ را ادا کند و به علاوه قوانین نقطه‌گذاری را نیز رعایت می‌کند. برای مثال در زبان انگلیسی روی حروف بزرگ، تاکید یا استرس قرار می‌گیرد که نشان می‌دهد کلمه مورد نظر در جمله اهمیت خاصی دارد. بر‌خلاف برخی از تحقیقات اصلی که این شرکت انجام داده، این تکنولوژی بلا فاصله برای گوگل کارآمد بوده است. WaveNet اولین بار در ۲۰۱۶ معرفی شد و حالا در تولید صدای دستیار صوتی گوگل مورد استفاده قرار می‌گیرد. Tacotron ۲ نیز به محض آمادگی می‌تواند به‌عنوان یکی از بزرگ‌ترین قابلیت‌های دستیار صوتی این شرکت، معرفی شود. این برنامه به گونه‌ای طراحی شده که فعلا فقط قادر است صدای یک زن را ادا کند، برای صحبت با صدای مردان یا صداهای مختلف زنان، این سیستم باید آموزش بیشتری ببیند.