Стартап Taalas [представил](https://taalas.com/the-path-to-ubiquitous-ai/) радикальный подход к инференсу — Direct-to-Silicon. Компания «запекает» модель прямо в кристалл: веса и архитектура становятся частью чипа. Без HBM и внешней памяти — фактически ASIC под конкретную LLM.
Первый чип HC1 оптимизирован под Llama 3.1 8B и, по заявлению разработчиков, выдаёт до 17 000 токенов в секунду. Утверждается, что решение кратно быстрее актуальных GPU, при этом дешевле в производстве и заметно энергоэффективнее.
Минус очевиден — жёсткая привязка к модели. Однако Taalas оставила поддержку LoRA-адаптеров и настраиваемого контекстного окна. Весной компания обещает чип для более сложных моделей с «ризонингом», а к зиме — второе поколение кремния под frontier-LLM.