Tech

Etched construit une puce AI qui ne fonctionne qu'avec un seul type de modèle

Alors que l'IA générative touche un nombre croissant d'industries, les entreprises produisant des puces pour exécuter les modèles en bénéficient énormément. Nvidia en particulier, qui détient environ 70 % à 95 % du marché des puces pour l'IA, exerce une influence massive. Les fournisseurs de cloud de Meta à Microsoft dépensent des milliards de dollars sur les GPU de Nvidia, craignant de prendre du retard dans l'IA générative.

Les fournisseurs d'IA générative ne sont pas satisfaits du statu quo pour des raisons compréhensibles. Une grande partie de leur succès repose sur les caprices des fabricants de puces dominants. Et c'est pourquoi, avec les VC opportunistes, ils sont à la recherche de jeunes pousses prometteuses pour défier les titulaires des puces d'IA.

Etched est parmi les nombreuses entreprises de puce alternatives qui luttent pour une place à la table, mais c'est aussi parmi les plus intrigantes. Agée de seulement deux ans, Etched a été fondée par une paire de dropouts de Harvard, Gavin Uberti (ex-OctoML et ex-Xnor.ai) et Chris Zhu, qui, avec Robert Wachen et l'ancien CTO de Cypress Semiconductor Mark Ross, cherchaient à créer une puce qui ne pouvait faire qu'une seule chose : exécuter des modèles d'IA.

Ce n'est pas inhabituel. Beaucoup de start-ups et de géants de la technologie ont - ou sont en train de - développer des puces qui exécutent exclusivement des modèles d'IA, également appelées puces d'inférence. Meta a le MTIA, Amazon a Graviton et Inferentia et ainsi de suite. Mais les puces d'Etched sont uniques en ce sens qu'elles ne font fonctionner qu'un seul type de modèle : les transformateurs.

Le transformateur, proposé par une équipe de chercheurs de Google en 2017, est de loin l'architecture de modèle d'IA générative dominante.

Les transformateurs soutiennent le modèle de génération vidéo Sora de OpenAI. Ils sont au cœur de modèles de génération de texte comme Claude d'Anthropic et Gemini de Google. Et ils alimentent les générateurs d'art comme la dernière version de Stable Diffusion.

“En 2022, nous avons parié que les transformateurs allaient conquérir le monde”, a déclaré Uberti, PDG d'Etched, à TechCrunch lors d'une interview. “Nous avons atteint un point dans l'évolution de l'IA où des puces spécialisées capables de fonctionner mieux que les GPU à usage général sont inévitables - et les décideurs techniques du monde le savent.”

La puce d'Etched, appelée Sohu, est un circuit intégré spécifique à une application (ASIC) - une puce adaptée à une application particulière, en l'occurrence l'exécution de transformateurs. Fabriqué avec le processus 4 nm de TSMC, Sohu peut offrir des performances d'inférence nettement meilleures que les GPU et autres puces d'IA à usage général tout en consommant moins d'énergie, affirme Uberti.

“Sohu est d'un ordre de grandeur plus rapide et moins cher que même la prochaine génération de GPU Blackwell GB200 de Nvidia lors de l'exécution de textes, d'images et de vidéos à transformateurs”, a déclaré Uberti. “Un serveur Sohu remplace 160 GPU H100 ... Sohu sera une option plus abordable, plus efficace et plus respectueuse de l'environnement pour les dirigeants d'entreprises qui ont besoin de puces spécialisées.”

Comment Sohu parvient-il à tout cela ? De plusieurs façons, mais la plus évidente - et intuitive - est un pipeline matériel-logiciel d'inférence rationalisé. Parce que Sohu ne fait pas fonctionner de modèles autres que les transformateurs, l'équipe d'Etched a pu se débarrasser des composants matériels non pertinents pour les transformateurs tout en réduisant les surcharges logicielles traditionnellement utilisées pour déployer et exécuter des modèles autres que les transformateurs.

Un graphique d'Etched comparant les performances matérielles lors de l'exécution du modèle ouvert de Meta Llama 70B.
Crédits image: Etched

Etched arrive sur la scène à un moment d'inflexion dans la course à l'infrastructure d'IA générative. Au-delà des préoccupations de coût, les GPU et autres composants matériels nécessaires pour exécuter des modèles à grande échelle aujourd'hui sont dangereusement gourmands en énergie.

Goldman Sachs prévoit que l'IA est sur le point de stimuler une augmentation de 160 % de la demande d'électricité des centres de données d'ici 2030, contribuant à une augmentation significative des émissions de gaz à effet de serre. Des chercheurs de l'UC Riverside estiment quant à eux que l'utilisation mondiale de l'IA pourrait conduire à ce que les centres de données pompent 1,1 trillion à 1,7 trillion de gallons d'eau douce d'ici 2027, affectant les ressources locales. (De nombreux centres de données utilisent de l'eau pour refroidir les serveurs.)

Uberti présente de manière optimiste - ou bombastique, selon la façon dont on l'interprète - Sohu comme la solution au problème de consommation de l'industrie.

“En bref, nos futurs clients n'auront pas les moyens de ne pas passer à Sohu”, a déclaré Uberti. “Les entreprises sont prêtes à parier sur Etched car la vitesse et le coût sont existentiels pour les produits d'IA qu'elles essaient de construire.”

Etched - en supposant que l'entreprise parvienne à son objectif de lancer Sohu sur le marché de masse dans les prochains mois - peut-elle réussir alors que tant d'autres la suivent de près ?

Alors qu'Etched n'a pas de concurrent direct pour le moment, la start-up de puce d'IA Perceive a récemment présenté un processeur avec une accélération matérielle pour les transformateurs. Groq a également investi massivement dans des optimisations spécifiques aux transformateurs pour son ASIC.

Mis à part la concurrence, que se passerait-il si les transformateurs tombaient un jour en désuétude ? Uberti dit que, dans ce cas, Etched fera l'évidence : concevoir une nouvelle puce. C'est assez logique. Mais c'est un recours assez radical, étant donné le temps qu'il a fallu pour concrétiser Sohu.

Aucune de ces préoccupations n'a dissuadé les investisseurs de verser une énorme somme d'argent dans Etched.

Aujourd'hui, Etched a annoncé la clôture d'un tour de financement de série A de 120 millions de dollars, co-dirigé par Primary Venture Partners et Positive Sum Ventures. Avec un total collecté de 125,36 millions de dollars, le tour a été suivi par des investisseurs providentiels de poids, dont Peter Thiel (Uberti, Zhu et Wachen sont des anciens boursiers Thiel), le PDG de GitHub Thomas Dohmke, le co-fondateur de Cruise (et de la Bot Company) Kyle Vogt et le co-fondateur de Quora, Charlie Cheever.

Ces investisseurs pensent probablement qu'Etched a une chance raisonnable de réussir à développer son activité de vente de serveurs. Et peut-être le fait-elle - Uberti affirme que des clients non nommés ont réservé “des dizaines de millions de dollars” de matériel jusqu'à présent. Le prochain lancement de Sohu Developer Cloud, qui permettra aux clients de prévisualiser Sohu via un terrain de jeu interactif en ligne, devrait stimuler les ventes supplémentaires, a suggéré Uberti.

Il semble cependant encore trop tôt pour dire si cela suffira à propulser Etched et son équipe de 35 personnes dans l'avenir que les co-fondateurs de l'entreprise envisagent. Le segment des puces d'IA peut être impitoyable même dans les meilleurs moments - voyez les échecs retentissants de start-ups de puces d'IA comme Mythic et Graphcore, et, de manière connexe, la chute du financement pour les entreprises de puces d'IA en 2023.

Uberti fait cependant une forte vente : “La génération de vidéos, les modalités audio à audio, la robotique et d'autres cas d'utilisation futurs de l'IA ne seront possibles qu'avec une puce plus rapide comme Sohu. Le futur entier de la technologie de l'IA sera façonné par la capacité de l'infrastructure à s'adapter à l'échelle.”

Related Articles

Back to top button Back to top button