Семантическая лаборатория

геометрия в языковых моделях

косинус → центр → ABTT → whitening
Визуализация анизотропии эмбеддингов Точки и векторы показывают общий фон, центрирование, удаление главной компоненты и whitening.
животные физика техника быт планы
0.82

Ползунок добавляет всем словам одинаковую компоненту: игрушечную модель частотности, синтаксиса, жанра корпуса и перекосов обучения.

Главная мысль: язык дискретный, частотный и синтаксически неравномерный, поэтому в эмбеддингах часто появляется общий фон: разные слова получают похожую добавку и кажутся ближе, чем должны. Коррекция убирает измерительный перекос перед поиском соседей, но даже после коррекции пространство остаётся анизотропным.