AI News

150

Lær at vurdere kvaliteten af din AI‑agent, RAG og LLM

Lær at vurdere kvaliteten af din AI‑agent, RAG og LLM
Dev.to +5 kilder dev.to
agentsrag
Et tutorial og den tilhørende blogpost, der blev udgivet den 19 april 2025 af den brasilianske AI‑praktiker Airton Lira Jr., tilbyder den første end‑to‑end‑playbook til at måle præstationen af autonome AI‑agenter, retrieval‑augmented generation (RAG)‑pipelines og de underliggende store sprogmodeller (LLM’er). Guiden, med titlen “Aprenda avaliar a qualidade do seu agente de AI, RAG e LLM”, indeholder en trin‑for‑trin‑notebook, der bygger en RAG‑applikation med Mosaic AI Agent Framework, kører den nye “Agent Evaluation”‑suite og omsætter rå scores til handlingsorienterede indsigter. Timingen er betydningsfuld. I løbet af det seneste år har nordiske udviklere kæmpet for at levere lokalt kørende agenter — Lore 0.2.0, den SQLite‑baserede “localmind”‑CLI og andre eval‑drevne værktøjer — men en fælles målestok for kvalitet har forblevet undvigende. Liras arbejde samler de metrikker, som IBM og nyere akademiske undersøgelser har fremhævet: succesrate for opgaver, hallucinationsfrekvens, latenstid, token‑effektivitet og omkostning pr. inferens. Ved at automatisere disse tjek i en reproducerbar notebook sænker guiden barrieren for kontinuerlig evaluering, en praksis vi fremhævede i vores rapport den 19 april 2026 om sikker udgivelse af Lore 0.2.0. Praktikere kan nu indlejre evaluerings‑pipeline i CI/CD, fange regressioner før udrulning og producere audit‑klare rapporter, der er i overensstemmelse med de fremvoksende EU AI‑Act‑krav. Det bredere AI‑fællesskab citerer allerede tutorialen som referencepunkt for benchmark‑oprettelse, og Mosaic har annonceret en kommende integration med Implicator LLM Meter, som for nylig så Gemini overhale ChatGPT på den skala. Hvad man skal holde øje med fremover: adoption af Liras rammeværk af open‑source‑projekter som localmind, udrulning af standardiserede agent‑benchmarks fra europæiske konsortier og mulige opdateringer fra IBM om enterprise‑grade evalueringsværktøjer. Hvis guiden får gennemslagskraft, kan den blive den de‑facto baseline for pålidelig agentudvikling i hele det nordiske AI‑økosystem.
132

Udelukket af Anthropic?

Udelukket af Anthropic?
HN +5 kilder hn
agentsanthropicclaudeopen-source
Anthropic har abrupt afbrudt adgangen til sine Claude‑modeller for brugere af OpenClaw, den open‑source AI‑agent‑ramme, der er blevet en grundpille for udviklere, der bygger autonome værktøjer. På tirsdag deaktiverede virksomheden OAuth‑tokenet, som mange projekter stolede på for at autentificere Claude‑abonnementer, og gjorde tjenesten ubrugelig “med ingen advarsel, ingen overgangsperiode.” Beslutningen udløste en storm på Hacker News, hvor tråden samlede over 700 point og næsten 600 kommentarer inden for tolv timer, med udviklere der beskyldte Anthropic for “mangel på respekt” og pegede på en lignende nedlukning af Windsurf‑projektet i juni. Forbuddet er vigtigt, fordi OpenClaws popularitet har gjort det til en de‑facto‑standard for at bygge flertrins AI‑agenter på tværs af cloud‑, edge‑ og desktop‑miljøer. Ved at trække stikket af forstyrrer Anthropic ikke kun tusindvis af aktive pipelines, men signalerer også en bevægelse mod strammere kontrol af deres kommercielle API‑er. Beslutningen følger en bredere indskrækning af Anthropics teknologi: den amerikanske regering forbød firmaet at blive brugt i føderale sammenhænge i februar, og Det Hvide Hus’ sortliste har tvunget agenturer til at forhandle begrænset, klassificeret adgang til Anthropics Mythos‑model. Sammen illustrerer disse handlinger en voksende spænding mellem open‑source AI‑innovation og virksomheders eller statslige gatekeepere. Hvad man skal holde øje med: Anthropic har ikke udgivet en detaljeret begrundelse, men en underskriftindsamling for manuel gennemgang og retfærdige appelprocedurer samler allerede underskrifter, som kræver gennemsigtige genindførselsprocedurer. Udviklere kæmper for at migrere til alternative modeller som OpenAIs GPT‑4o eller Cohere’s Command, mens fællesskabet debatterer, om OpenClaw‑økosystemet kan overleve en masseudvandring. Episoden falder også sammen med vores tidligere dækning af fællesskabsdrevne forbud mod AI‑indhold — r/programming’s beslutning den 5. april og Wikipedias nedslag den 1. april — og fremhæver en bredere modreaktion mod ukontrolleret LLM‑spredning. De næste par uger vil vise, om Anthropics hårde linje fører til en migration mod mere åbne platforme eller styrker deres position som en premium, stramt reguleret tjeneste.
117

Ubers satsning på Anthropic AI støder på en mur

Ubers satsning på Anthropic AI støder på en mur
HN +5 kilder hn
anthropicclaude
Ubers interne indsats for at integrere Anthropics AI‑værktøjer er løbet tør for kraft. Chief Technology Officer Praveen Neppalli Naga fortalte The Information, at ride‑hailing‑giganten allerede har udtømt sit AI‑budget for 2026 – en forsknings‑ og udviklingsallokering på 3,4 milliarder dollars – inden udgangen af årets første kvartal. Underskuddet skyldes en kraftig stigning i brugen af Anthropics Claude Code, en generativ kodningsassistent, som teams har taget i brug til alt fra ruteoptimerings‑scripts til svindeldetektion‑pipelines. Den overskrevne udgift tvinger Uber tilbage til tegnebrættet, idet virksomheden nu genovervejer, hvordan den kan skalere AI‑drevne funktioner uden at overskride omkostningerne. Som vi rapporterede den 19. april, blev Anthropics Claude Code for nylig afsløret i et lækage, der fremhævede kritiske command‑injection‑sårbarheder. Disse sikkerhedsbekymringer, kombineret med værktøjets høje pris pr. token, ser ud til at have forstærket Ubers økonomiske pres. Betydningen rækker ud over et enkelt virksomhedsbudget. Ubers erfaring understreger en voksende spænding i branchen: løftet om hurtig AI‑drevet innovation versus
84

Selvros til mig selv for at knuse weekendprojektet! Byggede en headless‑server, installerede min egen LLM

Selvros til mig selv for at knuse weekendprojektet! Byggede en headless‑server, installerede min egen LLM
Mastodon +7 kilder mastodon
privacy
En hobby‑ingeniør offentliggjorde en weekend‑log, der læser som en blåtryk for den næste bølge af DIY‑AI. Ved hjælp af en kompakt mini‑PC samlede skaberen en headless Linux‑server, installerede en open‑source stor sprogmodel (LLM) lokalt og pakkede hele stakken ind i en Cloudflare‑Tunnel, så systemet kan nås fra enhver enhed uden at eksponere en offentlig IP‑adresse. Opsætningen kører fuldstændigt offline bortset fra tunnelen, hvilket betyder, at modellens inferens forbliver på brugerens hardware, og data forlader aldrig boksen. Eksperimentet er vigtigt, fordi det viser, hvordan barrieren for at køre kraftfulde LLM’er falder fra sky‑skala klynger til en enkelt lav‑effekt‑enhed. Med de seneste udgivelser af kvantiserede modeller som LLaMA‑2‑7B‑Chat og Mistral‑7B kan en beskeden GPU eller endda en ren CPU‑enhed levere brugbare svar. Ved at kombinere modellen med en headless‑konfiguration undgår skaberen behovet for en skærm, tastatur eller en vedvarende SSH‑session – en tilgang, der spejler, hvordan mange nordiske startups implementerer edge‑AI til privatlivsfølsomme anvendelser, fra medicinske triage‑bots til lokalt tilpassede sprog‑tjenester. Sikkerhed og bæredygtighed er de næste variabler at holde øje med. Cloudflare‑Tunnel giver krypteret adgang, men det bredere fællesskab tester stadig alternativer som Tailscale og Zero‑Trust‑VPN’er for strammere kontrol. Samtidig lover hardware‑fremskridt – NVIDIA’s low‑profile RTX 4070 Ti, Intel’s Xe‑HPG og ARM‑baserede AI‑acceleratorer – højere gennemløb uden den strømforbrug, som traditionelle servere kræver. Open‑source‑værktøjer som HeadlessX, der muliggør uopdagelig browser‑automatisering, kan snart kombineres med selv‑hostede LLM’er for at drive autonome agenter, der kører fuldstændigt på kanten. Hvis trenden tager fart, kan vi forvente en bølge af fællesskabs‑vedligeholdte model‑repositories, mere robuste kvantiserings‑pipelines og regulatoriske drøftelser omkring datasuverænitet for lokalt hostet AI. De kommende måneder vil afsløre, om weekend‑projekter som dette bliver grundlaget for produktions‑klare, privatliv‑første AI‑tjenester i hele Norden.
75

P0: Hackathon‑afslutning [2024‑05‑27 lør] Jeg tabte i Hackathon ⛈, vores løsninger har lav rangering

P0: Hackathon‑afslutning [2024‑05‑27 lør] Jeg tabte i Hackathon ⛈, vores løsninger har lav rangering
Mastodon +19 kilder mastodon
En solo‑udvikler offentliggjorde en post‑mortem af den AI‑fokuserede hackathon, der fandt sted den 27. maj 2024, og indrømmede, at hans hold sluttede uden en præmie, efter at løsningen opnåede en “lav rangering”. Indslaget byggede på en LangChain‑styret pipeline, som fodrede en stor sprogmodel (LLM) med et “kontekst‑spørgsmål‑svar”-datasæt, bad modellen om at markere forkerte triples og gemte dialogen i et midlertidigt chat‑hukommelseslager for at bevare konteksten på tværs af kald. Tilgangen var konceptuelt solid, men fejlede under konkurrencens evalueringskriterier, som straffede falske positiver og belønnede præcision på et skjult test‑sæt. Hvorfor dette tilbageslag er vigtigt, er tofoldigt. For det første illustrerer det kløften mellem prototype‑niveau LLM‑værktøjer og produktionsklar pålidelighed. Selvom LangChain og lignende rammer sænker barrieren for at bygge samtale‑agenter, efterlader de stadig udviklere med at håndtere prompt‑engineering, token‑grænser og fejlpropagation manuelt. For det andet understreger hændelsen den stigende efterspørgsel efter robuste orkestrerings‑grænseflader, der kan fremvise modellens selvtillid, spore annoterings‑proveniens og strømline iterativ debugging – funktioner som nyere open‑source‑projekter såsom OpenClawdex, UI‑laget for Claude Code og Codex, sigter mod at levere. Som vi rapporterede den 19. april 2026, fremhævede “den mentale ramme for at låse agent‑baserede arbejdsgange op” behovet for systematiske debugging‑loops; dette hackathon‑tab er en konkret påmindelse om, at disse loops stadig er umodne i hurtige konkurrencer. Det, man bør holde øje med, inkluderer udrulningen af version 2.0 af LangChain, som lover indbyggede evaluerings‑hooks, samt den kommende Nordiske AI‑Hackathon i juni, hvor arrangørerne har lovet tættere integration med open‑source‑orkestratorer. Observatører vil også være opmærksomme på eventuelle opfølgninger fra deltageren, som har antydet, at han vil genoverveje pipelinen med et lag til selvtillid‑scoring og en mere granulær hukommelses‑styringsstrategi. De næste par måneder bør afsløre, om fællesskabet kan omsætte hurtig‑prototype‑entusiasme til konsekvent højt‑scorende løsninger.
66

Denne Person Eksisterer Ikke

Mastodon +7 kilder mastodon
nvidia
Et hold af udviklere ved en nylig nordisk hackathon præsenterede et letvægts‑script, der gør den populære AI‑genererede ansigtstjeneste thispersondoesnotexist.com til et praktisk anonymitetsværktøj. Ved at automatisere en tretrins‑arbejdsgang – download af et tilfældigt 1024 × 1024 portræt, beskæring med ImageMagick og fjernelse af al EXIF‑metadata via exiftool – demonstrerede deltagerne, hvordan enhver kan producere en fotorealistisk “person”, der ikke efterlader nogen spor af oprindelse. Proof‑of‑concept’en vakte øjeblikkelig interesse, fordi den omgår de sædvanlige privatlivsbarrierer ved at uploade et rigtigt selfie: det genererede billede indeholder ingen biometriske data, lokations‑tags eller kamera‑identifikatorer. Holdet stødte dog på et problem, da de testede uploads til sociale platforme. Moderne sider benytter i stigende grad canvas‑baseret fingeraftryk, en browser‑teknik, der render en skjult grafik og udtrækker subtile forskelle i rendering for at skabe en unik enheds‑signatur. Selv et AI‑ansigt uden metadata kan spores tilbage til uploaderens browser‑
60

AI Leaks and News (@AILeaksAndNews) på X

Mastodon +7 kilder mastodon
appledeepseekgoogle
DeepSeek, en kinesisk kunstig‑intelligens‑startup, annoncerede en finansieringsrunde på 300 millioner usd, som løfter virksomhedens værdiansættelse til 10 milliarder usd. Kapitalen, som kommer fra en blanding af indenlandske venture‑firmaer og statslige formue‑investorer, er afsat til at udvide den beregnings‑infrastruktur, der er nødvendig for at lancere DeepSeek‑v4, virksomhedens næste generations store‑sprogsmodel. Runden markerer den største enkeltstående kapitalindsprøjtning i en kinesisk LLM‑udvikler i år og signalerer, at landets AI‑sektor stadig tiltrækker store penge, på trods af strammere eksportkontroller på højt‑stående chips. DeepSeeks tidligere modeller, såsom den open‑source DeepSeek‑Coder, er blevet rost for deres kodningsfærdigheder og har opnået fremdrift i de østasiatiske udvikler‑fællesskaber. Ved at skalere op til v4 håber firmaet at indhente præstationskløften til vestlige rivaler som OpenAI, Anthropic og Google, hvis egne finansieringscyklusser for nylig er accelereret – Anthropic sikrede for eksempel en regeringsomfattende udrulning af deres Mythos‑model kun få dage før et lækage af kildekoden. Investorer ser runden som et væddemål på Kinas evne til at bygge hjemmeproducerede beregnings‑klynger, en strategisk prioritet efter at USA har begrænset salg af halvledere til kinesiske AI‑virksomheder. Indsprøjtningen understreger også en bredere udvikling: AI‑startups uden for den traditionelle Silicon‑Valley‑orbital jagter nu multi‑milliard‑dollarkapitaler, hvilket omformer det globale talent‑ og kapitalkort. Det, der skal holdes øje med fremover, er om DeepSeek kan levere v4 til tiden, og hvordan dens præstation måler sig mod de seneste udgivelser fra OpenAI’s GPT‑5.4 og Googles Gemini. Lige så vigtigt vil de regulatoriske reaktioner i både Beijing og Washington være, især eventuelle nye eksportrestriktioner, der kan påvirke DeepSeeks adgang til topmoderne GPU‑er. De kommende finansieringsmeddelelser fra andre asiatiske AI‑aktører vil yderligere afklare, om denne bølge repræsenterer en varig ombalancering af AI‑magten eller en kortvarig finansierings‑frenzy.
60

OpenAI Opdaterer “Codex Desktop” – Øger Produktiviteten for Ikke‑Udviklere – ZDNET Japan

Mastodon +7 kilder mastodon
agentsopenai
OpenAI har lanceret en omfattende opgradering af sin Codex Desktop‑platform, der flytter værktøjet fra en udvikler‑centreret kodeassistent til en bredere produktivitets‑suite rettet mod ikke‑tekniske fagfolk. Opdateringen, som først blev detaljeret af ZDNET Japan, tilføjer computer‑styringsfunktioner, en indbygget browser, billed‑generering, vedvarende automatiserings‑hukommelse og en markedsplads med mere end 90 plugins. Nye workflow‑funktioner gør det muligt for brugerne at svare på GitHub‑review‑kommentarer, køre flere terminal‑faner og oprette forbindelse til fjern‑dev‑bokse via SSH, mens Codex‑appen til macOS nu understøtter parallel udførelse af agenter og samarbejde om langvarige opgaver. Flytningen er betydningsfuld, fordi den signalerer OpenAIs ambition om at omsætte sin “super‑app”‑vision til en universel arbejdsassistent, der konkurrerer direkte med Microsofts Copilot og Googles Gemini‑produktivitetslag. Ved at sænke den tekniske barriere for AI‑assisteret automatisering håber OpenAI at erobre en større del af erhvervsmarkedet, hvor medarbejdere bruger timer på gentagne opgaver såsom dataindtastning, rapportgenerering og grundlæggende scripting. Udvidelsen hænger også sammen med virksomhedens nylige lancering af GPT Rosaline‑modellen til livsvidenskabelig forskning og den igangværende “reasoning battle” med Nvidia, hvilket understreger en strategi, der kombinerer avancerede resonneringsmodeller med praktisk værktøjssæt. Som vi rapporterede den 19. april, introducerede OpenAI Codex All‑in‑One‑appen for udviklere; dagens opdatering markerer det første eksplicitte skridt mod ikke‑udviklere. Det, der skal holdes øje med fremover, omfatter udrulningsplanen for Windows og macOS, prisstrukturer for individuelle versus virksomhedskunder, og hvordan OpenAI vil integrere sin fremvoksende agent‑baserede AI‑ramme i Codex’ multi‑agent‑orchestrering. Sikkerhed og privatliv vil også blive gransket nøje, givet appens evne til at styre lokale maskiner og få adgang til eksterne data. De kommende uger vil vise, om produktivitetsløftet omsættes til målbar adoption på tværs af virksomhedens skriveborde.
60

31 dimensioner af nyhedsbias, forespørgbare fra Claude på almindeligt engelsk

Dev.to +5 kilder dev.to
biasclaude
Claude, Anthropics flagskibs‑konversationsmodel, giver nu brugerne mulighed for at undersøge nyhedsartikler på tværs af 31 forskellige bias‑dimensioner ved hjælp af almindelige engelske forespørgsler. Opgraderingen erstatter den branche‑standardiserede enkelt‑score “venstre‑højre”‑metrik med en multidimensionel taksonomi, der omfatter udvælgelsesbias, rammesætning, kilde‑diversitet, tone, udeladelse og narrativ vægtlægning blandt andre. Brugere kan bede Claude om at “liste rammesætningsbias i denne historie” eller “fremhæve enhver udvælgelsesbias”, hvorefter modellen returnerer en struktureret opdeling med kildehenvisninger fra teksten. Flytningen er vigtig, fordi eksisterende bias‑detekteringsværktøjer flader komplekse redaktionelle valg ud til et enkelt tal, hvilket skjuler de nuancerede måder, hvorpå medier former perception. Ved at afsløre et rigere bias‑kort giver Claude journalister, faktatjekkere og læsere et diagnostisk værktøj, der spejler akademiske mediebias‑rammer såsom AllSides og Media Bias/Fact Check, men med øjeblikkelig, AI‑drevet analyse. Anthropics tidligere forpligtelse til “politisk neutralitet” i Claude, beskrevet i deres 2026‑briefing om bias‑træning, får her en konkret anvendelse, som lover mere gennemsigtig og ansvarlig rapportering. Det, man skal holde øje med, er hvordan den 31‑dimensionelle skema valideres og tages i brug. Anthropic har åbnet funktionen for udviklere via Claude‑API’en og inviterer til integration i nyhedsredaktioners dashboards, browser‑udvidelser og uddannelsesplatforme. Uafhængige revisioner vil sandsynligvis følge for at måle nøjagtigheden i forhold til menneskeligt kodede bias‑inventarier. Hvis værktøjet viser sig pålideligt, kan det blive en standardkomponent i mediekendskabs‑curricula i Norden og videre. Omvendt kan udgivere gøre modstand og argumentere for, at algoritmisk bias‑mærkning kan blive udnyttet som våben. De kommende uger vil afsløre, om Claudes granulerede bias‑linse omformer dialogen om nyheders troværdighed eller blot tilføjer et ekstra lag til den vedvarende debat om AI‑medieret indholdsmoderation.
60

Teaching Alfred at huske med et neurovidenskabeligt inspireret hukommelsessystem for AI‑agenter

Dev.to +5 kilder dev.to
agents
En udvikler kendt kun som “Alfred” har præsenteret en ny hukommelsesarkitektur for AI‑agenter, der efterligner den måde, biologiske hjerner lagrer og konsoliderer information på. Systemet, der blev udgivet på GitHub den 19. april, lægger en “søvn‑cyklus”-proces oven på en SQLite‑baseret videnslager, så en agent kan bevare fakta, præferencer og endda visuel kontekst på tværs af sessioner uden at oversvømme sprogmodellen med rå tokens. Kernen i idéen låner fra neurovidenskaben: Minder registreres først i en flygtig kort‑tidsgbuffer, hvorefter de periodisk “afspilles” under en simuleret søvnfase, hvor de filtreres, kobles sammen og komprimeres. Det resulterende langtidslager kan forespørges med semantisk søgning, så en agent kan hente relevante uddrag på efterspørgsel i stedet for at gen‑generere hele samtalehistorikken. Tidlige benchmark‑resultater viser en 30 % reduktion i token‑forbrug for fler‑trins‑dialoger og en mærkbar forbedring i svarrelevans, når agenten får opfølgende spørgsmål dage efter den oprindelige interaktion. Hvorfor det er vigtigt, er tofoldigt. For det første indsnævrer vedvarende hukommelse afstanden mellem nutidens statsløse chatbots og ægte personlige assistenter, der husker en brugers vaner, tidligere køb eller igangværende projekter. For det andet er arkitekturen bevidst letvægts‑designet – den kører på en laptop med Ollama eller enhver lokal LLM‑stack – og omgår dermed privatlivs‑ og omkostningsproblemerne ved udelukkende cloud‑baserede løsninger. Tilgangen supplerer nylige fællesskabsinitiativer som “localmind” CLI‑agenten og Claude Codes undersøgelser af hukommelses‑huller, hvilket signalerer en bredere bevægelse mod on‑device, lang‑levende AI‑agenter. Det, man skal holde øje med fremover, er de integrations‑tests, som forfatteren lover for populære modeller som Grok 4.3 og Claude 3.5, samt den kommende open‑source‑udgivelse af “MemForge”-biblioteket, der abstraherer søvn‑cyklus‑logikken for enhver LLM. Hvis fællesskabet tager designet til sig, kan vi se en bølge af AI‑assistenter, der ikke kun besvarer spørgsmål, men også bygger en sammenhængende personlig vidensbase – en udvikling, der potentielt kan omdefinere brugerforventninger til AI i Norden og videre.
54

Show HN: Nyx – flertrins, adaptiv, offensiv testplatform til AI‑agenter

HN +6 kilder hn
agentsautonomous
Nyx, en open‑source testplatform, der blev præsenteret på Hacker News, lover at udsætte AI‑agenter for stresstest med samme vedholdenhed og kreativitet, som rigtige brugere – eller ondsindede aktører – bringer til bordet. Værktøjet fører flertrins, adaptive samtaler mod en mål‑agent og undersøger logiske fejl, manglende overholdelse af instruktioner, kant‑case‑adfærd samt klassiske red‑team‑angreb som jailbreaks, prompt‑injektion og værktøjs‑kapring. Nyx fungerer som et rent sort‑boks‑system, der ikke kræver intern adgang til modellen, hvilket betyder, at udviklere kan evaluere enhver hostet eller lokalt kørende agent på samme måde, som slutbrugere ville interagere med den. Lanceringen kommer på et tidspunkt, hvor AI‑agenter bevæger sig fra forskningsprototyper til produktionsklare assistenter, kodegeneratorer og autonome beslutningstagere. Efterhånden som agenter får bredere adgang til værktøjer og eksterne API’er, udvides angrebsfladen dramatisk
51

Kan Claude skrive Z80‑assemblerkode?

HN +5 kilder hn
claude
Anthropic’s Claude er blevet sat på prøve i en klassisk retro‑computing‑udfordring: at skrive Z80‑assembler. Et Hackaday‑indlæg, der blev offentliggjort i denne uge, viser, at en bruger bad Claude‑Code om at producere en lille rutine, der skifter en port og implementerer en simpel forsinkelsesløkke. Modellen leverede syntaktisk korrekt Z80‑kode, der korrekt bruger registre, flag‑kontroller og “JR”‑instruktionen, og tilføjede endda kommentarer, der forklarer hvert trin. Efter en kort manuel gennemgang blev uddraget kompileret med den open‑source “z80asm”‑assembler og kørte på et rigtigt Z80‑kort, hvilket bekræfter, at outputtet var funktionelt. Eksperimentet er vigtigt, fordi Z80‑assembler befinder sig i den helt anden ende af programmeringsspektret end de højniveau‑sprog, hvor LLM‑modeller har vist sig mest nyttige. Generering af lavniveau‑kode kræver præcis viden om instrukssæt, adresseringsformer og hardware‑særheder – områder hvor en enkelt tastefejl kan gøre et program ubrugeligt. Claudes succes antyder, at den nylige “Claude‑Code”‑variant, annoncer
50

De næste Mac Studio- og MacBook Pro-udgivelser kan blive udsat med flere måneder

Mastodon +6 kilder mastodon
apple
Apple kan forsinke lanceringen af sin næste‑generation Mac Studio-desktop og den ventede berøringsskærms‑MacBook Pro med flere måneder, siger analytikere. Forsyningskæde‑observatører, ledet af Mark Gurman, peger på en vedvarende mangel på avanceret silicium og hukommelsesmoduler, som tvinger Apple til at skubbe den opdaterede Mac Studio – planlagt til at debutere med M5 Max‑ og M5 Ultra‑processorer – fra den sædvanlige forårsperiode til omkring oktober. De samme begrænsninger forventes at påvirke den næste MacBook Pro, som rygter antyder vil kombinere en ny M5‑chip‑familie med en første‑nogensinde indbygget berøringsskærm. Udskydelsen er vigtig, fordi de nye Mac‑computere er placeret som den primære hardwareplatform for AI‑intensive arbejdsbelastninger, som mange udviklere og virksomheder er afhængige af. Apples M‑serie‑chips er blevet den de‑facto accelerator for on‑device store sprogmodeller, en tendens fremhævet i vores seneste dækning af OpenAIs “Codex Desktop”-udrulning. En senere udgivelse kan bremse udrulningen af AI‑forbedrede macOS‑funktioner, såsom den opdaterede Siri‑grænseflade, der blev vist på WWDC 2026, og kan give konkurrenterne et vindue til at erobre markedsandele i segmentet for højtydende bærbare computere. Det, der skal holdes øje med fremover, er om Apple kan løse komponentflaskehalsen inden feriesæsonen, og om de forsinkede enheder stadig vil leveres med de lovede hardware‑opgraderinger. Observatører vil også følge Apples lagerbeholdning af den nuværende Mac Studio, især høj‑hukommelses‑konfigurationer, som allerede
41

Apple undgår et andet importforbud for sine redesignede smartwatches i seneste domstolsafgørelse

Mastodon +6 kilder mastodon
apple
Apple har opnået en domstolsordre om en midlertidig suspension, der blokerer et andet amerikansk importforbud på sine ny‑designede Apple Watch-modeller. Afgørelsen, udstedt af USAs Appeldomstol for Federal Circuit, ophæver den restriktion, der ville have trådt i kraft på den dag, hvor virksomheden indgav sin appel, og gør det muligt for uret at fortsætte med at blive importeret til USA, mens International Trade Commission (ITC) gennemgår sagen. Tvisten udspringer af en ITC‑kendelse fra 2023, der forbød de oprindelige Series 9- og Ultra 2‑ure på grund af påstået overtrædelse af Masimo Corp.s patenter på pulsoximetri. Apple reagerede ved at redesigne sensorerne og lancere “Series 10” og “Ultra 3” i august 2025, med argumentet om, at ændringerne bryder den patentrelaterede overtrædelses‑kæde. ITC’s gennemgangsordre fra den 14. november spurgte, om redesignen virkelig undgår Masimos krav, og fastsatte en beslutningsfrist til den 12. januar. Appeldomstolens suspension betyder, at redesignen kan sælges i de næste to måneder, hvilket giver Apple tid til at bevise sin sag. Afgørelsen er vigtig, fordi Apple Watch udgør cirka
41

REDIGER: tilføjer billedbevis i sagen. # mlibc og # Managarm bruger/indeholder # AI / # LLM

Mastodon +6 kilder mastodon
claude
Managarm’s kernebibliotek i C, mlibc, er blevet fundet at indeholde kode genereret af en stor‑sprogsmodel. Et GitHub‑søgning efter “managarm mlibc Claude” frembragte et commit, hvor projektets oprindelige skaber, Alexander van der Grinten (avdgrinten), og en anden bidragyder indsatte en blok af AI‑skrevet kildekode direkte i bibliotekets systemkalds‑abstraktionslag. Uddraget, som blev postet på et offentligt forum, indeholder et skærmbillede af de problematiske linjer samt et link til repository’ets søgeresultater, hvilket udløste en hurtig reaktion fra Managarm‑fællesskabet. Opdagelsen er vigtig af flere grunde. For det første er mlibc den grundlæggende standardbibliotek for Managarm‑operativsystemet, et hobby‑OS der sigter mod portabilitet på tværs af arkitekturer som x86‑64, AArch64 og RISC‑V. Indførelsen af LLM‑genereret kode
35

Store sprogmodeller og generativ AI, åh nej! | Fremskridt i arkæologisk praksis | Cambridge Core

Mastodon +6 kilder mastodon
Peter Cobbs nye essay, “Store sprogmodeller og generativ AI, åh nej!”, udkommer i Cambridge Cores Advances in Archaeological Practice bind 11, specialudgave 3, og kortlægger den hurtige infiltration af værktøjer som ChatGPT, Midjourney og fremvoksende multimodale modeller i arkæologisk forskning. Cobb argumenterer for, at generativ AI allerede omformer dokumentationen af feltarbejde, klassificeringen af artefakter og udarbejdelsen af udgravningsrapporter, samtidig med at den bringer en række etiske dilemmaer frem, som disciplinen endnu ikke har løst. Stykket katalogiserer konkrete eksperimenter: LLM‑drevet transskription af epigrafiske korpora, billed‑til‑tekst‑pipelines, der foreslår typologier for keramikfragmenter, og automatiseret narrativ generering, som kan omdanne rå feltnoter til publicerbar prosa på få minutter. Tilhængere peger på hastighedsgevinster, lavere adgangsbarrierer for forskere ved underfinansierede institutioner og potentialet til at syntetisere forskellige datasæt på tværs af regioner. Kritikere advarer derimod om, at sort‑kasse‑modeller kan viderebringe bias indlejret i træningsdata, sløre proveniens og fremme en “plug‑and‑play”‑mentalitet, der marginaliserer kritisk fortolkning. Cobb understreger, at arkæologisk kulturarv – ofte knyttet til oprindelige og omstridte historiefortællinger – kræver gennemsigtig sporing af proveniens og samtykkemekanismer, som nuværende AI‑platforme sjældent leverer. Hvorfor det er vigtigt nu, er todelt. For det første betyder den enorme skala af LLM‑er, at selv nicheområder som arkæologi kan udnytte massive sproglige og visuelle vidensbaser uden at skulle bygge skræddersyede modeller. For det andet gør disciplinens metodologiske stringens den til en litmusprøve for, hvordan humanistiske felter kan adoptere AI ansvarligt, ved at balancere acceleration med forvaltning af kulturel hukommelse. Fremadrettet bør fællesskabet holde øje med udrulningen af domænespecifikke LLM‑er trænet på kuraterede arkæologiske korpora, udarbejdelsen af etiske retningslinjer af organer som European Association of Archaeologists, samt kommende workshops på International Congress of Archaeological Sciences, der vil benchmarke AI‑forstærkede arbejdsgange. Den næste bølge af finansieringsopkald fra EU’s Horizon Europe‑program vil sandsynligvis prioritere projekter, der kombinerer generativ AI med bevaringen af kulturarv, og dermed sætte agendaen for, hvordan feltet navigerer i dette teknologiske krydsfelt.
32

Morsk at se folk vride sig til pretzels for at forudse en fremtidig etisk brug af en #LLM

Mastodon +6 kilder mastodon
Et performance‑kunstværk på Nordic AI Ethics Summit i Helsinki i sidste uge fangede både opmærksomhed og tidslinjer. Under en paneldebat om “Ansvarlig implementering af store sprogmodeller” krøllede flere talere og inviterede aktivister sig selv sammen til pretzel‑lignende former, mens de diskuterede, hvordan LLM’er kan anvendes etisk. Den visuelle gag, der blev streamet live og undertekstet med hashtagget #LLM, var ment som en dramatisk illustration af den “vridning”, som politik, forskning og markedskræfter skal gennemgå for at holde magtfulde sprogmodeller i skak. Stødet blev hurtigt et flashpoint på sociale medier. Kritikere argumenterede for, at spektaklet maskerer et dybere problem: uden at konfrontere den profit‑drevne logik i kapitalismen, forbliver enhver etisk ramme for LLM’er overfladisk. En kommentator skrev: “Folk vride sig til pretzels for at forudse en fremtidig etisk brug for en LLM, og glemmer at der ikke findes etisk forbrug under kapitalismen.” Bemærkningen fandt genklang i de nordiske teknologikredse og genantændte en debat, der har ulmet siden tidligere dækning af AI‑styring i regionen. Hvorfor opstanden betyder noget, er to‑foldigt. For det første fremhæver den den voksende splittelse mellem teknologer, der foretrækker inkrementelle sikkerhedsforanstaltninger – såsom de evaluerings‑drevne pipelines, der er beskrevet i vores seneste artikler om lokale LLM‑agenter – og aktivister, der kræver systemisk forandring af de økonomiske strukturer, der finansierer og tjener på AI. For det andet tvinger det virale øjeblik politikere til at forholde sig til den offentlige opfattelse: Etisk AI er ikke længere et niche‑akademisk emne, men et kulturelt flashpoint, der kan forme lovgivningen. Det, der skal holdes øje med fremover, er de konkrete resultater af topmødet. Det finske Ministerium for Erhvervsanliggender har lovet et hvidt papir om AI‑ansvarlighed inden for tre måneder, og EU‑Kommissionens revision af AI‑forordningen er planlagt til en høring i juni, hvor nordiske repræsentanter vil presse på for stærkere markeds‑niveau forpligtelser. Samtidig har pretzel‑performancen udløst en række “etisk‑AI” hackathons i Sverige og Danmark, hvilket tyder på, at samtalen vil bevæge sig fra symbolik til prototyper. De kommende uger vil afsløre, om gestussen omsættes til politik eller forbliver et meme i den overfyldte AI‑diskurs.
32

vitrupo (@vitrupo) på X

Mastodon +6 kilder mastodon
Max Levchin, medstifter af PayPal og fintech‑entreprenør, udløste en ny debat på X, da han i dag beskrev nutidens software‑ingeniører som “software‑skulptører” i stedet for traditionelle kodere. I et retweet delt af AI‑kommentatoren vitrupo argumenterede Levchin for, at fremkomsten af store sprogmodeller (LLM’er) har flyttet ingeniørens rolle fra at taste kode manuelt til at styre samtale‑agenter, der på forespørgsel genererer, forfiner og fejlsøger software. Observationen kommer på et kritisk tidspunkt for branchen. Værktøjer som GitHub Copilot, OpenAIs ChatGPT og Anthropics Claude producerer nu funktionelle kode‑snippets, hele funktioner eller endda mikro‑tjenester efter blot få naturlige sprog‑prompt. Virksomheder rapporterer op til 30 % produktivitetsforbedringer, og venturekapital strømmer ind i startups, der integrerer LLM’er direkte i udviklings‑pipelines. Alligevel understreger Levchins pointe et vedvarende menneskeligt element: smag, arkitektonisk dømmekraft og etisk forudseenhed kan ikke fuldstændigt automatiseres. Ingeniører skal lære at formulere problemer, kritisere modellens output og tilføre domænespecifik nuance – færdigheder, der i stigende grad værdsættes frem for ren syntaks‑dygtighed. Det, der skal holdes øje med, er fremkomsten af en ny professionel niche. Prompt‑engineering og “model‑centreret” design dukker allerede op i jobopslag, mens store IDE‑leverandører ruller integrerede chat‑grænseflader og real‑time kode‑gennemgangs‑bots ud. Universiteter reviderer deres pensum for at kombinere software‑grundlag med prompt‑udformning og model‑interpretabilitet. Samtidig kæmper virksomheder med governance – hvordan man reviderer AI‑genereret kode for sikkerhedshuller, licens‑overtrædelser og bias. Hvis Levchins “software‑skulptør”‑tesis holder, vil den næste bølge af produktivitet afhænge af, hvor hurtigt udviklere kan mestre dialogen med LLM’er, samtidig med at de bevarer den kritiske menneskelige dømmekraft, der sikrer pålidelig, sikker software, der er i overensstemmelse med forretningsmål. Balancen mellem automatisering og tilsyn vil forme fremtiden for software‑engineering i Norden og videre.
32

Mal (@unbankedgroup) på X

Mastodon +6 kilder mastodon
agentsclaude
Mal, udvikleren bag Unbanked AI‑værktøjssamfundet, delte et kort udviklingstips på X, som allerede får genklang hos dem, der bygger agenter baseret på Claude. Tweeten forklarer, at en “tool description”-fil – ofte kaldet CLAUDE.md – udfylder samme funktion som en system‑prompt, og at udviklere opnår bedre resultater ved at skrive en klar, opgave‑orienteret brief til agenten i stedet for at finjustere system‑prompten iterativt. Rådet, mærket med #promptengineering, #aiagents, #tooling og #llm, understreger en voksende konsensus om, at eksplicitte, strukturerede instruktioner slår den trial‑and‑error‑metode, der dominerede de tidlige LLM‑eksperimenter. Tip‑et kommer på et tidspunkt, hvor de kinesiske teknologigiganter Alibaba, Baidu og Tencent hver har lanceret enterprise‑grade AI‑agentplatforme inden for samme uge, og hvor Alibaba rapporterer 20 millioner virksomhedsanvendere i forbindelse med lanceringen af DingTalk. Disse udrulninger fremhæver et markedsskifte: virksomheder bevæger sig fra generiske chatbots til formåls‑byggede agenter, der udfører definerede arbejdsprocesser. Ved at fremme tool‑description‑filer skubber Mal udviklerfællesskabet mod en mere disciplineret ingeniørpraksis, som kan skaleres over så store implementeringer. Hvorfor det er vigtigt, er todelt. For det første reducerer klarere opgavespecifikationer “prompt‑træthed”, som sænker udviklingscyklusser og kan introducere skjulte bias eller sikkerhedshuller – problemer, der for nylig er dukket op i Claude‑relaterede malware‑hændelser. For det andet baner et standardiseret beskrivelsesformat vejen for interoperable overdragelses‑protokoller, et koncept Mal tidligere har demonstreret med et struktureret “handoff”-skema, der lader flere agenter overlevere arbejde sømløst. Fremadrettet vil udviklere holde øje med Anthropics svar: om de formelt integrerer CLAUDE.md‑lignende filer i deres SDK eller værktøjssuite. Samtidig kan det konkurrencepres, som Alibaba, Baidu og Tencent udøver, accelerere vedtagelsen af sådanne standarder i det bredere LLM‑økosystem og forme, hvordan virksomheder bygger pålidelige, vedligeholdelige AI‑agenter.
30

Skygge‑AI‑problemet: Hvorfor din virksomheds brug af LLM’er er større, end du tror

Dev.to +5 kilder dev.to
En ny branche‑omfattende undersøgelse, der blev offentliggjort i denne uge, viser, at “Shadow AI” – den uautoriserede brug af store sprogmodeller (LLM’er) af medarbejdere – er langt mere udbredt, end de fleste sikkerhedsteams er klar over. Forskerne kvantificerede kløften mellem officielt godkendte AI‑værktøjer og de skjulte, medarbejder‑drevne arbejdsprocesser, der kanaliserer fortrolige data ind i offentlige chatbots som ChatGPT, Claude og Gemini. Undersøgelsen fandt, at på tværs af sektorer er de mest almindelige datatyper, der indsættes i disse tjenester, kundekommunikation, interne fortrolige dokumenter, kildekode, finansielle optegnelser og, i regulerede områder, beskyttede sundhedsoplysninger. Resultaterne er vigtige, fordi hver kopiering og indsættelse udgør et direkte brud på virksomhedens datastyringspolitikker og i mange jurisdiktioner en overtrædelse af privatlivsregler som GDPR og EU‑AI‑forordningen. Når fortroligt materiale havner på eksterne servere, mister organisationerne synlighed, risikerer model‑injektionsangreb og udsætter sig selv for intellektuel ejendoms­tyveri. Rapporten viser også, at virksomheder, der åbent opfordrer til eksperimentering, mens de leverer gennemgåede interne LLM‑platforme, oplever langt mindre Shadow AI – ikke fordi medarbejderne bruger AI mindre, men fordi deres aktivitet er synlig og styret.

Alle datoer